本发明涉及领域,尤其涉及一种在音视频中基于关键词的时间戳定位搜索方法。
背景技术:
现阶段视频有自动生成字幕功能,音频有自动生成歌词类文件的功能,但是,暂时还没有针对音视频中关键词出现位置的时间戳定位的功能,也没有像百度搜索关键词一样,对海量音视频文件进行内容搜索与定位的应用或工具。
使用者在观看视频或音频时无法根据关键词而调整观看进度。
技术实现要素:
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种在音视频中基于关键词的时间戳定位搜索方法。
(二)技术方案
为解决上述问题,本发明提供了一种在音视频中基于关键词的时间戳定位搜索方法,包括以下步骤:
s1:准备音频和视频;
s2:将音频和视频中的音频部分通过第三方的语音识别技术进行文字识别,生成lrc文件,文件中包含文字时间戳;
s3:对lrc文件内容的文字进行分词处理并存入elasticsearch搜索引擎;
s4:对用户输入的关键字进行搜索并返回出现该关键字的时的时间戳。
优选的,在s2中,lrc文件中包含时间起点、时间终点、中文翻译以及英文字幕。
优选的,在s3中,搜索引擎分别对中文和英文进行分词处理,并形成关键字。
优选的,在s3中,通过elasticsearch的搜索api进行关键词查找,并返回汇总时间戳。
优选的,在s2中,第三方的语音识别技术,包括但不限于讯飞、百度、阿里或者腾讯的语音识别技术。
优选的,在s2中,在第三方语音识别对非中文或个别方言的识别准确率低的情况下,采用人工审核的方式进行修正。
本发明的上述技术方案具有如下有益的技术效果:
本发明中,实现对音频以及视频文件中,文字部分的关键字标记,并通过标记时间戳的方式,使得用户能够根据该时间戳快速找到该关键字在音频以及视频中出现的位置,使用便捷且高效。
本发明中,lrc文件中包含时间起点、时间终点、中文翻译以及英文字幕,时间戳标记方便,标记效率高;将上述内容全部放入搜索引擎中,搜索引擎可根据中文和英文分别对语句进行分词处理,方便形成关键字,实现搜索;系统通过elasticsearch的搜索api进行关键词查找,并返回汇总时间戳,系统整体工作效率高,准确率高。
附图说明
图1为本发明提出的在音视频中基于关键词的时间戳定位搜索方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的一种在音视频中基于关键词的时间戳定位搜索方法,其特征在于,包括以下步骤:
s1:准备音频和视频;
s2:将音频和视频中的音频部分通过第三方的语音识别技术进行文字识别,生成lrc文件,文件中包含文字时间戳;
s3:对lrc文件内容的文字进行分词处理并存入elasticsearch搜索引擎;
s4:对用户输入的关键字进行搜索并返回出现该关键字的时的时间戳。
在一个可选的实施例中,在s2中,lrc文件中包含时间起点、时间终点、中文翻译以及英文字幕。
在一个可选的实施例中,在s3中,搜索引擎分别对中文和英文进行分词处理,并形成关键字。
在一个可选的实施例中,在s3中,通过elasticsearch的搜索api进行关键词查找,并返回汇总时间戳。
本发明中,实现对音频以及视频文件中,文字部分的关键字标记,并通过标记时间戳的方式,使得用户能够根据该时间戳快速找到该关键字在音频以及视频中出现的位置,使用便捷且高效。
本发明中,lrc文件中包含时间起点、时间终点、中文翻译以及英文字幕,时间戳标记方便,标记效率高;将上述内容全部放入搜索引擎中,搜索引擎可根据中文和英文分别对语句进行分词处理,方便形成关键字,实现搜索;系统通过elasticsearch的搜索api进行关键词查找,并返回汇总时间戳,系统整体工作效率高,准确率高。
在一个可选的实施例中,在s2中,第三方的语音识别技术,包括但不限于讯飞、百度、阿里或者腾讯的语音识别技术。
在一个可选的实施例中,在s2中,在第三方语音识别对非中文或个别方言的识别准确率低的情况下,采用人工审核的方式进行修正,人工修正准确率高,缺点是识别速度慢,成本高。
应用举例:
1、搜索关键字“三角函数”,返回各个名校名师讲解视频的连接并定位到该知识点的时间戳位置。
2、在一部具体的教学视频中,确定讲解某个概念的具体位置信息列表。
3、通过对一部视频中关键字排序,发现讲解人的口水话,以便自我发现与修正。
4、为一组视频添加自动归类:针对国家安全部门的语音材料关键词定位(电话语音相关);法庭语音相关关键取证信息定位(案件语音证据);售后关键词录音定位(售后录音文件);个人家庭视频(家庭音视频资源);教学视频(教学相关音视频)。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
1.一种在音视频中基于关键词的时间戳定位搜索方法,其特征在于,包括以下步骤:
s1:准备音频和视频;
s2:将音频和视频中的音频部分通过第三方的语音识别技术进行文字识别,生成lrc文件,文件中包含文字时间戳;
s3:对lrc文件内容的文字进行分词处理并存入elasticsearch搜索引擎;
s4:对用户输入的关键字进行搜索并返回出现该关键字的时的时间戳。
2.根据权利要求1所述的在音视频中基于关键词的时间戳定位搜索方法,其特征在于,在s2中,lrc文件中包含时间起点、时间终点、中文翻译以及英文字幕。
3.根据权利要求1所述的在音视频中基于关键词的时间戳定位搜索方法,其特征在于,在s3中,搜索引擎分别对中文和英文进行分词处理,并形成关键字。
4.根据权利要求1所述的在音视频中基于关键词的时间戳定位搜索方法,其特征在于,在s3中,通过elasticsearch的搜索api进行关键词查找,并返回汇总时间戳。
5.根据权利要求1所述的在音视频中基于关键词的时间戳定位搜索方法,其特征在于,在s2中,第三方的语音识别技术,包括但不限于讯飞、百度、阿里或者腾讯的语音识别技术。
6.根据权利要求1所述的在音视频中基于关键词的时间戳定位搜索方法,其特征在于,在s2中,在第三方语音识别对非中文或个别方言的识别准确率低的情况下,采用人工审核的方式进行修正。
天下网标王东莞网站优化关键词哪家好网站自动优化软件 下载优化网站择火15星精湛建湖网站搜索优化工作室湛江网站关键字优化英泰移动优化网站移动网站优化推广秦淮快速优化网站松江区搜索引擎网站优化费用黄平网站seo优化公司盘锦网站优化公司咸宁工厂网站优化哪家好优化网站域名推广优化网站教程哪里有网站优化公司网站优化需要学习哪些技能优化网站方法先询火25星网站怎么优化关键词快速提升排网站建设迭代优化商丘网站优化出售网站优化毕业设计十堰工厂网站优化哪家好东营网站建设优化建站GOOGLE网站优化设计网站路径优化是什么意思金华网站优化公司哪家好值得信赖黄骅市网站seo优化排名宁波网站优化哪里实惠洛阳网站优化有哪些遂川seo网站优化香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤