基于深度学习的OCR图像文字识别与段落输出方法与流程

文档序号:26758585发布日期:2021-09-25 05:01阅读:619来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
基于深度学习的OCR图像文字识别与段落输出方法与流程
基于深度学习的ocr图像文字识别与段落输出方法
技术领域
1.本发明涉及ocr文字识别技术领域,更具体地说,本发明涉及基于深度学习的ocr图像文字识别与段落输出方法。


背景技术:

2.ocr技术是光学字符识别的缩写(optical character recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本,通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为ocr技术的评测依据;而相对于表格及票据,通常以识别率或整张通过率及识别速度为测定ocr技术的实用标准。
3.ocr技术已经成熟的运用在多个领域,如,单栏图像场景下,ocr文字识别工具的准确率较高,甚至超过9成,然而,在双栏,多栏期刊及其他复杂场景下,多栏的文字距离过近,不同段落之间的联系过于紧密等杂糅现象,使得ocr识别结果准确率低,或者是多栏的识别结果混杂起来,可读性较差,通过人工进行粘贴复制也将耗费大量时间。


技术实现要素:

4.为了克服现有技术的上述缺陷,本发明的实施例提供基于深度学习的ocr图像文字识别与段落输出方法,本发明所要解决的技术问题是:现有ocr识别中的结果杂糅问题,结果的可读性较差。
5.为实现上述目的,本发明提供如下技术方案:基于深度学习的ocr图像文字识别与段落输出方法,具体操作步骤如下:
6.s1、读入图像:将待识别的图像上传/导入,得到可编辑图像;
7.s2、图像预处理:将步骤s1中得到的可编辑图像进行编辑,调整该图像到指定大小,如:1000*1000*3;
8.s3、加载ctpn预训练模型:加载ctpn模型,先通过vgg16提取图像中的局部图像特征,再使用blstm提取上下文特征,然后用全连接层和多预测分支得到坐标值和概率值,最后合并字符为文本检测框;
9.s4:将步骤s2中预处理后得到图像读入步骤s3中加载的ctpn模型,得到一系列文本检测框;
10.s5、将步骤s4中得到的文本检测框优化并生成文本框数组,数组的每个元素为一个段落,具体步骤如下:
11.s5.1:在多栏文本的复杂文本中,先将文本检测框正确分栏;得到文本检测框数组,每个数组元素均为一栏;
12.s5.2:考虑到部分文本检测框过长,包含多栏的情况,为此,对这些“长文本检测
框”作切割操作;“长文本检测框”的切割已完成,每个文本检测框仅包含一栏;
13.s5.3:由于步骤s5.2中添加和修改了文本检测框,每栏的文本检测框数量发生了改变,因此,再做一遍步骤s5.1的操作;由此,得到优化后的文本检测框数组;
14.s5.4:最后,聚合每栏的文本检测框,生成段落;由此,文本框数组已全部生成,数组的每个元素即一个段落;
15.s6:文本识别,对文本框数组的每个元素依次识别;由此,得到由段落组成的文本内容。
16.在一个优选地实施方式中,所述步骤s2中调节步骤为:先通过rgb通道分别减去均值102.9801,115.9465,122.7717,再做max

min 0

1均一化处理。
17.在一个优选地实施方式中,所述步骤s5.1中分栏的详细操作:沿用ctpn中的anchor,即字符的宽度为16像素,设定5个字符长度为分栏的阈值,并记每个文本检测框的横坐标最小值为x_min;将文本检测框按x_min升序排列,遍历所有文本检测框,当x_min的极差不超过5个字符长度时,为一栏。
18.在一个优选地实施方式中,特别的,这里将大小标题各当做一栏处理。
19.在一个优选地实施方式中,所述步骤s5.2中切割操作的详细操作:首先记每栏中文本检测框合理的横坐标的最小最大值分别为x_left,x_right,每个文本检测框的横坐标最小最大值分别为x_min,x_max,设定将该栏中x_min,x_max的众数分别作为x_left,x_right。
20.在一个优选地实施方式中,遍历每栏的文本检测框,当x_max

x_right的差大于2个字符长度时,将文本检测框切割为2个文本检测框,其中第一个文本检测框的x_min=x_min,x_max=x_right,第二个文本检测框的x_min=x_max+16*2,x_max=x_max。
21.在一个优选地实施方式中,所述步骤s5.4中聚合的详细操作:首先,记每个文本检测框的纵坐标的最小值为y_min,对每一栏,将文本检测框按y_min升序排列;记每个文本检测框的缩进和行尾空白分别为indent1,indent2,以每栏的x_left,x_right为对照,计算文本检测框的indent1=x_min

x_left,indent2=x_right

x_max;设定当文本检测框的indent1和上一个文本检测框的indent2之和,即indent1+indent2<=3字符长度时,为一个段落。
22.在一个优选地实施方式中,由于ctpn得到的文本检测框存在一定的不精准问题,在文本检测框判定段落的同时,设置x_min=x_left,从而解决文本检测框字符覆盖不完全的问题。
23.本发明的技术效果和优点:
24.本发明在深度学习检测模型ctpn的基础上,对复杂图像进行分栏分段识别;在复杂的多栏场景下对图像中的文字进行识别并段落输出,根本上解决已有ocr识别中的结果杂糅问题,大大提升结果的可读性。
附图说明
25.图1为本发明的段落生成模型图。
具体实施方式
26.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
27.本发明提供了基于深度学习的ocr图像文字识别与段落输出方法,具体操作步骤如下:
28.s1、读入图像:将待识别的图像上传/导入,得到可编辑图像;
29.s2、图像预处理:将步骤s1中得到的可编辑图像进行编辑,调整该图像到指定大小,如:1000*1000*3;rgb通道分别减去均值102.9801,115.9465,122.7717,再做max

min 0

1均一化处理;
30.s3、加载ctpn预训练模型:加载ctpn模型,先通过vgg16提取图像中的局部图像特征,再使用blstm提取上下文特征,然后用全连接层和多预测分支得到坐标值和概率值,最后合并字符为文本检测框;
31.s4:将步骤s2中预处理后得到图像读入步骤s3中加载的ctpn模型,得到一系列文本检测框;
32.s5、将步骤s4中得到的文本检测框优化并生成文本框数组,数组的每个元素为一个段落,具体步骤如下:
33.s5.1:在多栏文本的复杂文本中,先将文本检测框正确分栏;详细操作:沿用ctpn中的anchor,即字符的宽度为16像素,设定5个字符长度为分栏的阈值,并记每个文本检测框的横坐标最小值为x_min;将文本检测框按x_min升序排列,遍历所有文本检测框,当x_min的极差不超过5个字符长度时,为一栏,特别的,这里将大小标题各当做一栏处理;得到文本检测框数组,每个数组元素均为一栏;
34.s5.2:考虑到部分文本检测框过长,包含多栏的情况,为此,对这些“长文本检测框”作切割操作;详细操作:首先记每栏中文本检测框合理的横坐标的最小最大值分别为x_left,x_right,每个文本检测框的横坐标最小最大值分别为x_min,x_max,设定将该栏中x_min,x_max的众数分别作为x_left,x_right,遍历每栏的文本检测框,当x_max

x_right的差大于2个字符长度时,将文本检测框切割为2个文本检测框,其中第一个文本检测框的x_min=x_min,x_max=x_right,第二个文本检测框的x_min=x_max+16*2,x_max=x_max;“长文本检测框”的切割已完成,每个文本检测框仅包含一栏;
35.s5.3:由于步骤s5.2中添加和修改了文本检测框,每栏的文本检测框数量发生了改变,因此,再做一遍步骤s5.1的操作;由此,得到优化后的文本检测框数组;
36.s5.4:最后,聚合每栏的文本检测框,生成段落;详细操作:首先,记每个文本检测框的纵坐标的最小值为y_min,对每一栏,将文本检测框按y_min升序排列;记每个文本检测框的缩进和行尾空白分别为indent1,indent2,以每栏的x_left,x_right为对照,计算文本检测框的indent1=x_min

x_left,indent2=x_right

x_max;设定当文本检测框的indent1和上一个文本检测框的indent2之和,即indent1+indent2<=3字符长度时,为一个段落,由于ctpn得到的文本检测框存在一定的不精准问题,在文本检测框判定段落的同时,设置x_min=x_left,从而解决文本检测框字符覆盖不完全的问题;由此,文本框数组已全
部生成,数组的每个元素即一个段落;
37.s6:文本识别,对文本框数组的每个元素依次识别;由此,得到由段落组成的文本内容。
38.如图1所示的,实施方式具体为:
39.1.文本检测模型在复杂多栏场景下,单个文本检测框同时覆盖多栏文本内容的情况较为常见,这很大程度增加了后处理的复杂度;本方法中,以“栏+段落”的检测方法基本解决上述问题,具体操作:从多栏的角度出发,每个文本框的句首和句末会受到该栏的宽度限制;为此,通过同栏的文本框比对,将横坐标的最小最大值出现频次最多的坐标作为合理的横坐标的最小最大值,即得到更为准确的句首和句末;遍历每栏的文本框,当横坐标的最大值超出合理的句末时,对横坐标作切割,并以合理的最大值作为新的句末,并将剩余部分添加至后面的栏中,直到所有文本框的句末都在合理最大值的范围中;
40.2.文本检测模型在复杂多栏场景下,文本框的检测精度会受到明显影响;本方法中,文本框精度问题明显缓解,具体操作:通过同栏的文本框的比对,将横坐标的最小最大值出现频次最多的坐标作为合理的横坐标的最小最大值,即得到更为准确的句首和句末;遍历该栏的所有文本框,对精度不高的文本框的横坐标作修正,修正为合理的句首和句末,保证文本框可全部覆盖文本内容;
41.3.文本检测模型在复杂多栏场景下,其输出通常也是按行输出而不考虑段落,在可读性上存在较大问题;本方法中,按照内容书写的自然规律,根据段落前的末尾空格和段落开头的自然缩进,作自动化的段落识别;此外大小标题也会作为单独的段落输出;由此,段落输出的结果展示大大提高了可读性。
42.最后应说明的几点是:首先,在本技术的描述中,需要说明的是,除非另有规定和限定,术语“安装”、“相连”、“连接”应做广义理解,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变,则相对位置关系可能发生改变;
43.其次:本发明公开实施例附图中,只涉及到与本公开实施例涉及到的结构,其他结构可参考通常设计,在不冲突情况下,本发明同一实施例及不同实施例可以相互组合;
44.最后:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 一种公文智能签收方法及设备与...
  • 一种分析洞穴围岩局部稳定性的...
  • 投屏数据的处理方法及装置与流...
  • 一种基于DMD和YOLOV5...
  • 一种安全生产教育及安全知识评...
  • 一种基于几何一致性约束的三维...
  • 基于3D技术的变电站屏柜二次...
  • 数据查询方法、装置、计算机设...
  • 基于联邦学习的对抗生成网络模...
  • 一种对合成孔径雷达灰度图像进...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

天下网标王网站优化跳出行为重庆优化网站推广广东网站优化报价寿光网站优化价格网站优化方案 评分标准优化一套公司网站需要多久武汉优化网站价格汾酒集团网站标签优化河北瓷砖行业网站优化推广方案网站推广优化优选谷哥巴音郭楞蒙古网站优化芜湖县网站关键词优化费用网站优化应该注意的细节虹口网站优化公司贵阳网站优化公司深圳网站自动优化公司郴州网站优化费用多少推广网站优化难吗奎文网站优化推广外包网站导航怎么做优化安庆网站优化公司报价视频网站收录优化丰润网站优化联系电话重庆企业网站优化哪家好高新外贸型网站优化软件佛山seo网站优化如何优化不同类型的网站天河企业网站推广优化技巧郑州家装行业网站优化推广可靠吗海东网站优化香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

天下网标王 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化