基于深度学习的OCR图像文字识别与段落输出方法与流程

文档序号：26758585发布日期：2021-09-25 05:01阅读：619来源：国知局

导航： X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术

基于深度学习的ocr图像文字识别与段落输出方法
技术领域
1.本发明涉及ocr文字识别技术领域，更具体地说，本发明涉及基于深度学习的ocr图像文字识别与段落输出方法。

背景技术：

2.ocr技术是光学字符识别的缩写(optical character recognition)，是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本，通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为ocr技术的评测依据；而相对于表格及票据，通常以识别率或整张通过率及识别速度为测定ocr技术的实用标准。
3.ocr技术已经成熟的运用在多个领域，如，单栏图像场景下，ocr文字识别工具的准确率较高，甚至超过9成，然而，在双栏，多栏期刊及其他复杂场景下，多栏的文字距离过近，不同段落之间的联系过于紧密等杂糅现象，使得ocr识别结果准确率低，或者是多栏的识别结果混杂起来，可读性较差，通过人工进行粘贴复制也将耗费大量时间。

技术实现要素：

4.为了克服现有技术的上述缺陷，本发明的实施例提供基于深度学习的ocr图像文字识别与段落输出方法，本发明所要解决的技术问题是：现有ocr识别中的结果杂糅问题，结果的可读性较差。
5.为实现上述目的，本发明提供如下技术方案：基于深度学习的ocr图像文字识别与段落输出方法，具体操作步骤如下：
6.s1、读入图像：将待识别的图像上传/导入，得到可编辑图像；
7.s2、图像预处理：将步骤s1中得到的可编辑图像进行编辑，调整该图像到指定大小，如：1000*1000*3；
8.s3、加载ctpn预训练模型：加载ctpn模型，先通过vgg16提取图像中的局部图像特征，再使用blstm提取上下文特征，然后用全连接层和多预测分支得到坐标值和概率值，最后合并字符为文本检测框；
9.s4：将步骤s2中预处理后得到图像读入步骤s3中加载的ctpn模型，得到一系列文本检测框；
10.s5、将步骤s4中得到的文本检测框优化并生成文本框数组，数组的每个元素为一个段落，具体步骤如下：
11.s5.1：在多栏文本的复杂文本中，先将文本检测框正确分栏；得到文本检测框数组，每个数组元素均为一栏；
12.s5.2：考虑到部分文本检测框过长，包含多栏的情况，为此，对这些“长文本检测
框”作切割操作；“长文本检测框”的切割已完成，每个文本检测框仅包含一栏；
13.s5.3：由于步骤s5.2中添加和修改了文本检测框，每栏的文本检测框数量发生了改变，因此，再做一遍步骤s5.1的操作；由此，得到优化后的文本检测框数组；
14.s5.4：最后，聚合每栏的文本检测框，生成段落；由此，文本框数组已全部生成，数组的每个元素即一个段落；
15.s6：文本识别，对文本框数组的每个元素依次识别；由此，得到由段落组成的文本内容。
16.在一个优选地实施方式中，所述步骤s2中调节步骤为：先通过rgb通道分别减去均值102.9801,115.9465,122.7717，再做max
‑
min 0
‑
1均一化处理。
17.在一个优选地实施方式中，所述步骤s5.1中分栏的详细操作：沿用ctpn中的anchor，即字符的宽度为16像素，设定5个字符长度为分栏的阈值，并记每个文本检测框的横坐标最小值为x_min；将文本检测框按x_min升序排列，遍历所有文本检测框，当x_min的极差不超过5个字符长度时，为一栏。
18.在一个优选地实施方式中，特别的，这里将大小标题各当做一栏处理。
19.在一个优选地实施方式中，所述步骤s5.2中切割操作的详细操作：首先记每栏中文本检测框合理的横坐标的最小最大值分别为x_left，x_right，每个文本检测框的横坐标最小最大值分别为x_min，x_max，设定将该栏中x_min，x_max的众数分别作为x_left，x_right。
20.在一个优选地实施方式中，遍历每栏的文本检测框，当x_max
‑
x_right的差大于2个字符长度时，将文本检测框切割为2个文本检测框，其中第一个文本检测框的x_min＝x_min，x_max＝x_right，第二个文本检测框的x_min＝x_max+16*2，x_max＝x_max。
21.在一个优选地实施方式中，所述步骤s5.4中聚合的详细操作：首先，记每个文本检测框的纵坐标的最小值为y_min，对每一栏，将文本检测框按y_min升序排列；记每个文本检测框的缩进和行尾空白分别为indent1，indent2,以每栏的x_left，x_right为对照，计算文本检测框的indent1＝x_min
‑
x_left，indent2＝x_right
‑
x_max；设定当文本检测框的indent1和上一个文本检测框的indent2之和，即indent1+indent2<＝3字符长度时，为一个段落。
22.在一个优选地实施方式中，由于ctpn得到的文本检测框存在一定的不精准问题，在文本检测框判定段落的同时，设置x_min＝x_left，从而解决文本检测框字符覆盖不完全的问题。
23.本发明的技术效果和优点：
24.本发明在深度学习检测模型ctpn的基础上，对复杂图像进行分栏分段识别；在复杂的多栏场景下对图像中的文字进行识别并段落输出，根本上解决已有ocr识别中的结果杂糅问题，大大提升结果的可读性。
附图说明
25.图1为本发明的段落生成模型图。
具体实施方式
26.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
27.本发明提供了基于深度学习的ocr图像文字识别与段落输出方法，具体操作步骤如下：
28.s1、读入图像：将待识别的图像上传/导入，得到可编辑图像；
29.s2、图像预处理：将步骤s1中得到的可编辑图像进行编辑，调整该图像到指定大小，如：1000*1000*3；rgb通道分别减去均值102.9801,115.9465,122.7717，再做max
‑
min 0
‑
1均一化处理；
30.s3、加载ctpn预训练模型：加载ctpn模型，先通过vgg16提取图像中的局部图像特征，再使用blstm提取上下文特征，然后用全连接层和多预测分支得到坐标值和概率值，最后合并字符为文本检测框；
31.s4：将步骤s2中预处理后得到图像读入步骤s3中加载的ctpn模型，得到一系列文本检测框；
32.s5、将步骤s4中得到的文本检测框优化并生成文本框数组，数组的每个元素为一个段落，具体步骤如下：
33.s5.1：在多栏文本的复杂文本中，先将文本检测框正确分栏；详细操作：沿用ctpn中的anchor，即字符的宽度为16像素，设定5个字符长度为分栏的阈值，并记每个文本检测框的横坐标最小值为x_min；将文本检测框按x_min升序排列，遍历所有文本检测框，当x_min的极差不超过5个字符长度时，为一栏，特别的，这里将大小标题各当做一栏处理；得到文本检测框数组，每个数组元素均为一栏；
34.s5.2：考虑到部分文本检测框过长，包含多栏的情况，为此，对这些“长文本检测框”作切割操作；详细操作：首先记每栏中文本检测框合理的横坐标的最小最大值分别为x_left，x_right，每个文本检测框的横坐标最小最大值分别为x_min，x_max，设定将该栏中x_min，x_max的众数分别作为x_left，x_right，遍历每栏的文本检测框，当x_max
‑
x_right的差大于2个字符长度时，将文本检测框切割为2个文本检测框，其中第一个文本检测框的x_min＝x_min，x_max＝x_right，第二个文本检测框的x_min＝x_max+16*2，x_max＝x_max；“长文本检测框”的切割已完成，每个文本检测框仅包含一栏；
35.s5.3：由于步骤s5.2中添加和修改了文本检测框，每栏的文本检测框数量发生了改变，因此，再做一遍步骤s5.1的操作；由此，得到优化后的文本检测框数组；
36.s5.4：最后，聚合每栏的文本检测框，生成段落；详细操作：首先，记每个文本检测框的纵坐标的最小值为y_min，对每一栏，将文本检测框按y_min升序排列；记每个文本检测框的缩进和行尾空白分别为indent1，indent2,以每栏的x_left，x_right为对照，计算文本检测框的indent1＝x_min
‑
x_left，indent2＝x_right
‑
x_max；设定当文本检测框的indent1和上一个文本检测框的indent2之和，即indent1+indent2<＝3字符长度时，为一个段落，由于ctpn得到的文本检测框存在一定的不精准问题，在文本检测框判定段落的同时，设置x_min＝x_left，从而解决文本检测框字符覆盖不完全的问题；由此，文本框数组已全
部生成，数组的每个元素即一个段落；
37.s6：文本识别，对文本框数组的每个元素依次识别；由此，得到由段落组成的文本内容。
38.如图1所示的，实施方式具体为：
39.1.文本检测模型在复杂多栏场景下，单个文本检测框同时覆盖多栏文本内容的情况较为常见，这很大程度增加了后处理的复杂度；本方法中，以“栏+段落”的检测方法基本解决上述问题，具体操作：从多栏的角度出发，每个文本框的句首和句末会受到该栏的宽度限制；为此，通过同栏的文本框比对，将横坐标的最小最大值出现频次最多的坐标作为合理的横坐标的最小最大值，即得到更为准确的句首和句末；遍历每栏的文本框，当横坐标的最大值超出合理的句末时，对横坐标作切割，并以合理的最大值作为新的句末，并将剩余部分添加至后面的栏中，直到所有文本框的句末都在合理最大值的范围中；
40.2.文本检测模型在复杂多栏场景下，文本框的检测精度会受到明显影响；本方法中，文本框精度问题明显缓解，具体操作：通过同栏的文本框的比对，将横坐标的最小最大值出现频次最多的坐标作为合理的横坐标的最小最大值，即得到更为准确的句首和句末；遍历该栏的所有文本框，对精度不高的文本框的横坐标作修正，修正为合理的句首和句末，保证文本框可全部覆盖文本内容；
41.3.文本检测模型在复杂多栏场景下，其输出通常也是按行输出而不考虑段落，在可读性上存在较大问题；本方法中，按照内容书写的自然规律，根据段落前的末尾空格和段落开头的自然缩进，作自动化的段落识别；此外大小标题也会作为单独的段落输出；由此，段落输出的结果展示大大提高了可读性。
42.最后应说明的几点是：首先，在本技术的描述中，需要说明的是，除非另有规定和限定，术语“安装”、“相连”、“连接”应做广义理解，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变，则相对位置关系可能发生改变；
43.其次：本发明公开实施例附图中，只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计，在不冲突情况下，本发明同一实施例及不同实施例可以相互组合；
44.最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页 1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卢红波
技术所有人：全知科技（杭州）有限责任公司
我是此专利的发明人

上一篇：一种应用于VOCs治理领域内的分子筛的使用方法与流程
上一篇：一种心肺复苏抢救装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。