Marior去除边距和迭代内容矫正用于自然文档矫正
一、简要介绍
本文简要介绍了论文“Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild”的相关工作。照相机捕捉到的文档图像通常会出现透视和几何变形。考虑到视觉美感较差和OCR系统性能下降,对其进行纠正具有重要的价值。最近的基于学习的方法集中关注于精确裁剪的文档图像。然而,这可能不足以克服实际挑战,包括具有大边缘区域或没有边缘区域的文档图像。由于这种不切实际,用户在遇到大型边缘区域时难以精确地裁剪文档。同时,无边缘的变形图像仍然是一个难以解决的问题。据作者所知,目前还没有完整有效的pipeline来纠正文档图像。为了解决这个问题,作者提出了一种新的方法,称为Marior(边缘去除和迭代内容修正)。Marior采用渐进策略,以从粗到细的方式迭代地提高去变形质量和可读性。具体来说,作者将pipeline划分为两个模块:边缘去除模块(MRM)和迭代内容校正模块(ICRM)。首先,作者预测输入图像的分割掩膜去除边缘,从而得到初步结果。然后,作者通过产生密集的位移流来进一步细化图像,以实现内容感知的校正。作者自适应地确定细化迭代的次数。实验证明了作者的方法在公共基准上的最新性能。
二、研究背景
借助移动设备中先进的内置摄像头,将日常生活中无处不在的文档数字化已经为人们变得方便。但是,由于相机的角度和位置不合适,所捕获的文档图像通常包含透视变形。此外,文档本身也可能因弯曲、折叠或折痕而发生几何变形。这些类型的变形导致了光学字符识别(OCR)系统的性能下降,并导致读者的可读性较差。
最近的基于深度学习的去变形方法在对各种文档布局的鲁棒性方面取得了很大的进展。但是,它们几乎都只关注精确裁剪的文档图像,而忽略了边缘区域较大或没有边缘区域的情况,分别如图1 (a)和(b)所示。在本研究中,边缘区域是指由不属于感兴趣的文档的像素组成的区域。为了解决这个问题,作者可以在培训过程中考虑到所有这些情况,但作者发现结果不令人满意(参考补充材料)。作者认为,这归因于额外的内隐学习来识别前景文档和去除边缘区域。另一种方法是在去变形之前实现现有的目标检测算法,以避免需要手工裁剪。然而,没有带边缘的文档图像仍然是一个未解决的问题。因此,仍然没有完整和有效的pipeline来处理自然的所有情况。
因此,作者提出了Marior(边际去除和迭代内容修正)来解决这个问题,该模块由两个级联模块组成:边缘去除模块(MRM)和迭代内容修正模块(ICRM)。Marior使边缘去除和文件整改过程解耦。具体来说,在MRM中,作者首先将源失真图像输入作者的掩膜预测网络,该网络预测相应的文档分割掩膜。在此基础上,作者提出了一种基于掩膜的去变形器(MBD)来去除基于该掩膜的边缘,并得到了初步的变形结果。对于没有边缘区域和没有完整文档边缘的图像,如图1 (b)所示,作者建议使用基于IoU的方法将它们过滤掉并跳过边缘去除过程,这一灵感来自于观察到这些图像通常会导致噪声掩膜。
之后,作者将MRM中去掉边缘的输出输入ICRM以进行进一步细化。它预测了一个密集的位移流,该流为输入图像中的每个像素分配了一个二维(2D)偏移向量。根据该流进行校正后,作者得到了一个去变形的输出图像。因为删除了边缘的图像更多关注内容(例如,文本行和图形),所以ICRM能够感知内容。因此,作者进一步设计了一种新的内容感知损失,以隐式地指导ICRM更多地关注信息区域,如文本线和图形,而不是统一的文档背景。这种设计基于一种直觉,后者包含更少的变形线索,对变形结果的轻微偏差在视觉上可以忽略不计。此外,作者还发现,ICRM的迭代实现可以提高整改性能。为此,作者提出了一种自适应的方法来确定迭代次数,以使所提出的迭代ICRM过程更加智能和高效。
综上所述,作者的贡献如下:
作者提出了一种新的方法Marior来处理具有各种边缘情况的文档图像,这些情况被现有的基于学习的方法忽略了。
在作者的边缘去除模块(MRM)中提出了一种新的基于掩膜的存储器,该模块基于预测的分割掩膜对文档图像进行粗破坏。然后提出了一个迭代内容整正模块(ICRM),通过预测密集位移流来进一步细化图像。
作者设计了一种新的内容感知损失,以隐式地引导流预测网络更多地关注信息区域。作者还提出了一种自适应迭代策略来提高性能。
广泛的实验表明,所提出的Marior在两个广泛使用的公共基准上取得了最先进的性能。此外,这种方法在处理具有不同边缘的困难情况也取得了重大成功。
3.1边缘去除模块(MRM)
掩膜预测。为了从给定的图像中删除边缘,作者首先要定位文档区域。作者认为定位是一个语义分割任务,其目的是产生一个精确表示文档区域的掩膜。作者的掩膜预测网络的体系结构如图3(a)所示,直接采用了DeepLabv3+ 中的编码器和解码器。除了文档掩膜外,作者还设计了一个头部来产生一个用于辅助训练的边缘掩膜。此外,作者观察到文档掩膜具有一个独特的和相对固定的模式,如相对直的边、一个较大的连接区域和一个接近四边形的形状。如图3 (a)所示,作者使用GAN框架将这些先验知识应用到MRM中。作者发现这可以有效地降低所产生的掩膜上的噪声,如图3 (b)。所示该目标被定义为:
这是为了在优化鉴别器时,减少独热编码正样本与生成的负样本之间的分布差距。值得注意的是,该掩膜预测模型也可以作为其他替代的分割模型,它只需要能够提供文档区域的分割掩膜。
3.2迭代内容校正模块(ICRM)
使用MRM进行初步去变形的结果并不完美。原因有两方面。第一个原因是在每条边上选择等距点不考虑深度信息;因此,这种等距划分与在物理纸上进行的划分不一致。第二个原因是,有时,当预测的掩膜遇到不清楚的边缘或非常复杂的边缘时,它并不够准确。此外,没有边缘区域的文档图像跳过了初步的去变形,因此仍然没有被触及。
四、实验
4.1数据集
作者在Doc3D 数据集上训练MRM和ICRM中的两个网络,该数据集包含100k个丰富注释的样本。作者将数据集分为90k训练数据和10k验证数据。在掩膜预测训练过程中,作者随机将边缘替换为《Describing textures in the wild.》纹理图像的边缘作为数据增强。除了常用的随机裁剪和缩放外,作者还采用了随机擦除的方法。ICRM的训练数据(包括源失真输入图像和ground truth位移流)首先由作者提出的MBD进行预处理。作者认为从反照率图(在Doc3D中提供)得到的二值化结果是等式8中的Mc。
4.2消融实验
作者将没有数据增强的vanilla DeepLabv3+作为baseline,并给出了在表1中获得的改进。作者使用在《Real-time document localization in natural images by recursive application of a CNN》中提出的数据集验证了模型,它由120个真实单词的文档图像组成。该数据集是为文档定位而构建的,并且只使用文档的四个角进行注释,作者使用它来生成四边形ground truth掩膜(这些文档图像只包含透视变形)。如表1所示,数据增强大大提高了性能。在作者的MRM中的掩膜预测网络也得到了改进。引入先验知识的有效性见图3 (b)。
作者进一步评估了提出的内容感知损失在Doc3D验证集上的有效性。作者使用结构相似度指数(SSIM)来评估由D^产生的修正图像的质量。如表2所示,作者使用β=3的设置获得了最好的图像质量,这表明了作者提出的内容感知损失的贡献。
4.3在公共基准上的比较
评价指标。作者使用多尺度结构相似度(MS-SSIM)和局部失真(LD)来评估所产生的校正图像与其扫描的ground truth值之间的图像相似度。MS-SSIM是一种广泛应用的图像结构相似度评价度量。LD通过预测密集的SIFT流来评估局部失真。此外,作者使用带有LSTM引擎的Tesseract 4.1.01作为文本识别器,对校正图像上的文本进行识别,也显示了校正性能。作者使用字符错误率(CER)来评估识别结果,该错误率来自于识别文本和参考文本之间的列文斯坦距离。CER可以计算为CER=(s+i+d)/N,其中s,i和d分别是来自列文斯坦距离的替换、插入和删除的数量。N是参考文本中的字符数。
DocUNet benchmark。该数据集的定量结果如表3所示,其中“Crop”代表了以往研究中通常用于比较的准确裁剪图像。“Origin”表示最初捕获的图像,因此包含较大的边缘区域。为了进行更公平的比较,在“Origin”子集上进行实验时,使用Faster R-CNN 作为附加到其他方法上的文档检测器。这个探测器的细节包括在补充材料中。按照DewarpNet[7]中的建议,对50张富含文本的图像执行文本识别。作者将从相应扫描的ground truth图像中识别出的文本作为参考文本。
作者首先评估了内容整改和迭代策略的有效性。结果显示在表3的最后三行中。Baseline是没有ICRM的Marior(即,只采用MRM)。在没有迭代的情况下实现一次内容修正后(即表3中的Marior w/o iteraion),所有三个指标都得到了显著的改善。特别是,在“Crop”和“Origin”子集上的CER分别降低了19%和14%。这证明了ICRM对文档内容整改的有效性。此外,在作者迭代实现文档内容整改(即表3中的Marior)后,结果进一步改善。
与“Crop”子集上的现有方法相比,Marior取得了相当的性能。然而,在“Origin”子集上,Marior方法比现有的方法更好,即使Marior也没有检测器的帮助。定性比较如图6和图7所示。在图6中,作者将作者的方法与DocProj [20]、DewarpNet [7]和Xie等人的[40]的方法进行了比较。前三列中的输入图像来自于“Crop”子集。虽然DocProj [20]在一定程度上纠正了文档内容,但边缘仍然存在,这导致了糟糕的视觉美学。删除网[7]和Xie等[40]的方法很好地纠正了文档内容,同时删除了边缘。与[7]和[40]方法相比,作者的方法还取得了良好的感知性能和细节方面的性能。第4列和第5列的输入图像来自“Origin”子集,如果借助一个强大的文档检测器,以前的方法可以获得可信的结果。相比之下,Marior可以用嘴探测器来处理这个子集。对于在第6列、第7列中没有边缘区域的输入图像,Marior仍然取得了令人满意的性能,而现有的方法却没有。作者与图7中最先进的无变形方法和DocTr进行了进一步的比较,这也证明了作者的前后方法的优越性。
OCR_REAL dataset。这个数据集包含文本ground truth,作者认为它是CER度量的参考文本。此外,由于缺乏扫描的ground truth图像,作者不评估MS-SSIM和LD。识别性能与识别引擎高度相关。因此,为了更严格,作者在Tesseract 4.1.01中同时使用基于深度学习(LSTM)和非基于深度学习的引擎来执行识别。作者还评估了在该数据集上的不同方法的平均运行时间。为了进行公平的比较,当作者评估运行时间时,保持每种方法的输出图像的分辨率相同(1024×960),当采样图像的分辨率不同时,运行时间会有所不同。结果如表4所示,与其他方法相比,DocProj [20]、DocTr [10]和Marior在两种识别引擎下都实现了稳定和优越的性能。然而,DocProj [20]和DocTr [10]比Marior更耗时。另外,如前所分析,如图8所示,DocProj [20]由于无法去除边缘,无法实现Marior呈现的视觉美感。
五、总结与讨论
作者提出了一种简单而有效的方法,Marior,以从粗到细的方式为变形文档图像矫正。作者采用两个级联模块,首先去除文档图像的边缘,然后对内容进行进一步的修正。所提出的Marior自适应地决定了迭代的次数,从而实现了效率和性能之间的权衡。作者提出的方法不仅在DocUNet [25]和OCR_REAL [23]基准数据集上取得了最先进的性能,而且成功地解决了具有大边缘区域的情况和没有边缘区域的情况,这在以往的研究中研究较少。这是在自然文档矫正方面的一个重大成功。在今后的工作中,有必要探索对这两个模块进行端到端优化,以获得更好的性能。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。