需求痛点

随着信息化程度的持续加深,大量的文档经数字化加工,以图像的格式保存和传播。在很多业务智能化的过程中,都需要从一些复杂版面布局的图像中提取结构化数据信息,例如商业票据中的关键字段、研究报告中的表格、科技文献中的公式等。在计算机视觉的研究范畴内,该需求属于文档识别分析OCR领域的工作。在OCR领域已经有大量的开源工具如PaddleOCR和EasyOCR,也有各类商业软件如Adobe、微软Office和Abbyy,但都没有很好的解决上述的结构化抽取问题和版面布局识别问题。

功能特性

1)文档支持能力:支持导入图像文件、支持屏幕截图、支持多页PDF文件并指定其中部分页码
2)文字识别能力:支持高精度的中英文识别,包括常见汉字、中英文符号、空格等
3)图像去噪能力:自动检测每页图像是否倾斜并自动纠正,检测每页图像上是否有印章,并智能去除印章
4)分栏识别能力:自动检测文档是否存在分栏,并给出推测的分栏线并可手动调节
5)有线表格识别能力:自动检测出带线表格,支持各种嵌套合并表格识别,支持手动画线调整表格结构
6)无线表格识别能力:半自动检测识别无线表格,支持手动画线调整表格结构
7)图片识别能力:自动检测出图文混排文档中的图片区域,并支持手动调整图片范围
8)公式识别能力:自动检测出文档中的单行公式和多行公式,并识别为latex格式,支持手动修改
9)图文对照能力:对每个识别的文字可显示其识别置信度,并显示原始图片的对应区域对照修改
10)格式输出能力:可将文档输出成txt、word和excel等结构化文档,进一步编辑
11)应用集成能力:根据需求可提供如下不同版本:
(1)CPU单机版:在多核CPU上运行,软件包含识别引擎和图形化界面,支持Mac、Windows和中标麒麟等操作系统,支持ARM和X86多种指令集平台;
(2)GPU单机版:在支持CUDA的GPU上运行,软件包含识别引擎和图形化界面,支持Mac、Windows和中标麒麟等操作系统,支持ARM和X86多种指令集平台;
(3)硬件版:软件包含识别引擎和图形化界面,运行在专用独立硬件盒子上,功耗低、部署简单;
(4)私有部署网络版:包含桌面端和识别引擎后台服务,后台服务支持私有化部署;
(5)SDK服务版:将识别引擎封装成独立服务提供对外服务接口,支持私有化部署。

后续功能规划

1)增加无线表格自动化识别能力;
2)增加票据等表单的结构化抽取和输出能力;
3)增加多语种语言识别能力。

研发团队

熊永平

北京邮电大学 网络与交换技术国家重点实验室 副教授 博士生导师
研究方向:计算机视觉、智能教育等