火眼OCR

需求痛点

随着信息化程度的持续加深，大量的文档经数字化加工，以图像的格式保存和传播。在很多业务智能化的过程中，都需要从一些复杂版面布局的图像中提取结构化数据信息，例如商业票据中的关键字段、研究报告中的表格、科技文献中的公式等。在计算机视觉的研究范畴内，该需求属于文档识别分析OCR领域的工作。在OCR领域已经有大量的开源工具如PaddleOCR和EasyOCR，也有各类商业软件如Adobe、微软Office和Abbyy，但都没有很好的解决上述的结构化抽取问题和版面布局识别问题。

功能特性

1）文档支持能力：支持导入图像文件、支持屏幕截图、支持多页PDF文件并指定其中部分页码

2）文字识别能力：支持高精度的中英文识别，包括常见汉字、中英文符号、空格等

3）图像去噪能力：自动检测每页图像是否倾斜并自动纠正，检测每页图像上是否有印章，并智能去除印章

4）分栏识别能力：自动检测文档是否存在分栏，并给出推测的分栏线并可手动调节

5）有线表格识别能力：自动检测出带线表格，支持各种嵌套合并表格识别，支持手动画线调整表格结构

6）无线表格识别能力：半自动检测识别无线表格，支持手动画线调整表格结构

7）图片识别能力：自动检测出图文混排文档中的图片区域，并支持手动调整图片范围

8）公式识别能力：自动检测出文档中的单行公式和多行公式，并识别为latex格式，支持手动修改

9）图文对照能力：对每个识别的文字可显示其识别置信度，并显示原始图片的对应区域对照修改

10）格式输出能力：可将文档输出成txt、word和excel等结构化文档，进一步编辑

11）应用集成能力：根据需求可提供如下不同版本：

（1）CPU单机版：在多核CPU上运行，软件包含识别引擎和图形化界面，支持Mac、Windows和中标麒麟等操作系统，支持ARM和X86多种指令集平台；

（2）GPU单机版：在支持CUDA的GPU上运行，软件包含识别引擎和图形化界面，支持Mac、Windows和中标麒麟等操作系统，支持ARM和X86多种指令集平台；

（3）硬件版：软件包含识别引擎和图形化界面，运行在专用独立硬件盒子上，功耗低、部署简单；

（4）私有部署网络版：包含桌面端和识别引擎后台服务，后台服务支持私有化部署；

（5）SDK服务版：将识别引擎封装成独立服务提供对外服务接口，支持私有化部署。

后续功能规划

1）增加无线表格自动化识别能力；

2）增加票据等表单的结构化抽取和输出能力；

3）增加多语种语言识别能力。

研发团队

熊永平

北京邮电大学网络与交换技术国家重点实验室副教授博士生导师
研究方向：计算机视觉、智能教育等