达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

版面智能解析-新一代智能文档处理的核心能力

版面解析介绍

版面作为信息的组合排列形式,无论是杂志、报刊、海报还是文章,各式各样的版面承载了不同层次的内容表达。在传统文档处理任务中,系统的处理核心是文本,围绕文本使用先进的智能算法实现分类、抽取、摘要等任务,但是对文档中的图、表、公式等元素,则更多地限定于领域方法来处理。对于Word、PPT、PDF等格式文档,可以通过协议格式提取其中的元素还原或解析。但是对于图像文档,则具有更高的挑战,应用图像或多模态算法解析图像并获取其中的元素结果,是文档处理中统一版面解析能力的落脚点。图像文档的版面解析结果由文档元素组成,并且可以转换为其他格式,因此文档元素是所有版面的灵魂要素达观复杂版面解析服务作为智能文档处理核心能力,为诸多业务场景提供有力支撑。文档版面样式千变万化,以下选择部分典型数据做场景和能力介绍。版面解析首先需要对版面的要素进行划分,通常被定义为目标检测或分割任务来实现,下图为版面要素的分割试例。

版面解析场景展示

一、企业合同比对

在企业业务往来中,企业法务、财务需要审核企业签订的各类合同,如需要确保盖章版本合同与原始审核过的电子合同完全一致。盖章版合同是将电子合同打印为纸质文件加盖双方公章再扫描存档,特别存在部分为双栏多栏形式如果下图,这时候可利用图像版面解析技术对文档排版进行识别,再按顺序逐个比对印版本和原合同内容。

二、制造业知识库构建

制造企业中的大量文档如工艺流程文档、使用手册、合规规范文档、质量手册等等大多以纸质文档的形式存在,随着数值化智能化转型的加速,制造企业需将这些纸质知识识别解析提取为电子知识,进一步构建指导生产制造的知识图谱。

三、金融文档识别

金融页有大量报告如财务报告、研究报告、一级二级市场股债发行文档等等,这些文档包含金融市场活动所需数据、咨询信息。对文档进行解析、获取关键信息至关重要。如版面解析财务报告种企业财务表格,将pdf文件中无序的文字还原为有序表格,并进一步按财务含义进行数据分析对市场投融资活动至关重要。

同时金融企业也需要对其发布的文档例如研报进行质控审核,确保其发布的报告准确无误,通过版面分析分析分析研报、及其底稿文档,进而实现图片审核、表格审核、数据审核等功能。

四、通用文档信息构建和还原

版面分析技术可将以word、pdf、图片等非结构化文档存储的信息还原为半结构化的电子数据,是非结构化文档信息利用首要任务。