达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

多格式文档处理混乱:AI 怎样构建跨格式文件的统一抽取标准体系?

在当今数字化时代,企业面临着海量的多格式文档处理需求,如PDF、Word、Excel、图片等,这些文档格式各异,信息结构复杂,给文档处理带来了极大的混乱和挑战。如何高效、准确地从这些跨格式文件中抽取关键信息,构建统一的抽取标准体系,成为企业数字化转型的关键问题。达观数据的达观IDP产品凭借其先进的AI技术,为解决这一难题提供了有效的解决方案。

一、达观IDP产品简介

达观IDP(Intelligent Document Processing)是达观数据自主研发的智能文档处理平台,它融合了自然语言处理(NLP)、光学字符识别(OCR)、计算机视觉(CV)等前沿技术,能够智能解读不同格式的文档,并实现关键信息的自动抽取、审核、比对等功能。该产品广泛应用于金融、制造、通信、法律、审计、媒体、银行、政府等多种文字密集型行业,累计服务超300家企业。

image (2)

二、多格式文档处理的痛点

在实际业务中,多格式文档处理存在诸多痛点:

格式差异大:不同格式的文档在存储结构、排版方式、数据组织等方面存在显著差异,如PDF文档的版面固定,而Word文档可编辑性强,Excel文档以表格形式存储数据,图片文档则需要进行图像识别才能获取文字信息,这使得信息抽取的难度大幅增加。

信息结构复杂:文档中的信息不仅包括文本内容,还可能包含表格、图片、图表等多种元素,且这些元素之间存在复杂的关联关系。例如,在一份财务报告中,表格数据与文本描述相互补充,需要同时抽取并理解其内在逻辑,才能完整地获取关键信息。

数据质量参差不齐:一些文档可能存在扫描质量差、图像模糊、文字歪斜、印章遮挡等问题,导致OCR识别准确率下降,进而影响后续的信息抽取效果。

缺乏统一标准:不同行业、不同企业对文档信息抽取的需求和标准各不相同,缺乏一个通用的抽取标准体系,使得企业在处理跨行业、跨部门的文档时,需要频繁调整抽取策略和模型,增加了工作量和成本。

 

三、达观IDP构建跨格式文件统一抽取标准体系的方法

(一)强大的文档解析技术

达观IDP采用了先进的文档解析技术,能够对多种格式的文档进行高效解析。对于PDF文档,达观IDP能够精准还原其版面信息,包括页眉页脚、图表、标题、段落等,同时支持对解析结果进行编辑和导出。对于Word文档,达观IDP可以提取文档的结构化内容,如标题层级、段落、表格等,并能够处理复杂的文档格式,如带有宏、域代码的文档。对于Excel文档,达观IDP能够智能识别表格结构,支持有框、无框、半框、倾斜等常见表格样式,以及合并单元格、跨页合并等复杂情况,识别准确率超95%。对于图片文档,达观IDP结合OCR技术,能够准确识别图片中的文字内容,并支持图片污染、图像轻微揉搓、印章遮盖、表格过密等多种复杂情况。

image (3)

 

(二)统一信息抽取框架

达观IDP采用了统一信息抽取(UIE)框架,通过设置不同的抽取类型Schema,利用UIE端到端生成结构化结果的思想,实现了单模型多任务的抽取效果。这一框架不仅支持实体抽取任务,还能够完成关系抽取、元素抽取等复杂任务,避免了不同任务类型网络结构差异导致的数据和预训练模型复用受限问题,大大提高了资源利用效率和系统的简洁性。同时,达观IDP还提供了强大的自研文档标注功能,支持文字划选、框选、表格内容一键标注,以及图片、表格框选等多种操作,为模型训练提供了高质量的标注数据。

image (4)

(三)领域模型与数据积累

达观IDP在数据处理层面,收集了大量公开网站上的金融财经新闻公告等数据,并结合自身积累的金融领域文本数据,经数据清理后得到数百万条预训练文本数据。在模型设计层面,选用中文RoBERTa作为基础模型,采用whole word masking的掩码方式进行继续预训练,经过测试,使用迭代后调优后的预训练语言模型在各个金融领域的下游任务中,效果普遍提升2~3%。此外,达观IDP还借鉴AutoML的思想,让系统能够在有限的迭代次数内探索最优模型和超参,并自动集成,降低了领域迁移的技术门槛,使得非技术人员也能够轻松使用达观IDP进行文档处理。

(四)智能服务架构

考虑到资源受限尤其是GPU资源受限问题,达观IDP提出了Transformer as a Service的方案,将模型网络拆分,将重计算且多任务公用的语义编码网络独立出来作为服务并部署在有限的GPU资源上,通过远程调用支撑各个下游任务。这一方案的优势在于方便对GPU资源进行集中管理,使用Redis等中间件实现分布式缓存,优化整个大任务的耗时,并能很好支持跨环境、跨架构的不同服务。经过验证,在损失1个点左右精度的情况下,整体资源要求大幅降低,并已使用在多个项目中。

(五)行业标准与规范的融合

达观IDP在构建跨格式文件统一抽取标准体系的过程中,充分考虑了不同行业的标准和规范。例如,在金融领域,达观IDP根据金融行业的监管要求和业务特点,开发了专门的金融文档抽取模型,能够准确提取招股说明书、研究报告、合同等金融文档中的关键信息,如发行人信息、财务数据、股权结构图、关键条款等。同时,达观IDP还支持与外界知识库(如法规库)的对接,能够基于海量文本语料库、审核规则和法规知识,对文档进行全面、深入的审阅,确保文档内容的合规性。

 

四、达观IDP的应用案例与效果

达观IDP已经在多个行业得到了广泛应用,并取得了显著的效果。在金融行业,达观IDP帮助大型银行、证券等金融机构实现了合同审核、研究报告审核、招股说明书提取等业务的自动化和智能化,大幅提高了工作效率和质量。在制造业,达观IDP助力某大型制造业企业实现了生产文档、质量报告、采购合同等文档的智能处理,优化了企业内部的文档管理流程。在法律行业,达观IDP为律师事务所提供合同起草、审核、履约管理等全生命周期的智能文档处理服务,提高了法律服务的效率和专业性。

 

随着人工智能技术的不断发展,达观IDP将继续优化和升级其跨格式文件统一抽取标准体系。未来,达观IDP将进一步提高对复杂文档结构和多样格式的支持能力,提升信息抽取的准确率和效率。同时,达观IDP还将加强与各行业的深度合作,不断积累行业经验和数据,完善行业标准和规范,为企业提供更加个性化、智能化的文档处理解决方案。

总之,达观IDP凭借其先进的AI技术和丰富的行业经验,成功构建了跨格式文件的统一抽取标准体系,为企业解决了多格式文档处理混乱的难题,推动了企业数字化转型的进程。在未来的文档处理领域,达观IDP将继续发挥其技术优势,引领行业的发展方向,为企业创造更多的价值。