达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

全场景文本挖掘平台:AI 赋能的文档结构识别与关键信息抽取体系

在数字化转型的浪潮中,企业面临着海量文档数据的处理挑战。这些文档不仅格式多样,而且信息结构复杂,给数据治理带来了极大的困难。达观数据的达观 IDP 智能文档审阅系统,凭借其强大的 AI 技术,为文档数据治理提供了一套高效的文档结构识别与关键信息抽取体系,帮助企业实现文档数据的高效处理和精准治理。

一、达观 IDP 智能文档审阅系统概述

达观 IDP(Intelligent Document Processing)是达观数据自主研发的智能文档处理平台,融合了自然语言处理(NLP)、光学字符识别(OCR)、计算机视觉(CV)等前沿技术。该平台能够智能解读不同格式的文档,实现关键信息的自动抽取、审核、比对等功能,广泛应用于金融、制造、通信、法律、审计、媒体、银行、政府等多种文字密集型行业。达观 IDP 系统的核心优势在于其强大的跨格式解析能力和 AI 赋能的智能抽取技术,能够有效提升文档处理的效率和准确性。

 

二、文档结构识别技术

(一)光学字符识别(OCR)技术

达观 IDP 采用了先进的 OCR 技术,能够对多种格式的文档进行高效解析。它支持扫描件、PDF、图片(jpg、jpeg、bmp、tif、tiff)、Word、Wps 等常见文档格式。通过 OCR 识别和 NLP 技术,达观 IDP 能够快速提取文档中的关键信息,并将其转换为结构化数据。达观 IDP 的 OCR 技术基于 Transformer Encoder-Decoder 结构的模型,能够更好地利用上下文信息,从而提升识别的准确率。此外,达观 IDP 还采用了基于 Vision-Language 的模型,将视觉和语义进行融合,能够获得更多更准确的语义信息。

图片4

 

(二)版面还原技术

达观 IDP 的版面还原技术能够还原文件的页眉页脚、图、表、标题、段落、目录等版面信息。这一技术的应用使得复杂版式文件的信息提取更加准确,提高了数据处理的效率。达观 IDP 支持对还原结果进行编辑,包括修改文字和表格结果,支持直接导出文字内容、图片、表格结果,并支持 API 对接输入,为后续信息提取提供底层技术能力。

图片5

(三)表格解析技术

表格是信息承载的重要方式,作为一种半结构化数据,被大量应用于文档中。达观 IDP 的表格解析技术能够精准识别各类文档表格,并将表格结构还原成二维矩阵。达观 IDP 的表格解析技术采用二阶段方式,即先进行区域检测,再进行结构解析,这种方法在业务上的快速修复性方面具有优势。

 

三、关键信息抽取体系

(一)统一信息抽取框架

达观 IDP 采用了统一信息抽取(UIE)框架,通过设置不同的抽取类型 Schema,利用 UIE 端到端生成结构化结果的思想,实现了单模型多任务的抽取效果。这一框架不仅支持实体抽取任务,还能够完成关系抽取、元素抽取等复杂任务,避免了不同任务类型网络结构差异导致的数据和预训练模型复用受限问题。

(二)跨格式解析能力

达观 IDP 的跨格式解析能力是其核心优势之一。通过先进的 OCR 识别和 NLP 技术,达观 IDP 能够高效解析多种格式的文档,确保在各种复杂文档环境下都能准确提取信息。这一能力不仅提高了文档处理的效率,还降低了因格式不兼容导致的信息丢失风险。

图片6

(三)领域模型与数据积累

达观 IDP 在数据处理层面,收集了大量公开网站上的金融财经新闻公告等数据,并结合自身积累的金融领域文本数据,经数据清理后得到数百万条预训练文本数据。在模型设计层面,选用中文 RoBERTa 作为基础模型,采用 whole word masking 的掩码方式进行继续预训练,经过测试,使用迭代后调优后的预训练语言模型在各个金融领域的下游任务中,效果普遍提升 2~3%。

(四)智能服务架构

考虑到资源受限尤其是 GPU 资源受限问题,达观 IDP 提出了 Transformer as a Service 的方案,将模型网络拆分,将重计算且多任务公用的语义编码网络独立出来作为服务并部署在有限的 GPU 资源上,通过远程调用支撑各个下游任务。这一方案的优势在于方便对 GPU 资源进行集中管理,使用 Redis 等中间件实现分布式缓存,优化整个大任务的耗时,并能很好支持跨环境、跨架构的不同服务。

 

四、应用场景与效果

(一)金融行业

在金融行业,达观 IDP 帮助证券、银行等金融机构实现了合同审核、研究报告审核、招股说明书提取等业务的自动化和智能化。通过达观 IDP,文件表格抽取率 80%以上,文件字段抽取率 95%以上。这不仅提高了工作效率,还降低了信息遗漏风险,满足了监管要求的穿透式审查需求。

(二)制造业

在制造业,达观 IDP 可以处理大量的生产记录、质量报告、设备维护记录等文档。通过智能抽取技术,能够快速提取关键信息,如设备故障时间、故障原因、维修措施等,帮助企业优化生产流程,提高设备利用率,降低生产成本。

(三)法律行业

在法律行业,达观 IDP 能够处理各种法律文书,如合同、起诉书、判决书等。通过智能抽取和比对功能,可以快速提取关键信息,如合同条款、法律依据、案件事实等,帮助律师和法务人员提高工作效率,降低工作强度。

(四)政府机构

在政府机构,达观 IDP 可以处理大量的公文、报告、法规等文档。通过智能抽取技术,能够快速提取关键信息,如政策条款、法规依据、项目进展等,帮助政府部门提高工作效率,提升公共服务质量。

 

达观 IDP 智能文档审阅系统作为一款全场景文本挖掘平台,凭借其强大的文档结构识别技术和关键信息抽取体系,在多个行业得到了广泛应用。通过 AI 技术的赋能,达观 IDP 不仅能够高效处理多种格式的文档,还能精准提取关键信息,极大地提高了文档处理的效率和准确性。随着技术的不断进步和应用场景的不断拓展,达观 IDP 将继续为企业数字化转型提供有力支持。