在当今数字化时代,企业面临着海量的文档数据处理需求,这些文档不仅格式多样,而且信息结构复杂,给数据治理带来了极大的挑战。达观数据的达观 IDP 智能文档审阅系统,凭借其强大的大模型技术,为文档数据治理提供了一套高效的抽取流程优化与质量校验体系,帮助企业实现文档数据的高效处理和精准治理。本文将详细介绍达观 IDP 系统的核心技术、应用场景以及其在文档智能抽取领域的突破性进展。
一、达观 IDP 智能文档审阅系统概述
达观 IDP(Intelligent Document Processing)是达观数据自主研发的智能文档处理平台,融合了自然语言处理(NLP)、光学字符识别(OCR)、计算机视觉(CV)等前沿技术。该平台能够智能解读不同格式的文档,实现关键信息的自动抽取、审核、比对等功能,广泛应用于金融、制造、通信、法律、审计、媒体、银行、政府等多种文字密集型行业。达观 IDP 系统的核心优势在于其强大的跨格式解析能力和大模型赋能的智能抽取技术,能够有效提升文档处理的效率和准确性。
二、达观 IDP 的核心技术
(一)跨格式文档解析技术
达观 IDP 采用了先进的文档解析技术,能够对多种格式的文档进行高效解析。它支持扫描件、PDF、图片(jpg、jpeg、bmp、tif、tiff)、Word、Wps 等常见文档格式。通过 OCR 识别和 NLP 技术,达观 IDP 能够快速提取文档中的关键信息,并将其转换为结构化数据。这一技术的核心在于其对不同格式文档的兼容性和解析精度,能够确保在各种复杂文档环境下都能准确提取信息。
(二)大模型赋能的智能抽取技术
达观 IDP 采用了大模型技术,通过自然语言处理(NLP)和深度学习算法,实现了对文档内容的智能理解和抽取。大模型技术的优势在于其强大的语言理解和生成能力,能够处理复杂的文本数据,并提取出有价值的信息。达观 IDP 的智能抽取技术不仅能够识别文档中的实体信息,还能够理解文本的语义关系,从而实现更精准的信息抽取。
(三)统一信息抽取框架
达观 IDP 采用了统一信息抽取(UIE)框架,通过设置不同的抽取类型 Schema,利用 UIE 端到端生成结构化结果的思想,实现了单模型多任务的抽取效果。这一框架不仅支持实体抽取任务,还能够完成关系抽取、元素抽取等复杂任务,避免了不同任务类型网络结构差异导致的数据和预训练模型复用受限问题。通过统一信息抽取框架,达观 IDP 能够灵活适应不同行业和场景的文档抽取需求。
(四)领域模型与数据积累
达观 IDP 在数据处理层面,收集了大量公开网站上的金融财经新闻公告等数据,并结合自身积累的金融领域文本数据,经数据清理后得到数百万条预训练文本数据。在模型设计层面,选用中文 RoBERTa 作为基础模型,采用 whole word masking 的掩码方式进行继续预训练,经过测试,使用迭代后调优后的预训练语言模型在各个金融领域的下游任务中,效果普遍提升 2~3%。通过领域模型和数据积累,达观 IDP 能够更好地适应特定行业的文档处理需求,提高抽取的准确性和效率。
(五)智能服务架构
考虑到资源受限尤其是 GPU 资源受限问题,达观 IDP 提出了 Transformer as a Service 的方案,将模型网络拆分,将重计算且多任务公用的语义编码网络独立出来作为服务并部署在有限的 GPU 资源上,通过远程调用支撑各个下游任务。这一方案的优势在于方便对 GPU 资源进行集中管理,使用 Redis 等中间件实现分布式缓存,优化整个大任务的耗时,并能很好支持跨环境、跨架构的不同服务。通过智能服务架构,达观 IDP 能够在资源受限的环境下高效运行,满足企业的实际需求。
三、达观 IDP 的质量校验体系
(一)智能校验功能
达观 IDP 通过其强大的大模型技术,实现了智能校验功能。例如,达观 IDP 实现了从文档读取、信息提取到派单生成的全流程自动化,并通过 AI 的智能校验功能,确保生成的派单内容准确无误。智能校验功能不仅能够检测抽取信息的准确性,还能够识别潜在的错误和异常,从而提高文档处理的整体质量。
(二)三维度量评价体系
在工业落地中,达观 IDP 不仅关注效果,还需要考虑时间、空间与效果的综合结果,即三维度量。在实际生产中,对于具体模型需要使用裁剪、蒸馏、量化等方式进行模型体积、资源占用优化的同时,也希望能够尽量保证原有模型效果。例如,Bert 蒸馏,教师网络使用经典 base Bert 模型,而学生网络根据实际场景资源限制使用小 8 倍的 tiny Bert 甚至 Bi-LSTM 保证预测精度。通过三维度量评价体系,达观 IDP 能够在保证效果的同时,优化资源利用,提高系统的运行效率。
(三)知识库的强化与优化
达观 IDP 能力强化了知识库的功能和性能,从而更好地支持大模型的应用。知识库不仅是模型的“记忆芯片”,更是连接通用能力与垂直场景的“神经桥梁”,通过强化知识库,达观 IDP 能够更好地支持大模型的应用,提高模型的准确性和可靠性。知识库的强化与优化不仅能够提升模型的性能,还能够帮助企业更好地管理和利用文档数据,实现数据的高效治理。
四、达观 IDP 的应用场景与效果
(一)金融行业
在金融行业,达观 IDP 帮助证券、银行等金融机构实现了合同审核、研究报告审核、招股说明书提取等业务的自动化和智能化。通过达观 IDP,文件表格抽取率 80%以上,文件字段抽取率 95%以上。这不仅提高了工作效率,还降低了信息遗漏风险,满足了监管要求的穿透式审查需求。例如,某大型证券公司通过达观 IDP 系统,实现了研究报告的自动化审核,审核效率提升了 50%,错误率降低了 30%。
(二)制造业
在制造业,达观 IDP 可以处理大量的生产记录、质量报告、设备维护记录等文档。通过智能抽取技术,能够快速提取关键信息,如设备故障时间、故障原因、维修措施等,帮助企业优化生产流程,提高设备利用率,降低生产成本。例如,某汽车制造企业通过达观 IDP 系统,实现了设备维护记录的自动化处理,设备维护效率提升了 40%,设备故障率降低了 20%。
(三)法律行业
在法律行业,达观 IDP 能够处理各种法律文书,如合同、起诉书、判决书等。通过智能抽取和比对功能,可以快速提取关键信息,如合同条款、法律依据、案件事实等,帮助律师和法务人员提高工作效率,降低工作强度。例如,某律师事务所通过达观 IDP 系统,实现了合同审核的自动化处理,合同审核效率提升了 60%,错误率降低了 40%。
(四)政府机构
在政府机构,达观 IDP 可以处理大量的公文、报告、法规等文档。通过智能抽取技术,能够快速提取关键信息,如政策条款、法规依据、项目进展等,帮助政府部门提高工作效率,提升公共服务质量。例如,某政府部门通过达观 IDP 系统,实现了公文处理的自动化,公文处理效率提升了 70%,错误率降低了 50%。