在数字化转型的浪潮中,企业面临着海量文档数据的处理挑战。这些文档数据不仅格式多样,而且信息结构复杂,给数据治理带来了极大的困难。达观数据的达观IDP产品,凭借其强大的大模型技术,为文档数据治理提供了一套高效的抽取流程优化与质量校验体系,帮助企业实现文档数据的高效处理和精准治理。
一、达观IDP产品简介
达观IDP(Intelligent Document Processing)是达观数据自主研发的智能文档处理平台,融合了自然语言处理(NLP)、光学字符识别(OCR)、计算机视觉(CV)等前沿技术。该平台能够智能解读不同格式的文档,实现关键信息的自动抽取、审核、比对等功能,广泛应用于金融、制造、通信、法律、审计、媒体、银行、政府等多种文字密集型行业。
二、大模型支撑的抽取流程优化
(一)强大的文档解析技术
达观IDP采用了先进的文档解析技术,能够对多种格式的文档进行高效解析。它支持扫描件、PDF、图片(jpg、jpeg、bmp、tif、tiff)、Word、Wps等常见文档格式。通过OCR识别和NLP技术,达观IDP能够快速提取文档中的关键信息,并将其转换为结构化数据。
(二)统一信息抽取框架
达观IDP采用了统一信息抽取(UIE)框架,通过设置不同的抽取类型Schema,利用UIE端到端生成结构化结果的思想,实现了单模型多任务的抽取效果。这一框架不仅支持实体抽取任务,还能够完成关系抽取、元素抽取等复杂任务,避免了不同任务类型网络结构差异导致的数据和预训练模型复用受限问题。
(三)领域模型与数据积累
达观IDP在数据处理层面,收集了大量公开网站上的金融财经新闻公告等数据,并结合自身积累的金融领域文本数据,经数据清理后得到数百万条预训练文本数据。在模型设计层面,选用中文RoBERTa作为基础模型,采用whole word masking的掩码方式进行继续预训练,经过测试,使用迭代后调优后的预训练语言模型在各个金融领域的下游任务中,效果普遍提升2~3%。
(四)智能服务架构
考虑到资源受限尤其是GPU资源受限问题,达观IDP提出了Transformer as a Service的方案,将模型网络拆分,将重计算且多任务公用的语义编码网络独立出来作为服务并部署在有限的GPU资源上,通过远程调用支撑各个下游任务。这一方案的优势在于方便对GPU资源进行集中管理,使用Redis等中间件实现分布式缓存,优化整个大任务的耗时,并能很好支持跨环境、跨架构的不同服务。
三、质量校验体系
(一)智能校验功能
达观IDP通过其强大的大模型技术,实现了智能校验功能。例如,达观IDP实现了从文档读取、信息提取到派单生成的全流程自动化,并通过AI的智能校验功能,确保生成的派单内容准确无误。
(二)三维度量评价体系
在工业落地中,达观IDP不仅关注效果,还需要考虑时间、空间与效果的综合结果,即三维度量。在实际生产中,对于具体模型需要使用裁剪、蒸馏、量化等方式进行模型体积、资源占用优化的同时,也希望能够尽量保证原有模型效果。例如,Bert蒸馏,教师网络使用经典base Bert模型,而学生网络根据实际场景资源限制使用小8倍的tiny Bert甚至Bi-LSTM保证预测精度。
(三)知识库的强化与优化
达观IDP能力强化了知识库的功能和性能,从而更好地支持大模型的应用。知识库不仅是模型的“记忆芯片”,更是连接通用能力与垂直场景的“神经桥梁”,通过强化知识库,达观IDP能够更好地支持大模型的应用,提高模型的准确性和可靠性。
四、应用案例与效果
(一)金融行业
在金融行业,达观IDP帮助证券、银行等金融机构实现了合同审核、研究报告审核、招股说明书提取等业务的自动化和智能化。通过达观IDP,文件表格抽取率80%以上,文件字段抽取率95%以上。这不仅提高了工作效率,还降低了信息遗漏风险,满足了监管要求的穿透式审查需求。
(二)制造业
在制造业,达观IDP助力许多大型制造业实现了生产文档、质量报告、采购合同等文档的智能处理。通过IDP,技术网页生成错误率从15%降至3%,显著提升了业务效率。
(三)法律行业
在法律行业,达观IDP为律师事务所提供合同起草、审核、履约管理等全生命周期的智能文档处理服务。通过智能校验功能,确保生成的法律文档内容准确无误,提高了法律服务的效率和专业性。
随着人工智能技术的不断发展,达观IDP将继续优化和升级其文档数据治理引擎。未来,达观IDP将进一步提高对复杂文档结构和多样格式的支持能力,提升信息抽取的准确率和效率。同时,达观IDP还将加强与各行业的深度合作,不断积累行业经验和数据,完善行业标准和规范,为企业提供更加个性化、智能化的文档处理解决方案。
总之,达观IDP凭借其先进的大模型技术和丰富的行业经验,成功构建了高效的抽取流程优化与质量校验体系,为企业解决了文档数据治理的难题,推动了企业数字化转型的进程。在未来的文档处理领域,达观IDP将继续发挥其技术优势,引领行业的发展方向,为企业创造更多的价值。