达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

国内最顶级NLP会议,达观数据陈运文受邀NLPCC大会,分享IDP及KG构建技术应用

 

f0a1e40c8f8b9b54ad739ac3a180ff0
2021年10月13日-10月17日,由中国计算机学会自然语言专委会主办的第十届CCF自然语言处理与中文计算国际会议(NLPCC 2021)在中国山东省青岛市召开。本届组委会主席由山东大学陈竹敏教授和任鹏杰教授、北京大学万小军教授担任。达观数据陈运文受邀参会并作报告,与业内顶尖专家学者及知名企业就自然语言处理领域的行业应用及前沿技术发展方向进行了深入探讨和交流,同时达观数据智能处理(IDP)系统亮相大会展览。

178371aeb0858bacdb67522144e624e

NLPCC 2021会议现场

在报告中,陈运文博士介绍了达观数据开发的智能文档处理(IDP)系统,利用自然语言处理 (NLP)、计算机视觉(CV)、深度学习(DL)和机器学习 (ML) 等人工智能技术,在工程界对商业文档的相关信息进行分类、归类和提取,并对提取数据进行验证;智能文档处理(IDP)增强了人们对结构化及非结构化数据的信息提取和理解转化能力,同时实现了随时提取和整理各行业场景中的结构化及非结构化文档与数据,以便企业文档流程化、自动化、智能化处理。

image (6)

在学术研究领域,NLP任务通常只考虑纯文本作为输入。然而涉及行业应用时,自然语言处理任务非常复杂,计算机需要处理由各种元素组成的文档。例如,一个规范的商业文件通常包含文本、图像、公式、标题、印章和许多其他元素;因此,智能文档处理(IDP)对文档布局信息、视觉信息、领域知识的分析处理是分析商业文档的关键之处

image (7)

image (8) 智能布局分析系统

image (9)

二维位置嵌入和多模态预训练的方法处理各种类型的表格

image (10)

自然语言引擎与计算机视觉引擎相结合

报告中还提到结合知识图谱构建技术,基于各行业的多源异构数据整合构建知识中台。利用智能文档处理系统(IDP),可以将该系统应用于金融行业。在2020年中国知识图谱与语义计算大会(CCKS2020)上,我们建立了一个高质量的数据集,命名为金融研究报告知识图谱(FR2KG),并组织了金融知识图谱的自动化构建评估。FR2KG由近18,000个实体,26,000个关系三元组和数千个属性三元组组成,涵盖10种实体类型,19种关系类型。该论文发表在《数据智能》期刊,可用于分析金融研究报告。

image (11)

不仅在金融研报中,目前智能文档处理与知识图谱构建已广泛应用于金融、制造、审计、银行、政府等多种文字密集型行业中各类场景,如在证券行业,采用OCR识别技术+自然语言财务逻辑处理等技术,自动进行财报内容解析、统一报表格式、平衡试算、跨表钩稽校验、信息准确性与完整性校验,还可根据业务需要进行报表处理、信息填列。在制造业中,将知识图谱技术应用于制造业的质量管理体系中,实现对失效相关的文档资料中的知识和经验图谱化。相信在未来10年内,50%的普通桌面文字工作可以由机器人完成。达观数据将持续提升关键技术,推动智能文档处理(IDP)更多的落地应用。