达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

达观陈运文出席中国智能产业高峰论坛,分享《针对复杂文本处理的大模型技术》

2023年9月16日-9月18日,由中国人工智能学会、江西省科学技术厅、南昌市人民政府主办,南昌市科技局、中国工程科技发展战略江西研究院承办的2023第十二届中国智能产业高峰论坛(CIIS 2023)在江西南昌顺利召开,政企研学各界学者专家同台交流,在成果分享、观点碰撞、经验互鉴中,共促智能科技引领行业创新变革、驱动数字经济快速发展。达观数据陈运文受邀出席参会,与业内顶尖专家学者及知名企业就生成式AI基础技术与产业应用进行了深入探讨和交流,就《针对复杂文本处理的大模型产品技术》主题进行报告。

CIIS 2023 会议现场

在报告中,陈运文博士介绍了达观数据对复杂文本处理技术的探索。如发行上市申请、债务情况披露、研究报告、资管产品合同、尽调报告、资金用途核查、对外投资核查、发行公告、发行结果公告、债券年报等都是常见的复杂文本。达观数据在长文本处理领域深耕多年,深知此类长文本处理最大的难点在于文档内存在诸多复杂结构元素,如文本、图片、表格、数据图、标题、段落、页眉页脚、摘要等版面元素,以及跨多个文档间存在复杂关系

在学术研究领域,NLP任务通常只考虑纯文本作为输入,然而涉及行业应用时,自然语言处理任务非常复杂,计算机需要分析处理由各种元素组成的复杂文档。例如,一个规范的商业文件通常包含文本、图像、公式、标题、印章和许多其他元素,但是“曹植”大语言模型能对商业文档的文档布局信息、视觉信息、领域知识进行精准地分析处理同时,基于“曹植”大模型的长文本写作的特点,其也具备复杂文本写作的能力。

达观数据将各类复杂文本模板与“曹植”大模型相结合,让“曹植”大模型辅助人工完成复杂文本的写作。大模型基于海量的数据库自动获取事实数据,基于相关数据自动生成章节目录,确认无误后,大模型将自动完成文段写作,并通过AIGC能力生成相关的图表,从而完成一篇复杂文档的写作。企业用户只需核查文章逻辑、数据信息、文本格式即可。此外,为提升“曹植”大模型复杂文本写作的专业性,达观专门训练了多模态AIGC生成能力,可自动生成表格、图表、数据等元素

陈运文博士在报告中也提到,为更好地解决垂直行业中各类复杂场景应用问题,达观数据创新性地采用了多模型并联(Ensemble)架构。这是“曹植”大模型的重要特点,通过将不同参数规模和不同类型的模型相结合。在实际商业应用中,垂直领域的复杂文本应用对准确性要求极高,单一模型难以满足预期效果,因此需要将多个不同算法模型融合,以此更好地发挥“曹植”大模型在复杂文本写作中的作用。

目前,曹植”大模型已经能广泛应用于金融、政务、制造、银行、医药、能源等多个垂直领域和通用场景人工智能的落地和发展,如在银行行业,采用OCR识别技术+自然语言财务逻辑处理等技术,自动进行财报内容解析、统一报表格式、平衡试算、跨表钩稽校验、信息准确性与完整性校验,还可根据业务需要进行报表处理、信息填列。在制造业中,将知识图谱技术应用于制造业的质量管理体系中,实现对失效相关的文档资料中的知识和经验图谱化。未来,达观数据也将在自研的的先进人工智能技术和丰富的应用经验之上,不断提升“曹植”大模型的性能和应用范围,为各行业提供提供更好、更快、更安全的解决方案,为客户提供更好的服务和支持,让大模型赋能百业,促进科技进步和社会发展。