达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

IDP智能文档审阅系统,业内首家全内容关键信息抽取产品

市面上的招股说明书,动辄三四百页,关键的发行人信息、财务信息、股权结构图,如何快速查找?券商研究报告,几十页上百页,核心图表、数字、观点如何有效获取?合同中,关键条款如何快速定位?在信息过载时代基于市面的需求,达观数据自主研发的智能文档审阅(IDP)系统能从几百页的长文档中智能提取实体、关系级别信息,也能提取关键图表、段落、章节等文档要素级别信息,可百倍提升阅读效率。

达观的智能文档审阅(IDP)系统如何做到支持全内容提取:

一、达观拥有强大的自研文档标注功能

  • (1)‍ 支持文字划选、框选、表格内容一键标注;

 

 

  • (2) 支持图片、表格框选;

 

(3) 支持表格增删线条、合并/拆分单元格等多种操作;

 

  • (4) 支持字段组合标注;

 

二、 依靠达观的独家版面还原技术

  • (1) 可还原文件的页眉页脚标题段落目录等版面信息。
  • (2) 支持对还原结果进行编辑,包括修改文字和表格结果。
  • (3) 支持直接导出文字内容、图片、表格结果。
  • (4) 支持API对接输入,为后续信息提取提供底层技术能力。

版面还原示例图

三、达观自有模型训练平台,完成AI自动提取

达观基于NLP、深度学习技术,提供了强大易用的模型训练平台。

  • (1)在系统中内置多种算法,可针对不同的抽取关键字选择不同的算法,模型参数可动态调整。
  • (2) 元素抽取算法可以支持抽取如段落,图片,表格等内容。
  • (3) 同时支持模型导入导出,可在不同场景下进行模型的迁移。支持现有模型增量训练,大幅提升训练效率

画板 1

内置多种算法

 

招股书抽取模型示例

私募基金合同抽取模型示例

据了解达观数据的全内容关键信息提取产品,已在某交易所、头部券商研究所、头部券商托管部门部署应用,结合行业多年经验积累,已形成招股说明书提取、研究报告审核、私募基金合同提取等多个开箱即用模型。未来将持续积累,为客户数字化智能化转型、工作效率提升提供利器。

开箱即用模型示例