达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

达观数据券商文本质控系统:AI驱动,3分钟审核债券募集说明书常见5类错误

人工智能在金融领域的应用集中在客户营销、智能对话、资本运营、市场分析、智能投顾、风险审核、舆情分析等场景,本文将主要围绕人工智能NLP技术在债券募集说明书审核上的应用展开,谈一谈人工智能在这些场景中的应用、价值和发展。

文章中所有募集书数据皆来源于公开披露信息。

引言

人工智能是本世纪科技上的重大突破,是新一轮科技革命及产业革命重要的着力点,称它为第四次工业革命的代表也不为过。人工智能的发展对国家经济结构的转型和升级有着重要的意义。自2017年7月20日,国务院印发《新一代人工智能发展规划》后,人工智能得到了快速发展,各种AI公司雨后春笋般的跳出来,一同研究人工智能在各个领域的应用,期望通过人工智能技术赋能企业,旨在提高企业工作效率,进而提升企业竞争力,达到降本增收目的。

其中金融领域是人工智能应用最好的领域之一。其数据量大,技术最前沿 ,技术变革需求最迫切,为人工智能在金融领域的大展拳脚提供了有利条件。在金融领域中,人工智能技术被广泛研究和创新,应用于智能客服、客户营销智能分析、智能投顾、智能审核等各业务场景,并且都取得了长足的进步。下面我们来谈一谈,人工智能是如何赋能金融企业,推动企业技术变革的。

人工智能在智能化文档审核上的应用

众所周知,在银行、保险、证券、基金等金融企业中,审核工作颇为重要。从内容上看审核可以分为图片审核、视频审核、音频审核、文本审核4类,其中对文本的审核工作最为困难。因为文本量非常大,且存在很多非结构化的文档,审核起来颇为麻烦。我们今天主要讲人工智能在文本审核上的应用。

01 企业文档审核现状

企业中含大量的文本数据,这些文本数据大部分都是非结构化或半结构化数据,有word版、PDF版本、PPT、Excel、TXT、CSV、图片、扫描件等形态,例如合同文档、工单数据、企业研报、年报、招股书、募集书等文档,企业中有大量的这类文档,仅仅靠人来审核是力所不及的。现状是审核人员少,审核工作量大,业务员为了完成任务,加班加点,但也只能望洋兴叹,退而求其次,挑重点内容进行审核。这样做不但效率不高,人员压力大,而且审核有盲点!

下面就为大家介绍下,如何通过自然语言处理(NLP)技术解决人工审核文档难的问题。

02 募集书审核场景

券商、基金公司一直是个多金的行业,但从业人员的工作压力也非常大。日常文档编写、文档修改、文档审核工作占大量时间,且有时也无法顾及周全。以券商中债券业务为例,债券业务一般可分为承揽、承做、承销三个阶段。承做阶段的文档审核工作尤其重要,债券募集说明书是重中之重。文档质量影响着券商的口碑,口碑则关系到券商评级,进而影响到能接到多少项目。所以募集书这类申报文件应高度重视。

现状是,业务组接到项目后,开始准备项目材料,编写募集书,在编写募集书时,有些发行人是非首次发行募集书,所以可以参考历史的材料来修改。编写过程中,主要工作就是增、删、改,过程中业务组反复检查募集书内容,对上下文的一致性以及财务勾稽关系重点检查,自认无误后提交质控组领导审核。一份募集书大概有200页上下,字数在10万字左右,据专业统计,人的阅读速度平均500字/分钟,仅仅读完一份募集书都需要200分钟(3小时+),中间如果再思考、检查,审核文档的时间将会更长。

业务组和质控组的审核压力都非常大,且项目常常非常急,审核员审核的重点常常是风险类和经验类的审核,导致像文字错误、单位错误、上下文一致性的低级错误会漏审。

pic_001

人工智能如何助力文档审核工作?下面将结合达观数据自研文档智能审阅系统,助理金融领域从业专家的日常文档审核工作。

03 募集书AI智能审核

首先结合业务审核点进行梳理。通常我们对文档有错字、漏字、叠字/词、形近字、音近字、数字格式、表格单位等进行审核,这是对文档的最基本的审核诉求。此外,因为财务科目之间有勾稽关系,需要对募集书中的财务勾稽关系进行审核,例如表表审核(同一科目在不同表中的一致性)、表内审核(表内合计)、表文审核(正文与表格的一致性审核)

pic_002AI智能文本审核流程

以募集说明书智能审核为例,AI智能审核流程如下:

1.文件解析

通过文档处理引擎对募集书(word、pdf)进行解析,生成携带各种元信息的文本数据。常见的元信息包括:文件md5,原始文档中每个字的字体、大小、坐标,募集书的篇章、段落、句子结构信息、表格信息等,为文本语义分析提供支持。

2.文本预处理

主要含格式转换、编码转换、文本归一化处理。其中文本归一化指对原始标注文本进行归一化处理,包括去掉一些空白字符,大小写数字、日期、全半角归一等处理。例如原始文本中的日期描述有多种类型:“2020年2月1日”、“2020/2/1”、“2020-2-1”,机器为了计算和比较时方便,可以统一将日期归一化成“2020-2-1”。

3.基础语义分析

基于1、2步骤的处理结果对文本语义进行分析。主要有中文分词、词性标注、专有名词识别、同义词分析、句法语义分析、词向量分析。

pic_003

其中专有名词识别指对人名、机构名、地名、时间、日期、货币和百分比等名称进行实体识别。募集书的专有名词比较多,像财务披露内容中的每一个财务科目(营业收入、短期借款、流动资产等等),都属于专有名词范畴。

为了理清上下文的指代关系,需要有同义词梳理,在募集书中假如发行人是达观数据,那么这篇募集书中,主体就是达观数据,只要提到发行人就一定是指达观数据,达观数据一定就是指发行人。同义词分析我们会结合业务专业知识、百度词典、金山词典、维基百科等进行提取和挖掘。

4.机器学习核心算法引擎

经过前三步的工作,拿到模型训练的“素材”,例如表格结构、实体信息(科目、发行人、报告期等信息、段落结构、实体的上下文指代关系等,接下来就是模型加工处理。对文本特征(n-gram + 深度学习算法等技术)进行特征提取,结合业务规则,输出文本抽取结果。

5.应用算法引擎

应用算法引擎泛指上层应用,它服务于业务需求。在募集书审核上,应用算法引擎就是指针对文字纠错、表格纠错、财务勾稽关系校验功能进行算法设计和加工,每个功能点有独立的算法和规则。再具象一点解释就是,应用算法引擎输出的结果就是审核结果,例如具体的某个错字、错词、哪个表格单位有缺失、哪个财务科目上下文不一致等等。

下面结合在实际中比较常出现的错误举例说明:如下图中,左侧是募集书原文,右侧是机器审核结果。募集书中描述的“发行人目前资产质量和流动性良好,营利能力和现金获取能力较好,截至本……”其中“营利”一词属于同音字错误,应改为“盈利”。通过纠错系统,可以自动识别错误,并高亮原文,机器给出修改建议“盈利”

pic_004

编写募集书过程中,可能因复制粘贴导致文中出现多字/叠字错误例子,如下图。

pic_005
AI审核系统除对文字层面做纠错审核外,还支持对表格格式的规范性审核。例如表格单位重复、单位缺失,如下图所示:

pic_006 pic_007 pic_008

财务披露是募集书中的重中之重,所以对财务勾稽关系的检查也尤为重要。财务数字繁多,勾稽关系也规范化,可以用机器来自动审核。上下文同一科目有多处披露的情况要审核一致性、单表内合计的正确性、表与表之间同一科目一致性审核、表文同一科目的一致性审核、以及科目占比、逐年变化趋势等隐形勾稽关系,都可以用机器来规范化审核。

如下图中,2015年发行人【应收账款】科目,在原文中披露过3处,披露值分别是88,814.53万元、8,814.53万元、8,814.53万元,这种错误导致的数值偏差会严重影响发行人财务数据披露真实性和有效性,人的肉眼很难发现这种上下文不一致的错误。

pic_009 pic_010

AI审核结果可视化(AI平台)

AI平台就是最终产品形态。在这个平台上,你上传文件后,就可以得到文件的审核结果。在审核结果上,可以人工复核。平台结合实际使用场景,设计了更多人性化的功能:

  1. 支持导出批注版募集书文件,方便线下修改错误;
  2. 支持在线修改内容,导出修改好的募集书文件,方便直接使用;
  3. 支持人工复核,修改机器误判的case;可以接受和拒绝审核结果;
  4. 支持新增错误项,方便人工复核时,发现了错误可以及时添加错误;
  5. 支持API对接审核结果,方便与内部系统集成;
  6. 支持移动端查看审核结果

pic_011

移动端实际效果图除此之外,智能审核在合同类文档中也有较多应用,如对合同的一致性和必备条款的审核。

04 合同类文档审核

人审的方式:快速阅读合同内容,挑选重点信息,如甲乙方、合同金额、账号信息、违约条款、争议解决、支付方式、维保期承诺等进行审核。审核点主要体现在以下几个方面:

一致性审核

识别甲方名称是否与正文表单中主体一致,识别合同附件中营业执照、报价单中的乙方名称是否与合同正文乙方主体一致,合同金额大小写是否一致,乙方账户的上下文一致性审核,若不一致需提示检查乙方账户信息。对于合同中含附件营业执照、报价单等内容时,要校验合同正文于合同附件中提到信息的一致性,例如营业执照中的公司名称与乙方名称是否一致等。

pic_012

必备条款审核

价格包含范围说明,争议解决方式说明,供应商资质保证,以及支付方式、质保期/维保期说明、违约责任、保密条款、乙方名称、乙方账户、合同有效期等必备条款审核。必备条款的审核科认为是合同完备性审核。违约责任审核,例如:甲方付款逾期,逾期7天后方可计算违约金,如直接约定自逾期之日起算的,提示修改。违约金支付比例,如高于未支付比例0.1%/每天,提示调低;乙方账户为必备条款,若缺失应提示补充乙方账户信息。

以上审核点只是针对合同中常见的审核点,合同文档相对一般几页到几十页不等。人工检查合同时,会相当耗时耗力,工作量大时,甚至可能会导致漏审或错审的情况,得不偿失。
上述内容信息量较大,但审核流程非常简单,对于系统应用者来说,实际使用AI智能文本审核系统时只有三个步骤:

  1. 上传目标文件(如募集书、合同、招股书等);
  2. AI自动解析审核并将结果可视化;
  3. 人工复核,导出修正后文件;

3 结束语

在文本处理场景中,达观数据已积累大量的项目经验和案例,但在人工智能这条路上我们认为还比较年轻,我们期待与更多的业务专家研究探讨,希望通过人工智能来解决实际工作中的困难,让机器协助人来做基础工作,解放人力去做更高价值的事情。让每个人的工作变得更高效、轻松。