达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

【世界人工智能大会回顾】智能文本处理技术与未来办公机器人

在2020年世界人工智能大会云端峰会中,达观数据与浦东青联联合举办了“智能时代,‘语’你同行”行业论坛,围绕语言智能,与多位行业专家与学者展开了一场精彩线上交流盛宴。

达观数据陈运文博士在论坛上进行了《智能文本处理技术与未来办公机器人》的主题分享,在其分享中,和线上观众介绍了多款智能办公机器人的应用场景与未来展望。以下为演讲内容精华整理,观看大会回放可直接下拉最下方二维码进行精彩回顾。

pic_001

大家好,我是达观数据创始人兼CEO陈运文,今天非常荣幸在世界人工智能大会的舞台,使用云端的方式和大家分享《智能文本处理技术与未来办公机器人》。

首先和大家科普一下文字语言处理的概念。在人工智能版图中,从技术站分为三方面:图像处理、语音识别和文本处理。文本语义理解是人工智能领域中技术难度最高,处理技术最复杂的领域,因为语言文字高度抽象概括,被微软创始人比尔盖茨称为“人工智能皇冠上的明珠”,它涉及人们日常工作范围最密集的领域,所以让计算机处理文字有巨大的实用价值。

pic_002

我们今天对文字的应用,传承自5000年以来人类使用文字的经验。人类历史上最早的四种文字,从楔形文字到埃及圣书文、玛雅文到中国甲骨文已经有5000年时间。文字是人类文明诞生和发展的核心标志,我们今天所有日常工作和信息交流都离不开对文字使用。

在文字诞生之前,信息只能靠基因发展延续下去,文字发明后,理性和抽象思维能力得到传承,大幅度提升了人类文明的进化速度。在计算机科学发展之下,能否让计算机这项非常强大的工具帮助我们更好地进行文字阅读写作、审核、分析的工作,减少工作中对文字处理的繁重负担,我们认为是非常有意义的事。

达观数据的核心技术自然语言处理(Natural Language Processing,简称NLP)它分为:自动阅读和自动写作。计算机有阅读能力后可以帮助我们进行核对、审批、查验、分析、派发等日常工作;计算机具备写作能力后可以帮助我们起草日常报告、进行润色纠错、辅助填表、扩充内容等。

今天企业日常办公中需要大量的文档资料处理工作。从早期的算盘、帐本到现在的自动化处理技术,以及大量自动化处理的相关智能技术,这些技术逐步发展,对我们办公的自动化发挥了巨大价值。

pic_003

我们认为RPA是我们今天办公机器人的非常关键的应用基础之一,RPA,Robotic Process Automation,英文翻译过来叫机器人流程自动化,它的特点是计算机软件可以模拟人进行键盘和鼠标的操作,从而把在电脑上进行的大量规则性、重复性、事务性的工作大幅进行自动化,流程性的重复性工作将提升几十倍效率。

我们认为利用好RPA,再结合语言文字认知的相关能力,就可以在办公场景中做很多工作。RPA可以登陆应用、移动文件、读写数据库、从文档和表单中提取信息、邮件处理等等。将这些工作能力进行合并,就是一款款智能办公机器人。我们来看一下几款办公机器人的例子。

  1. 智能报销机器人:财务部门需验证大量发票真伪,将报销费用、分摊费用、信息手动录入ERP财务系统,完成报销流程。通过达观智能办公机器人,将自动识别各类发票,包括增值税专用发票、增值税普通发票、机票行程单、火车票、餐饮票等,并将识别结果结构化,每笔报销缩短为5min。
  2. 邮件自动化处理机器人:会计部门业务人员每月需多次向相关单位发送账龄信息收集通知邮件,并在指定时间内收取单位回执邮件,对附件数据进行汇总。通过达观智能办公机器人,可根据邮件主题关键字收取指定邮件,统计已回复邮件单位及超时未回复单位,并根据业务需求汇总各单位回执EXCEL文件数据,每封邮件处理时间由3分钟缩短至0.5分钟。
  3. 财务报表机器人:银行客户经理需将大量财务报表上的数百项信息手动录入至银行系统,还需将财务信息填写至尽职调查报告,这些财务报表数量多、会计科目数值大、人工采集非常耗时、易出差错。智能办公机器人可自动识别企业财务报表并录入系统,自动生成信审报表,全流程从4小时降低至10分钟内,效率提高23倍。
结合人工智能技术开发出来的智能办公机器人,它背后有巨大的价值,我们认为可以总结成三点:更快速、更准确、更便宜。辅助人类完成很多量大繁琐重复的工作,缩短70%的耗时;降低95%的错误率;释放50%的人力。
下面是达观数据已经在各行各业实现的机器人自动化办公的例子。

同业对账机器人

同业业务部对账人员需下载多个不同银行账户和金融机构自身财务核心系统众多流水,并逐条比对繁多条目,将不符的账目录入余额调节表,查明差额原因。这个过程中银行账号及流水信息数量大,人工耗时且易出差错,资金风险高,审计和监管风险大。
下图是办公机器人来进行对账,减少了管账人员工作量、100%保障账单数据准确性、提高资金安全保障,满足监管和审计要求。
pic_004

贷款信息录入机器人

业务经理在“个人快速贷款”相关的业务场景中,需要人工进行贷款业务的任务分发、材料审核、合同制作、信息录入编辑、积分记录等操作。
这个工作是每天每月都需要完成的,我们开发的办公机器人可以很快完成贷款方面所有资料的录入相关工作,将靠原来完成的手工操作全部自动化,大幅提高了效率。
pic_005

纳税审核机器人

办公机器人也可以像人一样做好监督管理工作。在纳税申报环节,企业需提交大量当年度及以前年度资料,由于大部分资料均为纸质版或扫描件,税务人员在整理信息时非常耗时耗力,且存在纳税企业重复提交篡改后的文档的风险。
智能办公机器人可以将文档进行比对,以方便从业人员一目了然地了解申报资料的篡改风险。 

披露报告撰写机器人

办公机器人可自动进行指定商业报告的撰写工作,给大家展示一下机器人进行银行贷款报告撰写流程。
机器人自动按照人的工作逻辑完成报告的撰写,可以大幅度提高效率,让人少加班,非常受到银行基层员工欢迎。
pic_006
将人类延续5000年的文化更好的进行自动化,这背后离不开智能化技术的应用价值。我们来看一下这背后有哪些机制以及未来将有哪些演化?
首先是自然语言处理技术,让机器人理解文档内容,需要有语义分析的能力作为基础。达观数据在字、句、篇章三个层面完成语义分析相关工作。并且加入各行各业知识图谱更好地进行行业里文字资料处理分析的相关工作。
pic_007
其次是图像识别OCR技术,办公机器人像人一样完成工作,需要处理很多纸制、扫描件存在形态的文档资料,比如身份证、行驶证等证件照扫描件等。
OCR技术如同人眼睛,达观OCR 基于机器学习和深度学习的技术,综合运用图像处理、计算机视觉、自然语言处理等技术,充分利用图像特征和自然语言的先验知识,关注整个图像序列对应的文字内容,利用文字序列上下文语义进行消歧,获得更好的效果。同时,独有研发的将抽取和检测识别结合一体,将从图像直接抽取出要素的端到端模型的迭代优化,实现效率和效果双佳。
所有智能化技术背后离不开大量模型和算法。达观数据挖掘了超过2000亿字的资料库,进行归纳总结。中国有句古话叫“读书破万卷,下笔如有神”,办公机器人的智能化程度背后离不开大量对文档资料的阅读和学习。
目前在金融、法律、财税、制造企业等行业都有达观数据的智能办公机器人进行自动化工作,未来达观也将开发更多的办公机器人赋能各行业。
我们相信未来将有越来越多的企事业单位设立相关部门部署智能办公机器人,让人和计算机共同进行协作。我们预计十年之内,将有超过50%日常办公工作可由办公机器人来完成。在这个过程中,我们将让计算机不断学习人类知识,让办公机器人处理更多不同应用场景中的工作内容。

扫码下方二维码,观看大会精彩回放

pic_001 (1)