达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

文本智能处理潜力无限“AI员工”将为企业处理90%的文本工作

达观数据7

消费互联网和企业互联网领域的认知隔阂由来已久,踏入所谓的DT时代后,黑科技滋生的速度仿佛跟不上人们对自动化、智能化美好生活的向往速度。在极客网看来,大数据、AI的应用才刚刚起步。在占据传媒头条的人脸识别、刷脸支付等锦上添花型应用的背后,大家似乎忽略了一个现实:占据人们大部分学习工作时间的文字文本,也还存在大量需要被AI化的地方。尤其是在企业级市场,倘若职员们能够从日常繁复的文字工作中解放出来,那将是一个多么令人兴奋的场景!

近日,达观数据的CEO陈运文接受了极客网的专访——一个曾经打卡于百度、盛大和腾讯,后率兄弟团队创业专注于文本智能处理的复旦大学计算机博士——讲述他是如何一门心思将算法和算力“浪费”在“古典”的文字文本智能处理(相对图像和视频)领域的。

 

金融机构过半员工在与文本合同打交道,其实他们90%的工作可以交给计算机

概念可以一日千里,落地却总是慢条斯理。陈运文说,一个金融机构里有超过一半的员工日常是在和大量的文本合同打交道,把这些工作自动化,以后就不需要人来做,而主要由计算机去完成。“过去两年里,我们就是在这个领域投入大量技术能力,做核心的技术攻关。”

他指出,金融机构里有大量的员工需要审核合同里的流程,他们要去审核合同是否存在问题,比如数字是否一致?有没有法律漏洞?有没有不合企业规范、不合金融行业监管要求的地方?经过大量训练后的计算机,则可以完成其中的绝大部分工作,处理完后再交给人去把关。

“计算机阅读文字的速度是人类的500倍以上,让计算机来做文字类工作非常迅速、效率高、效果好。”技术出身的陈运文自信地告诉极客网,“目前文字类工作100%是人在做,未来我们希望和文字相关的工作,90%都靠计算机来做,最后把关的10%交给人类。”

“50%员工日常工作的90%由机器去完成”,相信企业经营者都知道这背后意味着什么。而且可想象,这样的场景绝不仅限于金融行业,包括法律、媒体、快消零售等行业,都存在着类似的重复枯燥的巨量文本文档处理任务需要“机器代人”的解决之道。

达观数据8

陈运文介绍,定位文本智能处理专家的达观数据,瞄准的正是这些潜力场景,专注为数字化转型升级期的企业提供完善的文本挖掘、知识图谱、搜索引擎和个性化推荐等文本智能处理技术服务,帮助企业实现数据化、智能化运营,有效提升企业运营效率和经营业绩。

 

AI员工又快又好,培养合格的“AI员工”并非易事

自动化、智能化带来的结果很美好,但通向结果的道路,却不总是那么顺畅。陈运文指出,原理其实很简单,让计算机做员工的工作,本质上就是将计算机培养成员工(或许我们可以将之称为“AI员工”);这个“AI员工”所做的事和人应该做的事差别越小,它就越接近于人类员工,越趋于合格。

在技术层面,这其实又是一个AI领域老生常谈的三个要素的话题,即AI必不可少的数据、算法和算力。考虑到文本是最不占IT资源的数据类型,因此文本智能处理对AI技术的要求又可简化为数据和算法两大要点。陈运文自信地称,达观数据的文本智能处理已经做到全球领先水平,成为国内大型企业的首选合作伙伴。

达观数据具体怎么做的呢?陈运文介绍,在数据层面,针对特定行业,达观先是从互联网上采集几十亿字的文档资料,让计算机每天反复阅读它们,提取这些文字背后的规律,让它逐渐具备人的理解能力,去做分析挖掘。与此同时,特定客户自己也积累了海量的历史文本资料,也会让计算机去阅读分析这些资料,理解它的每一个字、每一句话、每一个段落的含义,以及字词的组合方式。如此双重阅读训练、不断积累,计算机就实现了理解行业文本的能力。

如果说大量数据训练的“后天努力”非常重要,那么算法模型层面的“先天智商”也同等重要。“AI员工”的“大脑”聪明程度、智慧程度,存在着高下之分。陈运文指出,达观数据有超过100名工程师专注在核心算法模型上,去让计算机具备理解字里行间含义的能力。尽管只有3000左右的常用字,但汉字的组合千变万化,这需要计算机的大脑进化速度远快于人脑,同时“喂”以大量数据“粮食”,才能快速成长为合格的“AI员工”。

资料显示,在核心技术方面,达观数据迄今已获得了30余国家发明专利,出版了两本人工智能著作,并发表了超100篇高质量行业技术论文。特别是在算法层面,陈运文带队的达观技术团队先后获得了ACM CIKM Competition国际竞赛冠军、EMI国际黑客马拉松算法竞赛冠军等多项桂冠。而在合作客户方面,达观数据已积累了华为、招商银行、中国平安、中兴、京东、顺丰、中国移动、和讯财经等数百家企业客户的成功服务经验,各细分领域的“AI员工”都得到了极大的先天+后天锤炼。

 

达观的诗与远方:专注企业服务,解放人力做更有意义的事

当被问及对部分公司利用类似的AI技术,在消费互联网领域风生水起估值上百亿的看法时,陈运文介绍达观数据目前还是会专注在企业服务领域,一是因为文本处理应用面在企业层面最广,二来能给社会创造更多价值。他预计,单金融机构中国就超过一万家,整个企业级的文本智能处理市场规模是万亿级别的。

最重要的是,陈运文补充道,“企业原来靠‘人拉肩扛’的方式处理文档,我们要让这些人力更好地释放出来,更好地享受生活,更好地用在我们社会的其他重要方面。我们希望五年以后,中国有超过一半的大型企业能够用上达观的AI技术,来处理它们的文档资料。

当然,他认为,这个过程人们不必担忧失业等所谓的AI的副作用,就像120年前福特发明T型汽车并没有让北美15万马车车夫无路可走一样;他们或许转行,或许转做汽车司机,提升了社会效率,实现了更大价值,人生也更有意义。今天包括欧洲和北美,企业职工的平均工作时间都低于中国,主要原因就是效率提升使得他们不用满负荷工作就能够享受人生。

但与此同时,陈运文强调,技术的发展从来都不是线性发展,而是指数跳跃。一个新技术的应用和普及,其速度只会越来越快。无线电普及用了10年时间,但智能手机两三年就满大街了。“AI同样如此,它的速度比以往任何技术的普及都会更快。我们很快就会看到它为企业带来的提升效率、节约成本的效果。很快大量文本处理相关的工作——包括已知的和未知的——都将主要由计算机完成,人只要负责思考和下达指令即可。