达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

如何做好非结构化数据文本智能审阅市场

虽然是一家创业型公司,因团队在盛大、腾讯等公司所有的深厚积累,达观数据备受市场青睐。

目前,公司的主营业务在于非结构化数据处理中的文本处理。2017年,公司营收同比增长3-4倍,达到盈亏平衡。

作为数据界的“复旦系”,达观数据是如何立足于数据市场的?

公司宣传配图

 

致力于非结构化数据文本智能审阅市场

“虽然是一家创业型的公司,但在专业领域,达观数据已经有了深厚的积累。创始人陈运文博士,最早在盛大文学,当时全国百分之七八十的小说文学网站数据体系搭建都是由陈博团队所主导的,后来也成为腾讯文学的前身。在意识到文本挖掘和智能化处理的价值时,陈运文带领着团队一同创办了达观数据。所以,虽然作为创业型公司,我们在专业的文字挖掘上有丰厚的经验。”关于达观数据的创立背景,市场总监孙亚彬如是说。

目前,达观数据的业务主要在于非结构化的文本数据处理。对于何谓非结构化文本,孙亚彬解释道:

“我们通常所理解的数据分析公司,大部分是处理结构化的数据。但事实上还有占到总量60%以上的非结构化数据。文本是非结构化数据中的一种。目前市场上大部分产品的处理能力还比较弱,所以还没能把它很好的挖掘出来。”

举例来说,在银行的信贷部门,当消费者申请借款,无论是提交申请报告,还是签订银行合同,都需要进行大量的审计。用人工进行审核会耗费大量的时间和精力。人的精力是有限的,一旦工作效率的降低,审计的准确率也随之降低。但对于基于数据处理的机器来说,完全可以避免这样的问题。机器的效率会快的多,准确率也可以达到更高的水平。在达观为国内知名保险公司提供的财务审阅系统中,财务信息提取准确率达高到98%。

“所以,我们提供的系统就是代替人做机械化和重复性的工作。机器可以自动阅读文档内容、阅读合同,并把关键核心信息进行提取,把可能存在的错误内容标识出来。这样审核人员就不需要检查整个文档,只要看标注出来的可能存在的错误信息便可,大大减少了人员的处理时间,也提升了整个的工作流程效率。”

基于以上业务,达观数据的文档智能审阅系统可协助金融、制造、通信、法律、审计、媒体、政府多个行业的文字密集企业完成文档审阅工作。

 

数据界的“复旦系”

在业务能力的背后,是核心技术的支持。基于自然语言处理能力,达观数据搭建了NLP文本智能处理平台。在平台之上,进一步衍生出三大引擎,包括文本挖掘引擎、垂直搜索引擎,以及智能推荐引擎

上月,国内知名自然语言处理领军专家、复旦大学计算机教授黄萱菁博士正式受聘为达观数据高级顾问。此前,复旦大学计算机学院教授、知识工厂实验室创始人、国内最早从事知识图谱研究的学者肖仰华博士受聘担任达观数据高级顾问。

除了聘请复旦学者,达观数据的创立发展和复旦大学颇有渊源。不仅创始人陈运文博士在此毕业,公司的许多技术核心人员皆是复旦大学出身。

“在自然语言处理领域,分为北派和南派,北派的代表是哈工大、清华,在自然语言处理方面全国名列前茅。南派领头的包括复旦大学、东南大学。”孙亚彬继续表示,因为和复旦大学的渊源,公司与其一同创建了联合实验室,此次与黄萱菁教授合作也是在实验室的基础上进一步深化。

在国内语言处理领域,黄萱菁是泰斗级人物。作为国内早期从事人工智能、自然语言处理和信息检索的学者,已经在SIGIR、IEEE TKDE、ACL、ICML、IJCAI、AAAI、SCIS、CIKM、ISWC、 EMNLP、WSDM和COLING等多个高水平国际学术期刊和会议上发表了近百篇论文,负责的多个科研项目受到国家自然科学基金、科技部、教育部、上海市科委的支持。

与学界的合作,对于达观数据提升自身的自然语言处理技术能力来说无疑帮助巨大。

 

资本加持 未来营收盈利能力向好

而除了自身的业务能力,以及与学界合作之外,达观数据之所以获得业界关注还与被资本看好有关。

自2015年创立,“企业大数据”市场的不断向好,达观数据备受资本青睐。先是在2016年1月获得来自真格基金领投的1000万元人民币天使轮融资。2017年4月,进一步获得由软银赛富领投,方广资本跟投的5000万元A轮融资。

对于这次投资,软银赛富一方面看好挖掘和分析数据对提升经营效率上的帮助,据素有国内投资界“教父”软银赛富管理合伙人阎焱表示:“中国企业普遍掌握了很多数据和资料,挖掘和利用好这些数据,对提升经营效率有很大的帮助。”与此同时,也表示了对达观数据的肯定。据该司执行董事Jacky表示,达观团队在文本语义理解方面有深厚技术积累,擅长算法研发并多次获奖,在服务的企业也均获得了很好的口碑,他看好达观成为企业文本挖掘和搜索推荐领域的领头羊。

据孙亚彬介绍,2017年达观数据的销售达数千万,相较于16年实现了3-4倍的增长,基本实现盈亏平衡。

业绩的倍增与客户开拓战略密不可分,公司在成立早期,主要还是以Saas类型的客户为主要服务对象,大多是互联网中部的企业。17年之后,逐渐发现很多传统的大型企业对于文字的需求越来越强烈,像华为、招行都主动与达观数据进行业务合作。市场需求扩大后,达观数据开始针对大客户开发定制的标准化产品。

截至目前,公司已积累华为、京东、海尔、长虹、中国移动、顺丰、中国平安、招商银行、浦发银行、华泰证券等数百家企业客户的成功服务经验,覆盖金融、科技、制造、法律、电商、视频、传媒等行业。