达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

张健:文本智能处理应用实践与未来发展

8月3日晚,复旦IT同学会携手公益俱乐部特邀达观数据联合创始人、复旦大学计算机软件与理论硕士张健为大家带来《文本智能处理应用实践与未来发展》线上分享活动,本次活动由达观数据董事长兼CEO陈运文担任嘉宾主持。

张健曾就职于盛大集团和腾讯文学,担任人工智能和大数据技术专家职位,目前担任达观数据文本应用部总负责人,对于机器学习算法和自然语言处理领域的研发有丰富的实践经验和技术积累,负责客户意见洞察系统、智能客服工单分析系统、文本语义纠错系统、事件分析平台、文本智能审核系统等多个文本应用产品的开发和落地。他曾荣获上海市浦东新区科学技术奖、“2021上海科技青年35人引领计划”、上海市青年科技启明星等多个奖项。

活动伊始,张健为大家简单介绍了达观数据的主营业务、规模以及公司所获荣誉。随后,他分别就文本智能处理概述及发展历程、具体任务功能介绍、文本智能处理应用的开发流程、项目应用与案例与校友们展开分享与讨论,并对未来文字智能处理提出展望。

张健指出,文本自动处理属于人工智能的三大块领域之一,具有广阔应用。在对图像、语音等感知层面的处理完成后,进一步对文本进行认知层面的自动处理,模拟人类智慧分析过程,号称是人工智能皇冠上的明珠。他提出,NLP,即自然语言处理,让计算机代替人类自动化的进行文字(自然语言)相关处理,通过自动化的审批、核对、纠错、搜索、推荐、比对、分析、评判等功能,大幅度减轻人工负担,通过自动填表、摘要写作、润色修改、写作提示、内容扩充等功能实现自动写作。

人工智能(Artificial Intelligence)概念在1956年被提出时,对机器翻译和密码破译的兴趣是重要的推动力之一。当时设想的 AI 技术成熟的两个标志性任务分别为:1.在国际象棋上能够战胜人类、2:在机器翻译上能够超越人类。如今任务1在所有棋类上均已经超越人类,但是任务2仍然未能完全实现,可见语言理解的复杂度之高。

自然语言处理技术历经四代发展与演变。1950年开启了第一代技术,即符号主义,靠查词典和写模版来匹配语义,但实际效果差强人意。第二代技术即语法规则始于1970年,靠语言学家书写大量的语法规则来处理文本,语法规则数量庞大,难以穷尽所有情况,互相冲突,导致管理和维护困难。1990年,我们迎来了第三代技术,即统计学习,通过从大量文字语料中统计上下文分布规律来进行语义分析,字词级的处理效果相较于前两代有了大幅度的提升。2010年左右,诞生了第四代技术,即深度学习,通过深度神经网络技术,对整个篇章的内容进行整体性的表示学习,在篇章级的文字阅读理解效果上有大幅度提升,在一些评测上开始接近人类水平。

随后,张健以两个NLP技术的典型应用场景为例,详细介绍了中文分词与词性分析、命名实体抽取、文本分类、关系抽取、事件抽取、语义匹配、关键标签抽取、摘要生成、文本纠错、机器翻译、文本审核功能。

文本智能处理应用开发流程可分为六步,第一步,分析目标,决策者定义业务关注的维度,分析场景、诉求、情感、问题等,并梳理出对应的标签类别体系,然后对接业务系统进行文本处理数据的采集,在完成数据清洗后,按照业务确立的标签类别体系完成人工标注,之后使用深度学习算法构建语义模型,输出结构化解析能力。完成算法建模后,分析算法模型能达到的性能效果,判断是否达到业务预期,最后,构建场景应用,服务于线上系统。

张健表示,文字本身就像冰山一角,计算机在进行文本阅读处理时必然会遇到许多问题,比如,对上下文语境的理解偏差、行业背景知识的缺乏等,这都需要我们在未来进一步钻研技术,攻克这些难点。

对未来文字智能化处理的应用,张健代表达观数据提出了展望与希冀。他指出,随着技术的进一步迭代与更新,未来白领的日常工作方式将发生极大的转变。由计算机智能语义理解系统加人工复查代替人工阅读处理,极有可能大大缩短文档审阅时间。展望未来,计算机在机械性、重复性的文字操作方面的能力将逐步超越人类,10年后,计算机有可能代替人类完成50%的基础性文字工作,各类企业和机构都将配备相应的文本智能计算机软件系统。虽然在技术进步之路上仍有重重阻碍与困难,但怀抱乐观的心态,不断携手共进,积极探索,相信未来会有无限美好的可能!

最后,两位嘉宾介绍了公司对公益事业的长期追随和坚持。在达观党支部的带领下,每年都会联合各单位、社会组织或相关机构发起向贫困地区小学捐赠图书的公益活动。文字承载着知识、智慧和梦想。每一个孩子都有一个灿烂的读书梦想,每一个梦想都值得放飞。他们倡议有意向的校友一同参与支持该公益活动,“点燃孩子心里的光,照亮前程的路”!

达观爱心活动将持续进行,若您手上还有多余的书籍、衣物、文体用具等物品,可联系安排时间上门收取,联系人为赛娜(021-58569171,18516275919)。

文章来源:上海复旦大学校友会秘书处