达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

第五届“达观杯”NLP算法竞赛成功在NLPCC大会上举办颁奖典礼,业界大咖为获奖选手颁奖!

178371aeb0858bacdb67522144e624e

10月15日,NLPCC大会拉开帷幕,众多NLP学界专业人士齐聚青岛。在中国计算机学会自然语言处理专委会特别支持下,第五届“达观杯”自然语言处理算法竞赛——基于大规模预训练模型的风险事件标签识别颁奖典礼在第十届CCF自然语言处理与中文计算国际会议现场顺利举行,历时两个半月的第五届“达观杯”宣告圆满收官

颁奖现场,复旦大学计算机科学技术学院黄萱菁教授达观数据董事长兼CEO陈运文博士,以及联想人工智能实验室首席研究专家孟遥博士为获奖队伍颁发奖项。

IMG_4271
本次大赛由中国计算机学会自然语言处理专委会特别支持,达观数据主办,DataFountain作为官网竞赛平台。达观数据诚邀竞赛前十名队伍代表前往NLPCC大会现场参与颁奖典礼,并于典礼现场由本届赛事出题方代表-达观数据技术专家韩伟进行了赛事回顾,同时邀请一等奖代表针对参赛解题思路进行了分享报告。

nlp
 

关于达观杯

在十届CCF自然语言处理与中文计算国际会议暨第五届“达观杯”颁奖典礼现场,达观数据技术专家韩伟作为出题方代表,总结了本次大赛的基本情况。

nlp2
自2017年以来,由达观数据主办的“达观杯”系列算法大赛至今已经举办五届,在全国范围内引起极大关注,目前已成为国内语义理解领域规模最大的算法竞赛之一。直至第五届“达观杯”收官共累计来自1200+所高校的16000+名选手参赛,组建了14000余支团队,提交作品总数累计30000+;获得了50多家媒体的报道,宣传覆盖率累计50万余人次,获得业界专家院校的广泛支持。

image (2)
本届“达观杯”共吸引来自276个不同高校的算法精英1200人,组成1067支队伍参赛,期间共完成了3226次提交。

image (3)
本届大赛“基于大规模预训练模型的风险事件标签识别”提供了72G、上亿条通用领域经过脱敏的资讯信息用来支持预训练模型。训练集有14009条样本,数据来自于金融、政务、军事等多个领域,不均匀分布在35个类别里面,采用macroF1作为评价方案。从label分布和数据长度分布可以看出这是一个典型的样本不均衡的短文本分类问题。

image (4)
从获奖选手的方案中,发现选手使用最多的模型是bert,其次是nezha,方案基本是多模型融合。预训练模型很大程度上缓解了样本标注数量过少的问题。优化策略也比较集中,FGM解决鲁棒性问题、通过数据增强解决样本不均衡问题。也有部分同学通过SimCSE增强向量的表达能力,对于本次的短文本分类问题效果提升不错。综上所述,选手从几个方面针对数据集的样本不均衡问题以及标注数据不足的问题,为工程实践的文本分类问题提供了很好的思路。

image (5)
颁奖现场

一等奖

【第一名:联想人工智能实验室  董孝政、毛腾、刘晓艺、阮慧彬】
n1
本届“达观杯”邀请冠军队伍代表进行了现场报告,获得冠军的队伍是Knodi-NLP,主要成员包括董孝政、毛腾、刘晓艺、阮慧彬,四位成员均就职于联想人工智能实验室,从事自然语言处理相关工作,目前主要参与智能客服对话系统、知识图谱等项目,擅长多语言处理、意图理解、实体识别、情感分析、图谱问答等任务。

二等奖

【第二名:联想研究院 杨双涛】
n2
Panda是一支由个人构成的团队,目前就职于联想研究院,杨双涛有着五年自然语言处理工作经验,参与实施了多个智能客服项目,队伍在SMP 2020、CCL 2020 JDDC等多个自然语言处理竞赛中取得了Top成绩。

【第三名:苏州大学等 王金锋、高凯、李文雅、李婉静、杨飞】
n3
瓶ping无奇成员是高校和企业联合小组,由四名来自苏州大学、中科院计算所、中科院信工所、东北大学的在读研究生和一名美团算法工程师组成。团队成员均在各自领域有1~3年经验,包括自然语言处理、控制工程、物端计算等。

三等奖

【第四名:工银瑞信、桂林理工大学-张鑫鹏、左玉晖、李孜、苏靖】
n4
icbccs是企业和高校联合小组,在比赛后期,两支两人队伍进行技术交流和合并。一方是来自工银瑞信算法部工程师,另一方是来自桂林电子科技大学的研二学生。他们的研究方向主要是自然语言处理、谣言检测、金融科技等。在本次比赛中,他们获得了第四名的好成绩。

【第五名:贵州大学_文本计算与认知智能实验室 徐锦玲】
n5
徐锦玲同学是贵州大学计算机科学与技术学院文本计算与认知智能实验室研究生二年级的学生。研究方向为关系抽取,目前已发表SCI3区论文一篇,参加多个国内自然语言处理方向的算法比赛,做过的任务包括文本分类、阅读理解、问答匹配、问答生成等。

优胜奖 

【第七名:阿里算法部 王亚利、傅佳琪】
n6
该队伍是一支智能认知团队小组,成员主要从事nlp相关领域,涉及文本分类、信息抽取等方面,团队成员在nlp领域已有1-3年的从业经验。在本次比赛中,他们获得了第七名的好成绩。

此外,还有其他未亲临现场的获奖选手,他们来自华东师范大学、桂林理工大学、广东工业大学、电子科技大学、内蒙古科技大学、东南大学等高校以及南京南瑞继保电气有限公司、南京华为研究所、网易研究所、阿里算法部等企业。

【第六名:桂林理工大学等 傅薛林、黄永清、王文安、徐恩惠、薛翔天】

【第八名:华东师范大学 刘申、刘曙、张甜甜、李德健、刘婷婷】

【第九名:南京南瑞继保电气有限公司等 陈熔、陈阳】

【第十名:网易 肖波】

 

选手分享经验

作为本届大赛一等奖得主,来自联想人工智能实验室的队伍代表刘晓艺针对赛题任务介绍、预训练模型、模型整体架构以及队伍提分技巧四大方面向大家报告了自己的参赛历程;同时在现场向其他选手进行了赛事相关问题的答疑。

n7
作为智能文本处理的国家高新技术企业,达观数据将在未来持续用技术赋能产业发展的同时,不断挖掘人工智能领域优秀人才,为学术和产业发展做出贡献;期待下一届“达观杯”再次与大家不见不散!