在大数据和人工智能技术加持下,不同行业各种新兴的风险控制手段也正在高速发展。但这些风险信息散落在互联网的海量资讯 中,若能从中及时识别出风险事件并挖掘出潜在的风险特征,能够大幅提升识别和揭示风险的能力。而风险事件以文本的形式存 在,需要采用自然语言理解模型实现风险事件的高精度智能识别,其本质是属于一个文本分类任务。

NLP(自然语言处理)作为人工智能领域皇冠上的“明珠”,其技术的科研创新一直精进不休。而文本分类在自然语言处理领域处 于非常基础且核心的地位,目前文本分类已经广泛运用于金融、政务、银行、证券、运营商等各个行业中的多个场景中,如金融 领域和政务领域的风险事件标签。

很多领域的子任务通常也转化成分类任务,完整的分类任务处理包括了分类标签体系、标注数据、算法模型等不同环节。

金融领域的风险事件文字描述沉淀在大量的客观报道或分析报告中,需从文本中提取出事件及其之间复杂的关系。风险事件示例从宏观、行业、企业等不同层面对风险进行了分类,通过标签将事件进行标引可以从事件的角度对各方面的风险情况进行追踪,并且构建事件之间的内在联系。

妥善处置各类风险事件,提高政府对突发事件的快速反应能力。通过对热点资讯进行风险识别和预警。使处置突发事件从被动应付向源头管理转变,找出突发事件的规律,把突发事件解决在萌芽状态。

本次大赛的任务是基于一定量的风险事件标注语料和大规模无标注的资讯文本,训练模型对资讯文本包含何种风险标签进行预测。大赛提供的数据集:风险事件分类的训练集规模是10000+,包含9个一级标签和35个二级标签;大规模无标注的文本规模是亿级,可供选手选择用来进行语言模型训练。数据性质均为新闻资讯数据,并且进行了字符编码(保留了句子划分的标点符号),文中的字符会转换成唯一的ID,ID之间使用空格进行分割。

希望选手结合当下的前沿自然语言处理和深度学习技术,提升模型的训练性能和泛化能力,深入挖掘实现风险事件标签的精准识别。

1.本次比赛以团队形式参与,注意每队不超过5人

2.参赛团队在比赛过程中若被要求提交个人身份信息,须保证该信息的真实性。

每日提交上限:2次

比赛结果必须开源

不可使用外部数据

本次大会设税前奖励共五万九千元共包含10个获奖名额

比赛颁奖典礼将在CCF自然语言处理与中文计算国际会议(NLPCC)会场内举行 获奖队伍将得到中国计算机学会自然语言处理技术委员会的宣传支持,我们将邀 请最终成绩前10名队伍代表出席“NLPCC”大会;

比赛排名TOP30的选手将获得达观数据全职和实习工作的面试直通机会,优先录用

安排赛事+直播,在线解答赛事,及分享NLP相关技术研究与应用
开赛后赛中开启持续5周“周榜单”活动,“周冠军团队”可获得价值300元的精美礼品一份,奖品将在初赛结束后统一发放
安排赛事期间,选手互动送出最新相关NLP研究书籍,宣传覆盖达数千人次

点击下方按钮报名

立即报名