达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

达观杯携手CCKS,基于本体的金融知识图谱自动化构建技术评测开启报名

作为国内知名算法大赛,“达观杯”已经连续举办三届,分别以备受关注的“个性化推荐“、“文本分类”、“智能信息抽取”作为赛事主题,吸引了全球近万名NLP爱好者的关注和参与。

在达观杯第四年之季,主办方达观数据将携手国内年度学术大会CCKS(全国知识图谱与语义计算大会),围绕“基于本体的金融知识图谱自动化构建”这一主题,继续和广大技术爱好者们探索NLP前沿技术的产业应用效果。

任务背景

CCKS(全国知识图谱与语义计算大会)是由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议。其中技术评测旨在为研究人员提供测试知识图谱与语义计算技术、算法、及系统的平台和资源,促进国内知识图谱领域的技术发展。以及学术成果与产业需求的融合和对接。

2020年CCKS大会召开在即,并设立8个相关主题评测任务,达观数据与百度、招商银行、蚂蚁金服、阿里巴巴等企业及各大高校研究学者分别单独组织其中1个主题评测任务。此前,达观数据曾在2019年用“智能文档审阅系统”工业级的产品参与了学术评测,且仅用2周时间斩获CCKS 2019“公众公司公告信息抽取”任务亚军殊荣,如今在2020年以评测任务组织方的身份,再次参与其中,并发布了以金融行业研报为数据基础的“基于本体的金融知识图谱自动化构建技术评测”任务

任务介绍

金融研报是各类金融研究结构对宏观经济、金融、行业、产业链以及公司的研究报告。报告通常是有专业人员撰写,对宏观、行业和公司的数据信息搜集全面、研究深入,质量高,内容可靠。

报告内容往往包含产业、经济、金融、政策、社会等多领域的数据与知识,是构建行业知识图谱非常关键的数据来源。另一方面,由于研报本身所容纳的数据与知识涉及面广泛,专业知识众多,不同的研究结构和专业认识对相同的内容的表达方式也会略有差异。

这些特点导致了从研报自动化构建知识图谱困难重重,解决这些问题则能够极大促进自动化构建知识图谱方面的技术进步。

任务要求

本评测任务参考TAC KBP中的Cold Start评测任务的方案,围绕金融研报知识图谱的自动化图谱构建所展开。评测从预定义图谱模式(Schema)和少量的种子知识图谱开始,从非结构化的文本数据中构建知识图谱其中图谱模式包括10种实体类型,如机构、产品、业务、风险等;20个实体间的关系,如(机构,生产销售,产品)、(机构,投资,机构)等;以及若干实体类型带有属性,如(机构,英文名)、(研报,评级)等。

在给定图谱模式和种子知识图谱的条件下,评测内容为自动地从研报文本中抽取出符合图谱模式的实体、关系和属性值,实现金融知识图谱的自动化构建。所构建的图谱在大金融行业、监管部门、政府、行业研究机构和行业公司等应用非常广泛,如风险监测、智能投研、智能监管、智能风控等,具有巨大的学术价值和产业价值。

评测本身不限制各参赛队伍使用的模型、算法和技术。希望各参赛队伍发挥聪明才智,构建各类无监督、弱监督、远程监督、半监督等系统,迭代的实现知识图谱的自动化构建,共同促进知识图谱技术的进步。

奖励安排

pic_002 pic_003 pic_004

赛事官网

https://www.biendata.com/competition/ccks_2020_5/

交流平台

交流平台:QQ群(743057650)

  • 在训练及验证数据发布的同时会发布任务交流平台。
  • 相关的问题说明、解答和通知会在该平台中发布和交流。
  • 所有参赛队伍至少有一名成员加入到交流平台中。
  • 各参赛队伍针对评测任务的交流在该平台里进行。
  • 为公平起见,所有交流信息对所有参赛队伍公开。

往年赛事回顾

  1. 第三届“达观杯”算法大赛颁奖典礼圆满落幕,激发信息抽取创新思路
  2. 终极十强英雄在此,“达观杯”文本智能处理挑战赛完美落幕
  3. 明年再见 | 2017“达观杯”个性化推荐算法挑战赛颁奖典礼圆满落幕