达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

“达观杯”智能文档版面分析算法竞赛正式开赛!本届携手上海市计算机学会

9月21日,一场围绕“数融万物 智算未来”为主题的2023年智能分析算法专项职工劳动和技能竞赛启动仪式在市北高新园区隆重举行,也标志着第七届“达观杯”智能文档版面分析多模态数据处理算法竞赛正式拉开帷幕

关于达观杯

作为国内领先的智能文本处理企业, 达观数据已连续七年主办了全球性人工智能算法竞赛“达观杯”,邀请高校、科技型企业和自然语言处理爱好者,共同参与和研究实际业务场景下的人工智能技术问题。属文本处理领域第一赛事,累计吸引近两万名选手参赛,提交作品总数超三万件。

赛题背景

随着数字文档的广泛应用和发展,对非结构化数字文档进行智能处理成为了一个备受瞩目的研究方向。其中版面分析是文档智能处理领域中最具价值和挑战性的一部分,可以为多种下游任务提供服务。在金融、制造、政务等各行各业的文档处理中,复杂结构文档(包括表格、图表和文本信息)的版面分析能够提高信息提取准确性,降低解读错误风险,提高自动化流程效率。能够为多个领域的文档分析提供支持,具有广泛的应用潜力,为企业和机构提供发展机会和竞争优势。

为提高计算机视觉、自然语言处理以及多模态技术在版面分析任务中的解决能力,推动这一领域的发展,特举办此次版面分析比赛。该比赛提供了一批文档版面分析标注数据,旨在促进相关领域的研究者和从业人员共同提高对版面分析任务的解决能力。通过参加此次比赛,参赛者有机会运用计算机视觉、自然语言处理以及多模态技术,结合提供的文档版面分析标注数据,提出高效准确的解决方案。该赛题对各行各业的自动化流程提取关键信息具有重要意义,同时也为其他领域的文档处理提供借鉴并推动相关技术的进一步应用和发展。

赛题任务

参赛者需根据提供的比赛背景和数据,有效地应用相关领域的知识和方法,解决各行业领域文档版面分析任务的挑战,提高算法和模型在此项任务上的性能。具体任务是识别出给定数字文档中的不同信息类别,包括文本、标题、表格等元素,提供的数据内容包含文档的图像信息和对应的OCR结果。参赛者需要开发一个模型,能够识别文档图像中的常见布局元素,并为每个识别结果提供置信度评分。

赛事数据

初赛和复赛均提供下载数据,选手在本地进行算法调试,在比赛页面提交结果。

  • 初赛(A榜)训练集包含3000张左右的图片和对应的版面分析标注以及OCR标注;
  • 初赛(A榜)测试集包含1000张左右的图片和对应的OCR标注。
  • 复赛(B榜)测试集包含1000张左右的图片和对应的OCR标注。其中,OCR标注为通过OCR服务获得的图片中的文字位置和文字内容,未经过人工清洗。

丰厚奖励

参赛激励

1.面试直通车:比赛排名Top50的选手将获得达观数据全职和实习工作的面试直通机会,优先录用。

2.“周榜单激励”

(1)周榜活动时间:A榜第三周开始每周五统计上周周榜排名

(2)周榜活动规则:

  • 初赛A榜开启后第三周开启“周榜单激励”活动,每周一公布截至上周周榜单TOP1团队信息,Top1团队即为“周冠军团队”。
  •  经审核后,“周冠军团队”可获得价值200元精美礼品一份,本活动每个团队最多领取2次奖品,超出则顺延至下一名次团队。奖品将在初赛结束后统一发放。

3.“鱼跃龙门”奖:赛事期间,前10名超过0.85的团队,可获得精美奖品一份,数量有限先到先得

4.“梅开二度”奖:凡过往参与过达观杯算法竞赛的选手,再次参与本届比赛且取得0.82分以上成绩可获得精美奖品一份!仅限20份,先到先得!

(符合要求且最早填写问卷的前20支团队问卷链接:https://jinshuju.net/f/mDBvDj

 

赛程安排

  1. 初赛(A榜)阶段:2023年9月21日—2023年11月2日,选手可登录大赛官网报名;同时开启初赛线上评测,选手可在线提交结果文件至竞赛平台,每日每队最多可提交3次,测评系统将自动评测得分并同步更新至排行榜。排行榜上将记录选手的最高成绩,相关团队必须自行保存最高成绩作品的源代码以备审核;初赛(A榜)评测结束后,成绩TOP20的选手可参与(复赛)B榜评测
  2. 复赛(B榜)测试集发布:2023年11月3日 12:00
  3. 复赛(B榜)阶段:2023年11月3日 12:00—2023年11月5日 23:59
  4. 代码审核阶段:2023年11月6日—2023年11月10日
  5. 决赛阶段:2023年11月中旬(具体时间另行通知)

(暂定,如因不可抗力或其他因素影响而变更时间,组委会将在第一时间通知选手。)

参赛规则

  1. 成绩验证:B榜截止后,排名前10名的团队需要参与到成绩的复核中,复核中参赛队伍需要提供作品源代码和说明文档以保证成绩的真实有效。复核有效的队伍将进入最终的决赛答辩中,决赛答辩中将综合考虑B榜成绩(70%)与算法的高效性、创新性、有效性、合理性等考量指标(30%)得到最终的排名。
  2. 作品原创:参赛作品必须保证原创性,不违反任何中华人民共和国有关法律法规,不侵犯任何第三方知识产权或其他权利,一经发现或经权利人提出并查证,大赛组委会将取消其比赛资格和成绩并进行严肃处理。
  3. 作品知识产权:参赛作品(包含但不限于算法、模型、方案等)知识产权归出题单位、参赛者、官方竞赛平台三方共享,大赛组织单位拥有对参赛作品组织投资对接和产品孵化服务的优先权利;大赛组织方及竞赛平台均有权利将参赛作品、比赛信息、参赛团队信息用于宣传品、相关出版物、制定及授权媒体发布、官方网站浏览及下载、展览(含巡展)等活动项目。
  4. 竞赛数据说明:组委会授权参赛人员使用提供的数据进行指定比赛的模型训练工作,本次比赛数据集的版权归达观数据有限公司所有,参赛人员不得将数据用于任何商业用途。若做科研使用,请注明数据来源于相关数据提供单位。

参赛顾问

报名参赛

  1. 大赛面向社会各界开放,邀请全国范围内从事人工智能、自然语言处理、多模态算法等技术的团队或个人参与。
  2. 报名直通车:https://challenge.datacastle.cn/v3/cmptDetail.html?id=824

    复制至浏览器或戳底部原文链接报名

  3. 同时,欢迎大家扫码加入赛事官方QQ交流群,既可邀人组队,又有官方答疑哟~

2023年智能分析算法专项职工劳动和技能竞赛

组织架构

 

指导单位

上海市总工会

上海市经济和信息化委员会

上海市科学技术协会

中共上海市静安区委员会

上海市静安区人民政府

上海市大数据中心

上海数据集团有限公司

主办单位

静安区总工会

静安区科学技术协会

承办单位

上海市北高新(集团)有限公司

技术承办单位

达观数据有限公司

协办单位

上海市计算机学会

上海市数据科学重点实验室

静安区科学技术委员会

上海市可信数据研究院(筹)

上海蚂蚁链产业开发创新中心

复旦大学计算机学院

上海师范大学信息与机电工程学院

市北高新园区大数据行业工会

运营单位

上海市市北高新技术服务业园区总工会

上海聚能湾创新创业中心

官方赛事平台

DataCastle