日前,由DataCastle数据城堡联合深圳国家基因库、福建省数据治理与数据流通工程研究院、电子科技大学大数据研究中心、山东省数据要素创新创业共同体、亚马逊云科技、移动云编写的《人工智能与数据科学竞赛白皮书2022》于5月19日正式发布。
《白皮书2022》基于2020-2022年三年来国内办赛情况,聚焦政府、企业、科研机构各类赛事差异化发展、拆解竞赛基本架构、分析竞赛业态的发展困境、研判人工智能与数据科学竞赛未来趋势和发展方向。
《白皮书2022》聚焦近三年人工智能与数据科学竞赛现状,通过抽样调查、访谈、样本分析等研究方法,积极探索人工智能与数据科学竞赛的价值路径和发展方向,为众多企事业单位数字化转型瓶颈提供先决预见,为拓展数据应用方式、推动数据要素流通应用、寻找优秀数据人才提供创新思路。
下本文为概览:
1.人工智能与数据科学竞赛概述及基本价值
1.1概述:
人工智能与数据科学竞赛是一种以竞赛为形式的数据应用模式,在短时间内聚集大量数字人才,通过合理的赛事设计促进人工智能应用开发和数据要素的价值挖掘。
1.2基本价值:
人工智能与数据科学竞赛作为一种创新业态,对内汇聚产学研用多方资源,对外影响、助力整个产业生态。在数据科学生态系统中,政府、企业、技术人才、竞赛机构形成了一个良性循环的子系统, 创新系统内数据要素、人才要素流通机制, 赋能数据科学产业发展。
2.发展情况与趋势洞察
2.1各类赛事差异化发展
2.1.1政府赛事-聚焦公共事业与行业应用,数字孪生赋能智慧城市建设
近年来数据科学赛事市场中专项赛事比例逐渐增加,但在政府办赛中,综合赛事仍是主流。同时,数字经济发展和智慧城市建设成为多地政府部门的重点工作,以数字孪生为代表的人工智能技术在智慧城市建设中发挥着积极作用。
2.1.2 企业赛事-探索竞赛与社区深度融合,构建活跃用户生态
人工智能与数据科学竞赛作为技术社区的重要组成部分,被大型技术企业作为社区引流、用户留存的重要手段,同时通过竞赛提升社区用户参与度,提高用户粘性和社区技术浓度。
2.1.3 科研类赛事-独立性减弱,尝试绑定政企赛事
人工智能与数据科学竞赛诞生于学术会议,在出现之初长期作为学术研究活动存在,但近年来学术机构独立办赛比例持续下降,与政府、企业合作办赛逐渐成为科研学术机构办赛的主要选择。
2.2赛题趋势
2.2.1 计算机视觉(CV)赛题是2022年最大热门
在2022年统计到的635道赛题中,计算机视觉(以下统称CV)相关赛题占比36.5%,达232道,是占比最大的技术方向。
2.2.2 工业类赛事聚焦应用落地
自2021年起,工业类人工智能与数据科学竞赛逐年增多。在2022年的12场工业类赛事中,全部算法赛赛题均围绕工业生产中的实际问题进行设计,赛题难度适中,赛题方案易落地。
伴随工业互联网的普及应用以及传统工业制造业数字化转型的趋势,工业制造企业开始重视对工业数据的全面深度感知、实时传输交换、快速计算处理和高级建模分析,实现智能控制、运营优化和生产组织方式变革。
3.赛事主体
3.1主办方
人工智能与数据科学竞赛的主办方可以分为三大类 :政府、企业与科研机构。
在2022年统计到的211场竞赛中,企业办赛占据主流,共计109场,占比51.7% ;政府办赛数量多于科研机构办赛,共计64场,占比30.3%;科研机构(包含高校)办赛38场,占比18%。
政府
政府办赛虽然只占据2022年人工智能与数据科学竞赛总场次的37%,但在整体竞赛生态中具有较大影响力。
政府办赛现状分析与趋势预测:
·探索公共数据应用,推动创新项目孵化
·赛事水准保持高位,赛事吸引力强
·政务数据为主,多种类数据辅助
·能够提供优质稀缺数据、优质的技术证明、对高水平团队具有较高吸引力
企业
数据驱动是企业实现数字化转型的核心方式,人工智能与数据科学竞赛可以弥补企业在数字化转型过程中数据应用环节人力、时间、成本等方面的不足,部分竞赛赛题深入到数据处理环节,探索复杂数据处理的新方法。
企业办赛现状分析与趋势预测:
·办赛兼顾人才储备与品牌建设
·赛题方向多样化,数据密集型领域仍是主流
·人工智能与数据科学竞赛成为企业公益新路径
科研机构
科研机构以科研成果产出与科研人才培养为发展重心。其办赛以精准为重点,吸引领域内顶尖人才参赛是其办赛的侧重点。
企业办赛现状分析与趋势预测:
·科研机构与高校主办的赛事商业化氛围较弱,主要集中在学科竞赛和跨学科科研攻关两大方面。
3.2 赛事平台
人工智能与数据科学竞赛需要的赛事设计能力、技术支持能力、赛事运营宣传能力可能超出部分主办机构的能力或职责之外。因此赛事平台成为将数据资源转化为完整竞赛的重要第三方。
赛事平台的主要职责包括三方面 :赛事设计、技术支撑与赛事运营。
3.3第三方独立平台
DC竞赛
DataCastle数据城堡平台于2016年正式上线,由电子科技大学大数据研究中心主任周涛教授发起成立,平台基于公司多年竞赛业务体系得技术沉淀,为用户提供竞赛、实训、人工智能实验室、算力资源等服务。
DC竞赛以Kaggle竞赛模式为蓝本,采用平台化、模块化、自动化的办赛方式,同时结合国内具体办赛需求,基于自研数据科学实训平台DCLab与相关专利,为主办方提供定制化办赛服务。经过多年办赛实践,DC竞赛平台发展成为国内领先的第三方办赛服务供应商,平台注册用户超过32.5万人,上线赛题500余道,累计发放奖金9700余万元。
和鲸社区
和鲸社区(原 “科赛网”)成立于2015年,是中国知名的第三方数据科学社区之一,较早一批专注于大数据算法比赛的平台,拥有近20万注册数据科学家用户, 辐射超过30万数据人才群体。
DF竞赛
DF竞赛(DataFountain)是北京数联众创科技有限公司旗下品牌, 是国内领先的数据竞赛服务平台和数据智能协同创新平台,旨在围绕协作、数据、知识、技能形成大数据爱好者的专业成长链路,为数据科学家及产业赋能。
3.4企业自建平台
天池
阿里集团于2014年正式推出 “天池” 大数据科研平台, 该平台基于阿里云的开放数据处理服ODPS, 面向学术界开放海量数据(阿里数据及第三方数据)和分布式计算资源,平台业务包括 :天池大数据竞赛、数据实验室、开放式教学、数据人才认证。
飞桨AI Studio
飞桨AI Studio是基于百度深度学习平台飞桨的人工智能学习与实训社区, 提供在线编程环境、免费 GPU 算力、海量开源算法和开放数据,帮助开发者快速创建和部署模型。分设飞桨大赛、飞桨常规赛、新人练习赛等赛事分类。
华为云
华为云大赛是华为云开发者平台打造得开发者综合赛事平台,其竞赛内容涵盖机器学习、软件开发、硬件开发、系统开发、工业互联网等众多方向。华为云赛事平台严格来说并非数据科学竞赛平台,而是综合性开发者赛事平台,并且只为华为集团自身业务服务。
3.5参赛者
身份特征
学历特征:在学历背景方面,参赛者群体中60%左右为硕博人才,本科人才占比37.88%。在人才专业情况方面,其中87%左右的人工智能与数据科学竞赛人才来自于理工科背景。由于经济管理学科与数据密切相关,诸多赛题来自金融领域,因此还有部分竞赛人才来自经济学、管理学专业。
职业特征
学生是竞赛人才的主力,占比约64%,在职人员多数将人工智能与数据科学竞赛作为技能练兵场和兴趣俱乐部,主要人群为IT及相关行业的工作者,以及从事金融、咨询等与数据相关方面的工作者。
地域特征
参赛者诉求
根据参赛者的典型特征进行归类总结能够帮助我们更好地进行赛事设计,并分析研判未来赛事的发展方向。
·奖金名誉诉求:以奖金激励和名誉获取为核心诉求的参赛者以在校学生和职场新人为主,可支配时间充裕,技术实力较高,有冲击奖金和 TOP 排名的精力与实力,这些参赛者也是各大竞赛前排选手的重要组成部分。
·就业创业诉求:以就业创业为核心诉求的参赛者求具有很强的针对性,主要参与某类垂直领域的专业赛事,如金融、科技、生物医药等。
·学习提升诉求:以获取数据和技能实训为核心诉求的参赛者主要由数据科学初学者为主,受限于数据获取困难和实训机会匮乏而选择参赛,是各大赛事中占比最高的参与者。这些参赛者技术实力较弱,但学习意愿强,有机会发展为竞赛核心选手。
·社交活动诉求:以社交活动为核心诉求的参赛者数量少,影响力大。在竞赛社区加速发展的环境下, 部分竞赛深度选手开始组建交流社区、俱乐部、自媒体平台,成为竞赛领域意见领袖,对竞赛运营招募与舆情风向施加巨大影响力。
4.赛事基本架构拆解
5.前景展望
5.1 平衡数字中国建设区域差异,赋能数字政府生态发展。
5.2 数字中国展开布局,数据要素相关竞赛或纳入考核指标。
5.3 成果落地案例涌现,价值转化路径逐渐清晰。
5.4 解决人才招聘痛点,利用考核操作过程的评分系统精准评估技能。
5.5 科研教学为微型赛事提供落地场景。
5.6 AIGC带来AI革命,NLP赛题将成为新一阶段热点。
5.7 仿真赛题贴进实际问题,强化学习实现最优解或成为热门赛题类型。
5.8 线上赛事青睐云端环境,线下赛事追求竞技感。
【查看完整高清文件】关注“国家基因库大数据平台”公众号 → 后台回复关键词“白皮书”→ 即可收到高清文件链接
推荐阅读:叶紫