达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

上海首个大模型产业发展研讨会圆满落幕,众顶尖专家学者共探大模型产业

4月21日,由上海市数据科学重点实验室携手达观数据、上海浦东软件园联合举办的“大模型产业发展研讨会”圆满落幕。本次研讨会是继达观数据在北京、成都顺利举办“ChatGPT及大模型专题研讨会”后的又一场科技盛会,当天大会汇聚了大模型产业国际和国内顶尖的工业界与学术界专家学者,分享他们在大模型产业发展方面的最新进展与未来规划,并共同探讨大模型产业的未来发展趋势和挑战。

上海浦东软件园创业投资管理有限公司董事、总经理郭斌致辞

上海浦东软件园创业投资管理有限公司董事、总经理郭斌在致辞中表示,上海浦东软件园作为“一核三园两港”的重要组成部分,一直秉承“科技创新、产业发展”的核心理念,积极布局新一代信息技术产业发展,努力搭建产业生态圈,打造数据技术策源与专业服务高地,推动产业智能化升级。相信通过本次会议的交流和研讨,能够深入理解大模型的概念和应用,掌握”大模型”+”产业”时代的发展规律和趋势,为企业创新、产业升级和社会进步注入新动力。

上海市数据科学重点实验室主任肖仰华引导发言

上海市数据科学重点实验室主任肖仰华教授,作为主办方代表以《对于我国大模型产业发展的一些思考》为题进行引导发言。肖仰华教授提到,通用人工智能时代已然来临,它将带来前所未有的产业变革。国际上大模型产业生态发展迅速,但是我国尚处于起步阶段,各自为政,大模型林立,缺乏统一规划、合作协同和立法保障,并存在同质化现象严重、对国外大模型存在严重依赖、国产算力生态尚不完善、中文数据质量较差且规模不大、大模型人才匮乏、落地成本高等问题。肖仰华教授表示希望大家都可以积极参与思考“大模型产业应如何发展”。

在主题分享环节,达观数据董事长兼CEO陈运文、中国信息通信研究院云计算与大数据研究所人工智能部副主任董晓飞、爱数研发副总裁杨宇、超对称创始人,首席科学家吴恒魁、智谱AI大模型事业部VP薛宇飞、文因互联创始人鲍捷等多位人工智能领域专家,针对肖仰华教授提出的问题各抒己见,并从大规模语言模型的技术发展、应用落地与未来前景等多个维度进行了分享。

达观数据董事长兼CEO陈运文演讲《探索大语言模型的垂直化训练技术和应用》

达观数据董事长兼CEO、复旦大学计算机博士陈运文以探索大语言模型的垂直化训练技术和应用为主题,细致分享了达观数据在垂直领域的语言模型方面的工程化探索,包括:参数规模和语言模型的参数规模探讨、通用大模型的预训练数据集研究 、垂直领域的提示工程、达观“曹植”系统、达观数据的AIGC应用等,还介绍了金融专用大模型BloombergGPT的发展与应用。他认为深化大模型和AIGC在垂直领域的应用,真正把大模型和AIGC融入到企业的实际业务中,对于商业化和大语言模型研究都具有重要意义。达观数据正在研发的垂直领域模型“曹植”系统和AIGC应用,未来将会在各行各业里落地应用,为每个行业赋能。其中,“曹植”大模型,引自曹植七步成诗的典故,希望它作为垂直、专用、国产的GPT模型。

中国信息通信研究院云计算与大数据研究所人工智能部副主任董晓飞演讲《中国信通院大模型标准及评测介绍》

中国信息通信研究院云计算与大数据研究所人工智能部副主任董晓飞详细的介绍了中国信通院当前的标准研制情况、评估测试情况和下一步工作规划。他分享到信通院正在建立大模型标准体系2.0,适配产业发展趋势,并且编制工作稳步推进,已发布和定稿多项标准,如:面向大模型“建、用、管”产业需求,形成《大规模预训练模型技术和应用评估方法》系列标准。评估测试全面推进,同时,结合《大规模预训练模型技术和产品评估方法》、《自然语言处理技术及产品评估方法》《生成式人工智能技术及产品评估方法》等系列标准,推出大模型专项评测工作,引导大细分领域落地。信通院会夯实大模型全栈评测能力,构建协同共赢评测生态。

爱数研发副总裁杨宇演讲《大语言模型释放全域数据价值》

爱数研发副总裁杨宇以大语言模型释放全域数据价值为题,介绍了领域大模型和领域知识,并表示通用大模型将会分裂为垂直行业的领域大模型,如化工、证券、政府等领域,并且大模型能够降低领域知识网络的构建成本、提升质量。

超对称创始人,首席科学家吴恒魁以语言模型在以科学发现上的应用为主题的演讲中,详细地介绍了Big Bang Transformer Model(BBT模型)。他提到,BBT-Science大模型是基于千亿参数BBT通用大模型在科学语料继续训练构建的大模型,可应用于物理、化学、生物、数学等不同学科的知识问答,可以为科研人员提供快速精准的知识检索,针对所研究领域的前沿问题提供新的Ideas,利用多学科知识训练出的能力提供跨学科的建议和洞见。

智谱AI大模型事业部VP薛宇飞和文因互联创始人鲍捷通过线上连线的方式参与分享。薛宇飞介绍到,CodeGeeX是开源的大规模多语言代码生成模型,目前总计有23种编程语言, 涵盖Python, Java, C++, JavaScript, C, Go, HTML等主流语言,可以更好辅助程序员写代码。鲍捷在分享中表示,企业自有大模型是必不可少的,因为它可以帮助企业更加深入地了解自身的业务模式和运营机制,从而更好地制定战略和决策,更加有效地提高企业的运营效率和竞争力。

在圆桌对话环节,复旦大学计算机学院研究员、博导李直旭,上海交通大学人工智能研究院总工程师金耀辉,复旦大学人工智能创新与产业研究院研究员程远,贝尔实验室研究员林侃,复星集团AI业务负责人邵浩,小i机器人副总裁、研究院院长陈成才,壹沓科技联合创始人肖鸣林围绕“国产“ChatGPT”和大模型研究现状与未来发展”的主题展开了深度探讨和交流,现场氛围热烈。

圆桌对话:国产“chatGPT”和大模型研究现状与未来发展

专家们在讨论中对于“国产‘ChatGPT’和大模型的发展方向”达成共识:自然语言处理这一方向比起其他领域,跟海外先进企业的差距要小很多。要平视OpenAI而非神话它,我们面临的是一个代沟,但不是跨越不了的鸿沟,在追赶到超越的过程中需要给国产模型一些时间。

在技术与落地层面,与会专家们认为,ChatGPT带动了自然语言处理整体上下游以及芯片的思考和发展,某种程度上大模型可能将成为下一代的基础设施,中国需要有自己的基础模型体系,来保证安全性、并发性、稳定性等问题。投资界、学术界、产业界要沉住气,远离概念炒作,扎扎实实做出成绩。

最后,由上海市数据科学重点实验室与达观数据、优刻得拟联合发起的大模型创新创意应用大赛正在火热报名征集中。大赛也正式公布本次大赛奖金池,总金额达7万元。该赛事旨在激发各类公司、技术团体、技术爱好者与高校同学们的想象力与创造力,将最新的大模型技术应用到更多的领域场景与任务当中,让一些有价值的创意得到落地实现的机会。同时,也希望通过这个比赛搭建一个平台,让各个领域的专业人士、技术团队和公司有机会交流和合作,共同推动人工智能技术的进步。快来加入比赛吧~

https://www.wjx.top/vm/r3Is5S9.aspx(复制打开链接即可报名)