达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

达观数据推出全新大模型一体机,赋能“曹植”大模型垂直领域落地应用

自达观数据23年3月宣布研发大语言模型以来,一直积极探索大语言模型的专业化、特长化和产品化,并在7月7日世界人工智能大会上,正式推出具有长文本、多语言、垂直化三大特点的专用国产“曹植”大语言模型。为促使“曹植”大模型在各垂直领域中可以更低成本高效能地落地与应用,达观数据正式推出私有化大模型一体机

“曹植”大模型一体机作为一家智能文本处理领域的领军企业,达观数据本次推出的私有化“曹植”大模型一体机,内置达观数据全栈自主研发的“曹植”大模型,支持三方开源模型库,可在企业内部一键部署大模型应用,能同时为多种垂直大模型业务提供文档智能审阅、智能知识管理、知识搜索与问答、文档智能写作、智能推荐等智能化服务,支持和具备安全便捷的AI训练、推理、长文档写作、机器翻译、语义分析审核、知识问答、text-to-SQL等场景功能应用。

“曹植”大模型一体机特色应用

一、智能知识管理

近日,达观数据发布新一代的知识管理系统也应用在“曹植”大模型中。达观新一代智能知识管理系统,以“曹植”大语言模型为基座,结合知识图谱、自然语言处理、多模态知识挖掘等人工智能核心技术,提供知识生产、知识组织、知识搜索、知识问答、知识图谱、知识社区6大能力,并能将企业积累的海量结构化和非结构化文档经过自然语言技术处理和提炼,搭建更加智能化、人性化的知识管理系统,广泛应用于企业文档管理、研发知识管理、制度管理、合同管理等场景,帮助企业用户更加快速、高效、便捷地实现知识获取、共享、应用和创新。

二、智能知识搜索

为了提供更好的用户体验,“曹植”大模型也内嵌了达观智能搜索平台。达观智能搜索平台能采集、汇聚各个业务系统的结构化与非结构化数据,配备强大的可视化配置后台,轻松实现搜索平台的配置与运营,基于曹植大模型、自然语言处理和知识图诺等技术的支撑,提供全文搜索、智能搜索提示、智能搜索纠错、热门搜索、推荐搜索、相关搜索、搜索结果智能高亮、历史搜索、语义标签(关键词标签、自动化摘要)、长文本搜索(意图识别、内容定位)、相关推荐、图谱搜索与智能卡片等更加智能化、个性化的搜索服务,实现全业务系统、全数据的智能精准搜索,提升企业全方位效率。

三、智能知识推荐

为了帮助企业用户从海量信息中快速找到最感兴趣的内容,也将达观智能推荐平台集成到了“曹植”大模型中,平台基于前沿的人工智能算法和大数据挖掘技术,能结合对行业场景的深度理解,通过对海量数据进行分析挖掘,识别用户兴趣偏好,进行智能地精准推荐,有效缓解“信息过载”和“物品长尾”问题,使得用户体验和核心经济收益指标得到大幅度提升。

四、文档智能写作

达观数据在长文本处理领域深耕多年,研发的“曹植”大模型特别擅长做长文档的写作、审核、润色、翻译等。“曹植”大模型通过其卓越的自动化写作能力,可准确完成多类型、复杂结构的长文本写作,自动起草多种类型的文档,轻松应对长篇大论的要求。为提升长文本写作专业性,达观专门训练了多模态AIGC生成能力,可自动生成表格、图表、数据等元素。“曹植”同时拥有其杰出的多语言写作和翻译能力,可以对原文的标题、段落等内容实现 1:1版式还原,无需更改格式,提供实时的翻译体验,使得用户在不同语言环境下都能得到高质量的文案服务。无论是白皮书、技术报告还是品牌故事,“曹植”大模型都能为客户提供高质量、流畅的文案撰写服务。

五、文档智能审阅

“曹植”大模型集成了达观自研的IDP文档智能审阅平台,该平台基于原创的OCR识别技术能全面覆盖各种复杂、特殊场景的结构化和非结构化文档解析,并利用NLP语义分析技术理解文档含义,提取关键信息后标准化处理,通过识别、抽取、比对、审核等模块实现文档的规范化审核、各文档间的信息的比对校验,及时发现异常和风险并通过人工辅助复审,便捷化修改,提升项目文档审核的效率。

“曹植”大模型一体机四大优势

“曹植”大模型一体机是构建企业自主创新大模型应用的基石,具有功能全面、技术领先、开箱即用等优势:
1.轻量可控,开箱即用,零周期快速构建

软硬一体机交付,开箱即用,零周期快速构建AI能力,与华为、燧原等国内芯片深度适配,支持多场景高效应用与推理服务,减少软硬件适配调优、系统搭建及运维成本,支持模型端到端部署能力,在更短时间内提升大模型价值。
2.提供5大版本高性能GPU服务器

10B大模型一体机标准版匹配英伟达A100显卡。10B大模型信创一体机、50B大模型一体、100B大模型一体机、文档智能解析一体机等信创版配置华为昇腾910、华为昇腾310、燧原-云燧T20加速卡,同时扩展寒武纪、沐曦等国内主流AI加速卡和GPU。从芯片、操作系统、AI软件平台、算法、数据等多维度满足大模型应用需求。
3.内置大模型管理平台

内置自主研发、内置“曹植”大模型并支持Alpaca-LoRA、ChatGLM、T5、MiniGPT-4、Stable Diffusion、LLaMA2及Milvus向量数据库等三方开源模型库,提供模型开发与推理预测的全流程功能。
4.自主可控安全可靠,支持私域数据对接

兼容x86和国产化信创服务器,从芯片到应用全面适配信创体系,可支持x86、ARM及GPU等异构算力统一管理和调度,保证大模型和信息数据安全,满足金融、政府、运营商及更多传统企业的国产化需求。平台还对信创生态的CPU、服务器及操作系统进行全面适配,形成信创一体机交付模式,使大模型可以和国产CPU相兼容并进行统一调度管理,支持数据库、批量文档等多类型私域数据对接,支持智能分析与问答,并对用户数据和敏感信息提供安全性保护。

此外,达观数据也使用海量训练数据对“曹植”大模型进行预训练,生成具备基础语言能力和垂直应用能力的模型;独家提供精调服务,以加强垂直领域专用任务的能力;坚持训练数据与算法模型自主可控,与国产GPU合作伙伴开展长期合作,不断优化高质量硬件设备,以适应市场需求和技术发展。未来,达观数据也将在自研的的先进人工智能技术和丰富的应用经验之上,不断提升“曹植”大模型一体机的性能和应用范围,为各行业提供提供更好、更快、更安全的解决方案,为客户提供更好的服务和支持,让大模型赋能百业,促进科技进步和社会发展。