达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

达观数据出版国内首本智能文本处理应用专著《智能文本处理实战》

近日,由达观数据撰写的国内首本智能文本处理应用专著《智能文本处理实战》上线各大电商平台。

2023年作为AI元年,从OpenAI的ChatGPT3.5版本发布开始,AI大模型表现出了它那无与伦比的惊人统治力,让所有互联网厂商都看到了AI的未来前景到底是有多么的广阔。不管是国内的互联网公司还是国外的互联网公司,全都开始了属于自己公司的大模型研发,并开启了竞速模式,每个公司都不甘落后,希望自己能够领先他人,先一步创作出属于自己的大模型,并致力于对标并且超越GPT。

让计算机自动处理文字一直以来都是一项十分重要的诉求,但语义本身的复杂性,导致长期以来计算机自动分析、处理文字内容的效果不够理想,应用场景有限。随着人工智能技术的发展,使用计算机自动处理文字的技术及产品也在不断成熟,并逐渐应用于多个行业和各种场景。针对文字的自动处理,从传统意义上来看,底层最核心的技术是自然语言处理技术,相关研究也较为深入,但对很多实际场景来说,单纯使用自然语言处理技术效果不好或无法解决问题。

文字的表现形式是多样的,除了语义信息,还包括格式、排版等其他类型信息,我们需要考虑这些不同文字表现形式对于语义理解的影响。因此,在实际工作中,为了更好地分析并处理各种类型的文字信息,除了应用自然语言处理,还需要研究其他相关技术。与此同时,在不同行业、不同场景中,文字背后所代表的业务知识同样重要。可以将这些业务知识理解为在这个场景中处理相关文字的规则,只有结合这些规则,才能更智能、更合规地处理文本信息并在真实场景中落地,进而创造实际价值。

有别于传统的自然语言处理,智能文本处理需要在自然语言处理技术的基础上整合计算机视觉、文档处理解析、软硬件系统适配、行业知识规则等多项技术,再根据不同场景需求组合多种技术模块,才能满足实际场景需求。因此,智能文本处理系统通常较为复杂。

智能文本处理

智能文本处理是一种数据科学技术,它通过计算机视觉、光学字符识别、机器学习和自然语言处理等工具,增强了我们对非结构化数据的理解。这种技术可以应用在文档数据的每个阶段,包括但不限于从各种文档格式中捕捉、提取和处理数据。

具体来说,自然语言处理(NLP)是智能文本处理的重要组成部分,它可以驱动计算机程序将文本从一种语言翻译成另一种语言,响应语音命令,甚至快速或实时总结大量文本。此外,智能文本处理还包括词法分析、相似词召回、词相似度等能力。

像是GPT,曹植等大模型,就是智能文本处理在智能写作方面的落地场景,能为各行各业的从业者提供便捷且高质量的智能写作服务。

过去很长一段时间,智能写作技术以 RNN Seq2Seq 为主,发展迟缓。而当 Transformer模型结构问世后,各种智能写作技术喷涌而出,微软亚洲研究院、谷歌、Facebook、318 OpenAI等诸多国际知名研究机构纷纷投入其中,先后诞生了 UniLM(2019 年)、T5(2020 年)、BART(2020 年)、GPT 系列(2018 年 ~)等众多颇具影响力的研究成果。

智能写作技术发展脉络

不止于智能写作方面,在很多场景下,智能文本处理都有着很好的落地前景,达观数据的团队老师,今天为我们带来了他们在智能文本处理上的实战讲解,甚至还具体到了某个行业当中,是如何通过智能文本处理来提高业务效果,可以让大家都能在书中得到参考,小编这边也就不卖关子了,这就是今天为大家推荐的新书——《智能文本处理实战》

  • “吴文俊人工智能奖”获奖企业——达观数据带来的一线行业案例经验
  • 众多来自清华、北大、哈工大、同济、复旦、东北大学、中科院学者推荐!
  • 新浪微博、国泰君安等业内企业高度认可!
  • 内容覆盖银行、保险、制造、传媒、证券、安防、建工等

书籍内容简介

 

本书是第一本全面介绍智能文本处理相关技术场景的图书。理论部分除传统NLP技术外,详细讲解多个关于文档智能处理的特色技术;实践部分以包括达观数据在内多个专业企业的相关产品项目经验为基础,介绍了众多行业、场景中的技术产品落地工作,具有很高的参考价值。

随着大数据、人工智能等领域的技术发展,计算机处理文本的效果不断提升,场景不断拓展,落地众多场景。在现实工作、生活中,需要进行大量书面文本处理工作,相较于传统短文本,书面文本处理场景更加复杂,技术要求更高。为解决这一问题,针对智能文档处理(IDP)工作,学术界和产业界都进行了深入的研究并有很多落地成果,价值巨大。

全书共3大部分18章节

第一部分(第 1 章 ~ 第 3 章)

介绍智能文本处理的基础知识、意义和相关核心技术,包括机器学习和深度学习的基本概念、自然语言处理重点技术、文档信息处理方法等

第二部分(第 4 章 ~ 第 11 章)

介绍智能文本处理项目实施经验以及在不同场景和产品中的应用,包括聊天机器人场景、智能文档处理场景、知识图谱场景、用户体验管理场景、搜索推荐场景、办公机器人场景、AIGC 与智能写作场景中的结合和应用

第三部分(第 12 章 ~ 第 18 章)

总结达观智能文本处理技术与不同行业场景的结合,介绍相关行业具体项目的实际案例和经验,包括银行、证券、保险、智能制造、建筑工程、互联网及传媒等行业,通过分析场景痛点、产品技术形态、业务效果对比等内容,供各行业有智能文本处理需求的读者参考

 

作者介绍

本书并不是靠单独一个人完成的,本书在编写过程中得到了达观数据公司各个产品、技术和解决方案的专家的全力支持,大家积极配合,利用业余时间,结合自身多年的工作经验进行内容创作,多次进行内容修改及优化。

达观数据专注于智能文本处理技术,是行业内首家国家级专精特新“小巨人”企业,也曾荣获中国人工智能领域最高奖项“吴文俊人工智能奖”。达观数据开发的“曹植”大语言模型基于该企业长期积累的技术和经验,能够为大型企业和机构提供文档智能审阅、智能知识管理、知识搜索与问答、文档智能写作、智能推荐、办公流程自动化等服务。目前,达观数据在行业内市场占有率第一,案例数量第一,已帮助数百家企业提高生成效率、降低成本、提升业务合规性,助力企业实现数字化转型,提升竞争力和创新能力。

业内权威专家推荐

获取渠道

1.在京东商城搜索:智能文本处理实战

2.团购+VX:LuckyLittleFive

3.微信或者京东扫描下方二维码