达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

达观知识图谱, 辅助企业智能运营和决策

一、知识图谱的含义

每个领域都有自己的行业经验、规则、分类、约定俗成的做法等,这些都可以视为行业的“知识”,这些知识汇总在一起,相互联通,构成的一个知识网络,就是“知识图谱”。知识图谱是结构化的语义知识库,是一个巨大的知识网络,网络中的节点表示实体、节点之间的边表示实体和实体之间的关系。节点可以是实体,如人物、企业、地点等,实体关系如投资关系、归属关系、关联关系等。 

zuixin

 

知识图谱为海量、异构、动态的大数据表达、组织、管理以及利用提供了更为有效的方式,使得网络的智能化水平更高,更接近于人类的认识思维。构建领域内或者全网的知识图谱对于很多企业或科研单位来说是一项很重要的工作,目前基于知识图谱的研究如火如荼,很多知名的领域内信息抽取系统都已经被使用,包括Never-Ending语言学习系统以及Google在知识图谱的工作。

 

改1

 

二、知识图谱的意义

随着我国人红利消失与人力成本增加,我国传统企业面临着智能化升级与转型,从而对知识图谱技术的应用产生了强烈的需求。传统企业需要引入高新技术解放劳动力,降低成本。实现简单知识工作(只需简单知识即可完成的工作)的自动化、智能化处理,无疑是个有效的方案。
大量的行业领域有丰富的应用场景和大数据基础,为知识图谱在各行业领域的大规模应用奠定了基础。我国的互联网、电信、电商、社交、出行等各行业都有着庞大的业务数据量;面向消费者、企业、政府的应用模式丰富多样,这些都是知识图谱技术应用成长的富饶土壤。

1.沉淀行业知识,促进行业智能升级

很多行业经过数十年的信息化建设,已经完成了数据的采集与管理阶段,这为智能化升级与转型奠定了良好基础。对于企业而言,增加收入、降低成本、提质提效、保障安全都是核心业务诉求。知识图谱技术的应用是进一步满足这些核心诉求的手段之一。在实现智能化的过程中,需要将行业知识赋予机器,让机器具备一定的行业认知能力,从而机器人可代替行业人员从事简单知识工作。采用知识图谱技术,助力企业沉淀行业知识,可实现简单知识工作自动化。
改1

2.与机器智脑的建设深度融合

随着我国人工智能战略的持续推进,作为人工智能重要分支的机器人产业迎来了发展的黄金期。其中,各种服务机器人如客服机器人、陪伴机器人、问诊机器人、导购机器人、理财机器人等,已经走进人们的日常生活。与工业机器人相比,服务机器人对机器认知水平的要求较高,而对动作能力的要求较低。因此,具有一定认知能力的机器智脑是服务机器人产业发展中至关重要的环节,而机器智脑的重要组成部分是知识库。机器是否具有知识并且能够利用知识形成认知能力,进而解决问题,是服务型机器人具备更强服务能力的关键。以知识图谱为代表的大数据知识工程为练就机器智脑带来了全新机遇。未来机器智脑的演进过程也将是知识图谱等知识库技术不断赋能机器人以及各类硬件终端的过程。

3.数据治理以及大数据变现紧密结合

多行业和企业都有大数据,但是这些大数据非但没有创造价值,反而带来了数据管理与治理方面的负担。大数据价值变现遭遇阻碍的原因在于缺少智能化的手段,具体而言就是缺少一个能像人一样理解行业数据的知识引擎。达观数据智能知识引擎,采用知识图谱等前沿技术,可以自动化、智能化提炼、萃取、关联、整合数据,代替人工挖掘数据价值,强有力的支撑大数据价值变现。知识图谱作为呈现领域知识之间的数据融合与关联,已经成为知识图谱领域研究的主要方向之一。

三、达观知识图谱

达观知识图谱,是达观数据公司面向各行业知识图谱应用而推出的新一代产品,其整合了知识图谱的设计、构建、编辑、管理、应用等全生命周期实现,可以实现从业务场景出发到生成图谱、再到实现基于图谱的应用,显著提高了各行业中知识图谱的落地效率和效果。
知识图谱3

1.知识建模

知识建模,是业务专家参与图谱schema进行设计的过程,相当于关系数据库的表结构定义。图谱模式设计包括实体类型和实体关系以及对应属性的定义。实体类型实现对图谱模式中实体类型及其属性的设计,通过实体关系实现对图谱模式中关系类型及其属性的设计。

改2

2.知识抽

知识抽取是从不同来源、不同数据中进行知识提取,形成知识并存入图谱的过程。通过机器自动实现大批量非结构化文档的抽取工作,可以由算法模型根据知识标注的训练样本得出适合特定文档类型的抽取模型来抽取,也可以根据定义一些规则模型来实现抽取。

改3

3.知识融合

知识融合将来自不同的数据源的知识在同一规范下进行异构数据整合,形成统一的知识标识。具有实体链指、属性归一、知识补全等能力。
知识图谱6

4.知识存储

知识存储就是研究采用何种方式将已有知识图谱进行存储。达观数据企业研究开发的知识图谱采用ArangoDB图数据库作为知识图谱三元组信息的统一存储与管理,在ES搜索引擎的基础上,对图数据库进行了一定层面的封装,能够利用知识图谱快速探索10级以上的关系链路,知识探索和发现响应时间达秒级。

四、知识图谱的应用

随着人工智能技术的发展,越来越多的知识工作将逐步被机器所代替,人类的脑力将被逐步解放。基于知识图谱的认知智能的应用广泛而多样。各类应用(包括数据分析、智慧搜索、智能推荐和决策支持)都对知识图谱提出了需求。

1.数据分析

大数据的精准与精细分析需要知识图谱。如今,越来越多的行业或者企业积累了规模可观的大数据,但是这些数据并未发挥应有的价值,很多大数据还需要消耗大量的运维成本。大数据非但没有创造价值,在很多情况下还成为一笔负资产。这一现象的根本原因在于,当前的机器缺乏诸如知识图谱这样的背景知识,无法准确理解数据,限制了大数据的精准与精细分析,制约了大数据的价值变现。事实上,舆情分析、互联网同察,还有军事情报分析和商业情报分析,都需要对大数据做精准分析,而这种精准分析必须有强大的背景知识来支撑。
除了大数据的精准分析,数据分析领域另一个重要趋势——精细分析,对知识图谱和认知智能提出了诉求。比如,很多汽车制造商都希望实现个性化制造,即希望从互联网上搜集用户对汽车的评价与反馈,并以此为依据实现汽车的按需与个性化定制。为了实现个性化定制,厂商不仅需要知道消费者对汽车的褒贬态度,还需要进一步了解消费者对汽车产品不满意的细节,以及希望如何改进,甚至需要知道消费者提及了哪些竞争品牌。显然,面向互联网数据的精细化数据分析要求机器具备关于汽车评价的背景知识(比如,汽车的车型、车饰、动力、能耗等)。

2.智慧搜索

智慧搜索体现在很多方面,比如,在淘宝上搜索“iPad充电器”,用户的意图显然是要搜索一个充电器,而不是一个iPad,这个时候淘宝应i反馈给用户若干个充电器产品以供选择,而不是iPad。再比如,在Google上搜索“toys kids”或者“kids toys”,不管搜索这两个词中的哪一个,用户意图都是在搜索给孩子玩的玩具,而不是玩玩具的小孩,因为一般不会有人用搜索引擎搜孩子。
传统搜索的对象以文本为主,未来越多的应用希望能搜索图片和声音,甚至还能搜代码、视频、设计朴素等。现在的搜索不仅要做篇章级的搜索,还希望能做到段落级、语句级、词汇级的搜索。

随着市场的变化,跨媒体的协同搜索需求日益增多。比如明星在微博上晒出一张自家小区的照片,就有好事者根据她的微博社交网络、百度地图、微博文本与图片信息等多个渠道、多种媒体的信息,通过联合检索准确推断出其所在小区的位置。

为了把握当前机遇,企业应该建立基于知识图谱的专业知识库。比如,建立iPad与充电器之间配件关系就可以帮助平台识别搜索核心词,从而准确识别搜索意图。复杂对象的搜索需要建立标签图谱(由标签以及标签之间的关联关系构成的知识图谱)来增强对象的表示。

3.智能推荐

智能推荐需要知识图谱。各智能推荐任务均对知识图谱提出了需求。

第一,场景化推荐。比如,用户在淘宝上搜“沙滩裤”“沙滩鞋”,可以推测出这个用户很可能要去海边度假。那么,平台就可以推荐“泳衣”“防晒霜”之类的海边度假常用物品。

第二,冷启动阶段下的推荐。冷启动阶段的推荐一直是传统基于统计行为的推荐方法难以有效解决的问题。利用来自知识图谱的外部知识,增强用户与物品的描述,提升匹配精度。

第三,跨领域推荐。互联网上存在大量的异质平台,实现平台之间的跨领域推荐有着越来越多的应用需求。比如一个微博用户经常晒九寨沟、黄山、泰山的照片,那么为这位用户推荐一些淘宝上的登山装备十分合。这是典型的跨领域推荐,其中微博是一个媒体平台,淘宝是一个电商平台。它们的语言体系、用户行为完全不同,实现这种跨领域推荐有着巨大的商业价值,但是需要跨越巨大的表达鸿沟(异质平台的表达方式完全不同)。如果能有效利用知识图谱这类背景知识,不同平台之间的这种表达鸿沟是有可能被跨越的。

第四,知识型的内容推荐。如果用户在电商平台上搜索“三段奶粉”,那么我们应该能为用户推荐一些喝三段奶粉的婴儿每天的需水量、常见疾病的预防等育儿知识。对这些知识的推荐将显著增强用户对于所推荐内容的信任与接受程度。消费行为背后的内容与知识需求将成为推荐的重要考虑因素。将各类知识片段与商品对象建立关联,是实现这类知识型的内容推荐的关键。

4.决策支持

知识图谱为决策支持提供深层关系发现与推理能力。人们越来越不满足于“叶莉是姚明的妻子”这样的简单关联的发现,而是希望发现和挖掘一些深层、潜藏的关系。比如,在王宝强离婚的时候,就有人通过人物关联图谱深挖过为什么王宝强找张起淮当律师。人物关联图谱显示王宝强与冯小刚关系很好,而冯小刚与徐静蕾和赵薇两位演员经常合作,张起淮正好是这两位演员的法律顾问。这样的关系链路在一定程度上揭示了王宝强与他的之间的深层次关联,也解释了王宝强为何选择这位律师。更多类似例子发生在金融领域。在金融领域,我们可能十分关注投资关系,比如,为何某个投资人投资某家公司;我们十分关注金融安全,比如,信贷风险评估需要分析一个贷款人的关联人物和关联公司的信用评级。因此,建立包含各种语义关联知识图谱,挖掘实体之间的深层关系,已经成为决策分析的重要辅助手段。