达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

智能推荐融合知识图谱,持续提升推荐效果和体验

随着互联网的爆炸增长以及供应商提供的物品的数量越来越多,用户身边充斥着海量信息,在这种状况下推荐系统应运而生。推荐系统本质上是从海量的信息中为用户寻找其感兴趣的信息的技术手段,通过算法推荐达到节省用户时间、提升用户满意度、为公司创造更多的商业价值的目的。要想达到这个目的的前提条件是:让用户信任推荐系统。这种信任体现在推荐系统首先要能提供符合用户喜好的商品,能牢牢抓住用户的兴趣点,其次要能为推荐出来的物品进行合理说明,即给出推荐理由。而目前的推荐系统都面临在某些情形下无法精准推荐,以及无法为推荐出来的商品进行合理化解释的问题,总结为以下3个问题

问题1:数据稀疏问题

在实际推荐过程中,用户和物品的交互信息往往是非常稀疏(sparse)的。以淘宝为例,平均每天的在线商品数超过8亿件,而一个用户曾经浏览过、点击过、购买过或有过其他行为的商品可能平均只有几百件,用这几百件已知数据去预测8亿商品里用户可能感兴趣的商品,往往因为样本数量过少造成准确率不高。

同样的情况在推荐物料较多的情况下显得尤为突出,国外大型电商平台亚马逊也遇到相似的问题,即用户评价过的物品数量相对网站中总物品数量可谓是冰山一角,这就导致了用户项目评分矩阵的数据极端稀疏,在计算用户或物品的最近邻时准确率就会比较低,从而使得推荐系统的推荐质量急剧下降。

达观智能推荐解决方案:引入知识图谱 场景化解决数据稀疏问题

针对场景建立知识图谱电商领域常见的图谱应用方式,因为知识图谱(knowledge graph)可以很好的组合和利用辅助信息,辅助信息可以丰富对用户和物品的描述、增强推荐算法的挖掘能力,从而有效地弥补交互信息的稀疏或缺失。

图 1 达观智能推荐系统引入知识图谱

知识图谱由若干个三元组(h、r、t)组成,其中ht代表一条关系的头结点和尾节点,r代表关系,结点(node)代表实体(entity)或者概念(concept),(edge)代表实体/概念之间的各种语义关系(relation)。

图 2 知识图谱三元组示例

上图展示的三元组表达了“张艺谋导演了活着”这样一条事实,其中h=张艺谋、t=活着、r=导演。

在实际推荐过程中,我们可以通过人工、规则或者模型的方式,为商品关联相应的消费场景。比如“沙滩裤”、“沙滩鞋”、“泳衣”、“防晒霜”同属于“沙滩”的使用场景,当用户搜索或点击到该场景下的几个关键词,如“沙滩裤”、“沙滩鞋”后,达观智能推荐系统推测该用户的使用场景可能是去沙滩度假,在该场景下会为他相应地推荐“泳衣”、“防晒霜”等沙滩度假常用物品,这样即使用户-物品间有较少的交互数据,也可以根据已有数据进行深层探索。

图 3 达观智能推荐引入知识图谱:场景化解决数据稀疏问题

问题2:冷启动问题

推荐系统冷启动主要分为物品冷启动用户冷启动系统冷启动三大类。
推荐系统的主要目标是将大量的物品推荐给可能喜欢的海量用户, 这里涉及到物品和用户两类对象。

在任何一个平台上物品和用户都是不断增长变化的,所以一定会频繁面对新物品和新用户, 推荐系统冷启动问题指的就是对于新注册的用户或者新上架的物品, 该怎么给新用户推荐物品让用户满意,怎么将新物品分发出去,推荐给喜欢它的用户。

另外,如果是全新场景,初期用户很少,用户行为也不多,常用的协同过滤、深度学习等依赖大量用户行为的算法不能很好的训练出精准的推荐模型, 怎么让推荐系统很好的运转起来,让推荐变得越来越准确,这个问题就是系统冷启动问题

达观智能推荐解决方案:引入知识图谱 知识化解决冷启动问题

知识图谱借助自身可拓展的特性,在新用户进入平台时,可携带该用户的自身属性(eg:手机IMEI、地理位置)、角色属性(eg:职位、职级)等其他信息,形成定制化的用户背景。比如同样都是P3职级产品岗位的两个用户,当老用户在平台上浏览《产品迭代流程》文档时,达观智能推荐系统可以在新用户没有任何喜好偏向时,将其相似性背景化,同样为他推荐《产品迭代流程》文档。

图 4 达观智能推荐引入知识图谱:背景化解决冷启动问题

问题3:可解释性不强

推荐的可解释性,是指在为用户提供推荐的同时,给出推荐的理由。人类是一个非常好奇的物种,不满足于只知道结论,一定会对引起结论的原因感兴趣,往往会想知道个中缘由。小孩从会说话时起就会问各种为什么。对社会和环境的好奇,才会引起人类的探索欲,从而更好地理解和认知这个世界,这可能也是生物进化的自然选择。

在现实生活中,我们经常会为朋友做推荐或者让别人帮我们推荐,比如推荐旅游地、推荐电影、推荐书籍、推荐餐厅等。现实生活中的推荐,大家都会给出推荐原因,比如推荐餐厅,我们会说这家环境好、好吃、卫生等等,那如果网上冲浪时推荐的商品、资讯或内容都能给出推荐理由的话,将会大大增加用户对平台的信任度和依赖度。

目前在推荐系统里我们常用到的一些算法被人诟病的问题是其不透明性,不可解释性。以深度学习为例,这是一种端到端的学习,接受大样本作为训练输入,所习得的模型本质上是神经网络结构的参数,其学习和预测的过程是不透明的,也被叫做黑盒问题,即模型究竟学到了什么有效特征,使得它做出这样一个判断,这个过程缺乏可解释性,而如果不能回答Why的问题,解释这些系统如何产生特定的结果,AI系统的可信度就会降低,尤其针对一些高价值场景(理财、医疗等等),若为用户推荐的结果无法进行解释,用户是很难采用其推荐结果的。

达观智能推荐解决方案:引入知识图谱 关联化解决可解释性不强问题

知识图谱的三元组结构决定了当我们选择其中任何一个节点都可以给出与之相关节点的解释说明,这种关联化可以实现长链条的推荐解释问题。

达观智能推荐系统结合知识图谱将为同一内容创建多种外部关联,让推荐结果有据可循、有理可依。如果一个用户曾经观看过电影《活着》,那他可能还会喜欢电影《红高粱》,推荐理由为:您可能还想观看同导演作品《红高粱》;也可能他会喜欢电影《夺冠》,推荐理由为:您可能还想观看同主演作品《夺冠》。

图 5 达观智能推荐引入知识图谱:关联化解决可解释性不强问题

图 6 达观智能推荐系统支持展示推荐理由

    达观智能推荐系统   

推荐系统结合知识图谱已成为未来的发展方向,达观智能推荐系统结合团队深耕多年的强大图谱能力已成为该赛道中的强势黑马。

目前,达观智能推荐已广泛服务于电商、银行、广电、运营商、传媒、政企、互联网等行业,与屈臣氏、安利、阿迪达斯、招商银行、民生银行、华夏银行、陕西广电、山东广电、人民网、澎湃新闻等企业达成合作,在各行各业都积累了丰富的业务经验与实践经验。

在服务客户过程中,达观智能推荐团队将根据业务方需求持续深度优化推荐效果,帮助客户实现目标需求,从测试、优化到维护,提供全方位服务,助力企业实施精细化运营,持续提升用户体验。