达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

word2vec是Google研究团队的成果之一,它作为一种主流的获取分布式词向量的工具,在自然语言处理、数据挖掘等领域有着广泛的应用。达观数据的文本挖掘业务有些地方就使用了该项技术。本文从以下几个方面简要介绍Word2vec的skip-gram模型:   第一部分……

  众所周知,YouTube是世界上最大的视频网站,网站每天要面对着不同兴趣的用户,它需要从视频池中捞出当前用户感兴趣,想看的视频,以留住老用户吸引新用户,而这个功能就是视频推荐系统提供的。 而随着不同算法技术的兴起,推荐系统的核心算法也在发……

Lucene是一个高性能、可伸缩的信息搜索(IR)库。它可以为你的应用程序添加索引和搜索能力。Lucene是用java实现的、成熟的开源项目,是著名的Apache Jakarta大家庭的一员,并且基于Apache软件许可。同样,Lucene是当前非常流行的、免费的Java信息搜索(IR)库……

【作者简介】 刘光敏: 达观数据搜索组研发技术人员,负责搜索引擎架构的设计和研发,搜索集群健康状况监控模块的开发及维护等。   前言 Lucene是一个高性能、可伸缩的信息搜索(IR)库。它可以为你的应用程序添加索引和搜索能力。Lucene是用java实现的……

推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣。但对于新用户而言,没有任何的用户行为,如何进行最有效的推荐呢?这就衍生了用户冷启动问题。 在当下,企业拉新成本越来越高,用户的选择面也越来越多,当新用户到达之后,如果不能很快捕……

互联网时代,信息纷繁海量,人们通过搜索引擎直达“心中所想”已是常态。那么搜索引擎到底是如何高效查找目标内容呢?本文主要介绍搜索引擎里一个比较重要的结构——倒排索引。 1 倒排索引简介 倒排索引(英文:Inverted Index),是一种索引方法,常被用于全……

人工智能(Artificial Intelligence,简称AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。既然是期望让计算机智能系统来代替人的脑力劳动,自动化的从事的各项工作,那么如何来衡量人工智能的实际水平呢……

  1. 前言 互联网技术和大数据技术的迅猛发展正在时刻改变我们的生活,视频网站、资讯app、电商网站等每天都有大量的活跃用户在不断的产生海量的用户行为,同时,每天又都产生大量的新增PGC或者UGC内容(如小说、资讯文章、短视频等)。 从推荐系统的角度来……

互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但随着网络的迅速发展而带来的网上信息量的大幅增长,使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,形成了信息过载(in……

选自《智能Web算法》(第二版) 达观数据编译 机器学习是人工智能研究领域的重要方向,在大数据时代里,对数据采集、挖掘、应用的技术越来越受到瞩目,并越来越创造出巨大的价值。 那么在人工智能和大数据的开发过程中,有哪些特别需要注意的要……