达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

当面对众多选择时,如何选才能最大化收益(或者说最小化我们的开销)?比如,怎么选择最优的上班的路线才能使途中花费的时间最少?假设每天上下班路线是确定的,我们便可以在账本中记下往返路线的长度。   A/B测试便是基于数据来进行优选的常用方法,在……

  在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的问题提取出来。而无论是对于长文本还是短文本,往往可以通过几个关键词窥探整个文本的主题思想。与此同时,不管是基于文本的推荐还是基于文本的搜索,对于文本关键词的依赖也很大,……

本文首先会介绍一些预备知识,比如softmax、ngram等,然后简单介绍word2vec原理,之后来讲解fastText的原理,并着手使用keras搭建一个简单的fastText分类器,最后,我们会介绍fastText在达观数据的应用。   NO.1 fastText原理及实践 预……

个性化推荐系统是达观数据在金融、电商、媒体、直播等行业的主要产品之一。在达观数据的个性化推荐系统架构中, 可以简单地分为5层架构,每层处理相应的数据输出给下一层使用,分别是:   数据处理层 作为推荐系统最低端的数据处理层,主要功能是首先将客……

作者简介   刘英涛:达观数据推荐算法工程师,负责达观数据个性化推荐系统的研发与优化。 XGBoost的全称是 eXtremeGradient Boosting,2014年2月诞生的专注于梯度提升算法的机器学习函数库,作者为华盛顿大学研究机器学习的大牛——陈天奇。他在研……

   作者简介   夏琦,达观数据NLP组实习生,就读于东南大学和 Monash University,自然语言处理方向二年级研究生,师从知识图谱专家漆桂林教授。曾获第五届“蓝桥杯”江苏省一等奖、国家二等奖。 本篇博文将详细讲解LDA主题模型,从最底层数学推导的……

高斯混合模型(Gaussian Mixture Model)通常简称GMM,是一种业界广泛使用的聚类算法,该方法使用了高斯分布作为参数模型,并使用了期望最大(Expectation Maximization,简称EM)算法进行训练。本文对该方法的原理进行了通俗易懂的讲解,期望读者能够更……

在刚刚过去的由神策数据举办的年度数据分析行业盛会—— 2017 数据驱动大会上,达观数据创始人兼CEO陈运文,作为自然语言处理领域的专家受邀出席了本次会议。并在人工智能分论坛上进行了题为《文本挖掘技术帮助企业智能化运营》的精彩演讲。在这次为期两天的……

word2vec是Google研究团队的成果之一,它作为一种主流的获取分布式词向量的工具,在自然语言处理、数据挖掘等领域有着广泛的应用。达观数据的文本挖掘业务有些地方就使用了该项技术。本文从以下几个方面简要介绍Word2vec的skip-gram模型:   第一部分……

  众所周知,YouTube是世界上最大的视频网站,网站每天要面对着不同兴趣的用户,它需要从视频池中捞出当前用户感兴趣,想看的视频,以留住老用户吸引新用户,而这个功能就是视频推荐系统提供的。 而随着不同算法技术的兴起,推荐系统的核心算法也在发……