1、引言 从人类文明诞生的那一刻起,数据就伴随我们而生——人类交流信息所用的文字和语言,计量距离或数量使用的记号和图案,观察自然所积累和传承的经验等,都是数据构成的。这些数据在百万年历史长河里,为人类文明的发展进化带来了难以估量的巨大价值。 ...
达观数据搜索引擎的Query自动纠错技术和架构 1 背景 如今,搜索引擎是人们的获取信息最重要的方式之一,在搜索页面小小的输入框中,只需输入几个关键字,就能找到你感兴趣问题的相关网页。搜索巨头Google,甚至已经使Google这个创造出来的单词成为动词,有...
2016“互联青春 创梦未来”中国青年互联网创业大赛决赛在杭州梦想小镇举行。9月24日,大赛以秘密答辩、公开答辩形式进行晋级赛比拼,经过激烈角逐,达观数据获大赛全国第一名,冠军奖大奖,共青团中央书记处书记汪鸿雁为达观数据颁奖。 共青团中央书记处书...
2016年10月15日,浙江桐乡,达观数据参加 “第五届中国创新创业大赛互联网及移动互联网行业总决赛”,参赛项目“基于用户行为的大数据预测应用系统”获得优秀企业奖。 联合创始人高翔领取奖牌 2016年第五届中国创新创业大赛自今年4月份启动以来,全国报名积极...
文本指纹介绍 互联网网页存在大量的重复内容网页,无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、还是社交媒体等文本去重和聚类,都需要对网页或者文本进行去重和过滤。 最简单的文本相似性计算方法可以利用空间向量模型,计...
伴随着互联网的飞速发展,web中对于前端的要求越来越高,前端的代码的代码量、复杂度与日俱增,带来了诸如前端代码复用率低,难维护等问题。针对这些现有问题,达观科技采用了requirejs框架,用模块化的思想去解决这些问题。(达观数据 施列宇) 一、什么是...
前言 中文分词算法是指将一个汉字序列切分成一个一个单独的词,与英文以空格作为天然的分隔符不同,中文字符在语义识别时,需要把数个字符组合成词,才能表达出真正的含义。分词算法是文本挖掘的基础,通常应用于自然语言处理、搜索引擎、智能推荐...
研发背景 互联网时代也是信息爆炸的时代,内容太多,而用户的时间太少,如何选择成了难题。电商平台里的商品、媒体网站里的新闻、小说网站里的作品、招聘网站里的职位……当数量超过用户可以遍历的上限时,用户就无所适从了。 对海量信息进行筛选、过滤,将...
大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流失用户预测、支付平台的欺诈交易监测等等。达观数据技术团队长期以来一直致力于钻研和积累各种大数据技术,曾...
2016年12月15日,由创业黑马主办的创业黑马社群大会在北京国际会议中心隆重举行,i黑马与今日头条联合15家顶级投资机构,推出中国人工智能创新公司TOP50。达观数据荣获大会2016人工智能创新公司奖。 人工智能创新公司 专业评审选出的专业奖项 “201...