达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

数据挖掘中的文本挖掘不论是对于企业应用,还是研究者工作,或者是参与数据竞赛项目,都是基础的工作。通过前面的一些实践工作,现总结出文本挖掘文本处理的通用流程。 注意,这里的文本挖掘任务主要指的是如文本分类、文本聚类、信息抽取、情感分类等等的……

  〇、序 一、DeepNLP的核心关键:语言表示(Representation) 二、NLP词的表示方法类型 1、词的独热表示one-hot representation 2、词的分布式表示distributed representation 三、NLP语言模型 四、词的分布式表示 1. 基于矩阵的分布表示 2. 基于聚……

  这篇博客是我看了半年的论文后,自己对 Deep Learning 在自然语言处理领域中应用的理解和总结,在此分享。其中必然有局限性,欢迎各种交流,随便拍。 Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在NLP领域中尚未见到如此激动人……

本文由达观数据算法工程师范雄雄根据斯坦福计算机博士Danqi Chenhe和Facebook AI研究院Adam Fisch, Jason Weston 以及 Antoine Bordes撰写的文章编译而成,详细讲解了维基百科的开放性问答系统的原理,原文详见:《ReadingWikipedia to Answer Open-Dom……

  随着互联网的飞速发展,个性化推荐已经成为各大网站、手机客户端的必备服务。如何持续优化、进一步提高推荐的精准度是一项复杂又令人兴奋的工程。 主流的推荐系统有协同过滤、基于内容的推荐、基于社交网络的推荐等。 很多推荐算法没有考虑到用户的……

容器技术的火爆和日益普及已经成为不争的事实,众多公有云平台纷纷支持Docker,AWS、Google、Azure、阿里云以及国内的各大公有云厂商都推出了容器云业务,国内也有不少创业公司通过构建容器Paas平台帮助企业实现微服务架构改造。 达观数据作为领先的人……

一、历史背景解读   18世纪英国业余(一点都不业余好吗)数学家托马斯·贝叶斯(Thomas Bayes,1702~1761)提出过一种看似显而易见的观点:“用客观的新信息更新我们最初关于某个事物的信念后,我们就会得到一个新的、改进了的信念。”这个研究成果……

人工智能目前的三个主要细分领域为图像、语音和文本,达观数据所专注的是文本智能处理领域。文本智能处理,亦即自然语言处理,试图让机器来理解人类的语言,而语言是人类认知发展过程中产生的高层次抽象实体,不像图像、语音可以直接转化为计算机可理解的对……

  在当前大数据行业中, 随着算法的升级, 特别是机器学习的加入,“找规律”式的算法所带来的“红利”正在逐渐地消失,进而需要一种可以对数据进行更深一层挖掘的方式,这种新的方式就是知识图谱。 下面我们来聊一下知识图谱以及知识图谱在达观数据中的……

  本文中肖仰华教授带您深度剖析了知识图谱与认知智能,对知识图谱技术与落地应用中的一系列关键问题做了系统梳理与解答。 作者:肖仰华 来源:知识工场(ID:fudankw) 摘要:人类社会已经进入智能化时代。各行各业纷纷踏上……