达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

打造良性评论社区:达观数据为界面新闻打造全天候反广告审核机制

 界面新闻

作为上海报业集团旗下的招牌新媒体,界面新闻自2014年9月创办以来,热度一路上升。成立仅短短10个月,界面新闻就拿到了A轮融资,并于去年7月获得昆仑信托的3亿元人民币B轮融资,业务持续扩张,月活现已超过9000万人次。

《界面》自诞生起就完全扎根于互联网,以商业新闻为核心,布局26个内容频道,提供全品类精品新闻资讯,旨在打造中国中产阶级第一新闻平台。然而作为辐射上亿用户的媒体平台,如何针对海量的用户交互内容进行审核,尤其是杜绝层出不穷的广告,一直是界面管理层面临的难题。

 

24小时实时筛选,完胜“人力审核”

在界面新闻的网站和APP上,一篇报道阅读量达到数十万甚至上百万可以说是家常便饭,并会随之带来数十、上百的用户评论。每天在界面上新发出的内容数以百计,由此引发的评论则是用“成千上万”来形容一点也毫不夸张。

我们随机抽取了几个月的数据,可以看出,每天的评论量基本都上千,遭遇特殊事件时,评论会急剧增长,碰到特殊情况,广告也会发生急剧增长。

ppt配图222

对于海量的用户评论,界面新闻之前采用的做法是“人工审核”,通过人力对每条评论进行阅读,然后根据规范性要求决定通过与否。传统的“人工”操作方法最大的问题是工作量大,审核成本高,并且发布延迟严重。往常来说,一天的内容往往需要花几天的时间才能完成审核。而且人工识别有时难免会有漏网之鱼,尤其是碰到掺杂巨量广告的评论,如图中截取的特殊时点时,人工识别的出错率会明显提高。

“评论识别”是达观数据提供的文本处理服务中的一个重要分支。通过利用强大的自然语言算法后台,达观数据为界面新闻提供了实时的违规评论审核筛选服务。

据界面方面的相关负责人透露,通过使用达观数据的服务,原先需要3、4天来审核的内容,现在可以做到高效实时全自动完成,而且“24小时不下班”。同时,文本审核准确率也有明显提高,比如在识别广告的抽检准确率高达99.97%,每审核1000例广告误判只有3例。

在具体识别时,达观数据的后台会自动对一段文本进行评分,比如对“需要资源的+v信  we1234”这句用户评论的审核评分如下,系统会根据评分将这段文本自动识别为广告。

QQ图片20170623182550

此外,针对网络上层出不穷的新词、热词,达观数据会利用机器学习算法不断升级文本审核服务,自动升级关键词变形识别策略,自动定位处理涉嫌违规信息,自动过滤不符合规定的相关信息。

基于上述技术优势,早在2016年,界面新闻就和达观数据达成了首轮合作。在过去的一年中,界面新闻和达观数据的业务都成长迅猛。达观数据的算法面对海量不断更新的文本数据体现出良好的适应性,产品性能得到界面新闻的高度认可。双方延续“强强合作”的态势,为媒体与技术服务商的结合树立了标杆。

2017年4月,界面新闻和中国领先的文本挖掘服务提供商达观数据继续上一年的合约,继续由达观数据为界面提供定制的实时文本审核服务,大幅提升界面在内容运营上的效率。