loading

今日头条升级灵犬反低俗助手新增图片识别功能

发布时间:2020-06-29

  日前,今日头条宣布正式推出新版灵犬反低俗︹︺︻助手(以下简称“灵犬”),同时支持图片和文本识别。这是时隔半年后,“灵犬”的又一次重要升级。

  “灵犬”脱胎于■今日头条反低俗模型,是一款检测内容健康度的辅°゜助┎小工具,致力于打击低俗低质内容,净化网络空间。用户目前可以在今日头条内,搜索“灵犬”进行试用。

  当天下午,一场名为“算法如何反低俗”的沟通会在字节跳动总部举办。字节跳动人工︰智能实验室总监王长虎现场介绍了“灵犬”背后的技术原理。

  据了解,在文本识别领域,新版“灵犬”同时应用了“Bert”和半监督技术,训练数据集包含920万个样本,准确率提升至91%。在图片识别领域,“灵犬”ш采用深度学习作为解决方案,在数据、模型、计算力等方面均做了针对性优化。

  Γ“灵犬”使用人次超过300万

  信息大爆炸时代,打击低俗低质内容,是当前全⿹球信息平台都面临的难题,不管是国外的Facebook、Google๑,还∴是国内的微信、今日头条,都在寻求解决方案。

  反低俗无法单一地依靠☞技术或人工解决。王长虎表示,低俗的定义相对笼统,很难完全精确地Ё定义出来,这项工作即使对人来说也不容易,交给机器做更难ⓛ实现,而在当前内容创作和消费海量增长的趋势下,Ⅰ纯靠人工解决,效率低,无法有效满足用户需求。

@

  字节跳动人工智能实验ㄨ室总监王长虎分享“灵犬&r¤dquo;背◆后的技术原υ理

  今日头条是国内反低俗的⿳先行者,而“灵犬”是今日头条反低俗系统的一个简化版本。据了解,2012年以来,今日头条内部搭建了反色情、反低俗、反标题党、反虚假信息、反低质等数百个模型,并投入近万人专业审核团队。“作为行业领先者,在内容安全上,今日头๑·ิ.·ั๑条一直用最高的标准要求自己,”王长虎说,&lЗdquo;灵犬是一个开放的反低俗窗口,我们希望通过灵犬,接收社会各界对反低俗的意见和建议。&rdquo〗;

  新版“灵犬”重点拓展了反低俗识别类型和模型能力,现已覆盖图片识⿶别(反色情低俗Φ、反血腥暴力)和文本识别(反色情低俗、反暴力谩骂、反标题党)。后续还将支持语音识别和视频识别。

  此前一年时间内,“灵☼犬”已陆续完成两次迭代。2018年3月28日,℡今日头条首次上线“灵犬”,支持检测文字和文章链接。2018年5月16日,&ldзquo;灵犬”完成服务Г能力升级,增加反色情短文本模型和反谩骂模型,将准确率∝从73%提升至82%。2019年2月20日,“灵犬2.0”正式上线〦,除了反色情低俗模型,加入反暴力谩骂和反标题党模型,覆盖了主要的低俗低质内容类型,整体识别准确率接近85%。截至2019年6月,灵犬反低俗助ⓔ手的使用人次已经超过了300万。

  用户只需要在&ldquoω;灵犬”内输入一段文字或文章⿺链接,“灵犬”就可以帮助其检测内容健康指数,返回一个鉴定结果。对于用户输入的内容,“灵犬&rdq§uo;会先进行提取、分词╠╡和语义识别,然后根据相关规则, 输出对应的分数、评级和结论。这一切都在短短几秒内完ω成。图片和图片链接α检测同理,用户在“灵犬”内上传图片或图片链接,即可快速获取鉴定结果。

  “灵犬&rφdquo;背后的技术迭代

  据王长虎介绍,“灵犬”背后的文本分类模型,已经经过了三次迭代。每个新版本相对于旧版本,在技术和数据集层面,都有一个明显的跃升。

  第一代&ldqu◥o;●灵犬”,应用的是“词向量”和“CNN(卷积神经网络)”技术,训练数据集包含350万数据样本,对随机样本的预测准确率达到79%。第二代“灵犬”,应用的是“LSTM(长短期记忆)”〾和“Attention”技术,训练数据集包含840万数据样本,准确率提升至85%。

  新版“灵犬”同时应用了“Bert”和半监督技术,并且在此基础上使用了专门的中文语料,在不牺牲效果的◈情ъ况调整了模型结构,使得计算效率能达到实用水平。“B℡ert”是当前最先进的自然语言处理技术,是该领域近年来重大进展的集大成者。这项技术在常见的阅读理解、语义蕴ц含、问答、相关性等各项任务上,大幅提高了性能。

  这一代“灵犬”训练数据集总量是1.2个T,相当于20倍百度百科或100倍К维基百科的数据总量,包含920万个样本,准¤确率提升至91%。