图普科技推出OCR广告文字识别服务,网络小广告无处可藏

图普科技 2016-11-22 15:38 SAAS 来源:思达派 查看原文


日前,以提供图像内容审查服务著称的计算机视觉公司图普科技推出了基于深度学习的在线OCR技术——广告图片文字识别,进一步丰富了计算机视觉在图像内容审查方面的应用。数据显示,截至2016年10月份,图普科技累计帮助互联网公司屏蔽了超过1000亿条各类违规图像信息。

在互联网高速发展的情况下,内容正在从文字向图片视频的方向去转移,图像识别技术是理解这些信息的重要手段。鉴于敏感词过滤技术已经非常成熟,通过文字进行恶意推广往往会被网站屏蔽掉,许多不法分子开始在图片中内嵌一些招嫖广告、虚假微商广告等信息达到其恶意推广的目的。这种图片内文字违规是比例相当大的一类,而传统监控手段多以人工肉眼来审查,费时费力,尤其是随着图片数量越来越大,这几乎已成为不可完成的任务。 

针对这一强烈需求,图普科技开始重点攻坚OCR技术,通过机器视觉的方式识别广告图片中的文字,从而鉴别出图片内的违规文案信息。 

OCR(光学字符识别)是计算机视觉领域的经典问题,针对格式化文档图像的OCR,尤其是扫描文档,在理论与应用方面,都已经日趋成熟,国内也有很多传统的OCR软件提供商。据图普科技工程师介绍,不同于传统的面向扫描文档的OCR技术,图普科技要处理的虚假推广图片和电商广告图片上的文字字体、色彩杂乱多样,文字布局不统一,背景包括各种商品、人物或自然场景,蕴含各种复杂纹理,给识别问题带来了更大的挑战

为解决这一技术难题,图普科技抛弃了传统的基于字符切割识别的算法框架,而是采用了深度学习识别引擎,将多个深度神经网络和语言模型相结合的方法来组成完整的OCR系统,使得整个算法的鲁棒性与准确率都有了较为明显的提升。

图片 1.png

 借助这一领先的图片文字识别技术,图普科技有效解决了识别图片中违规文字信息的问题,助力互联网企业快速过滤用户上传的小广告图片内容,保障互联网内容安全。

 据悉,已有众多电商平台、直播平台及互联网UGC社区开始接入这一服务。以糗事百科为例,糗事百科是有名的原创的糗事笑话分享社区,目前注册用户两千万,拥有一亿发贴量,十亿条用户评论。据糗事百科产品总监李威介绍,糗事百科一直非常重视用户体验,成立了专门的审查队伍。由于糗百平台流量巨大,传统的人工审查方式存在成本高,效率低的问题。通过采用图普科技的人工智能审查方案,采用AI+人双重审核方式,由机器自动识别带有违规文字的图片以及含有推广二维码的小广告图片,仅需少量的人工复审,有效地提高了审查效率。

 图普科技已经在官网开放了OCR的相关接口,有兴趣的可以前往进行试用。

传送地址:https://www.tuputech.com/ocr


为您推荐: