直播审核这事上,机器凭“好色”能力赢了人类?

图普科技 2016-06-02 18:40 移动互联网 来源:思达派 查看原文

直播审核这事上,机器凭“好色”能力赢了人类?

 

直播火了,网红火了,但是伴随而来的还有各种违规内容被暴漏在网络上,近期部分直播平台被网信办高度关注,是什么原因导致直播平台的不良信息“被泄漏”?目前视频直播的审核方式有哪些?应该怎么看待直播的发展?雷锋网旗下品牌活动“硬创公开课”邀请图普科技CEO李明强做客线上专访活动,和大家一起聊聊直播内容的监管以及机器学习应用的那些事。以下为访谈内容的干货整理。

 

问题一|直播审核的现状

1、直播平台对直播内容(图像)的监管存在什么困难?

1.png

第一、网络直播规模庞大,人工审核成本高

2015年直播平台接近200家,用户数量已经达到2亿,大型直播平台每日高峰时间会有数万个直播“房间”同时在线,用户数可达千万人次,如果全部用人工对1万路视频同时进行审核,为了保证“无漏网之鱼”,至少需要数百人同时工作,并且每位工作人员需要配备1-2台监控设备。

比如映客现在在审核上投入的人力就是800多人,占据了7000平方米的审核基地,24h都需要人力在审核。其实直播视频内容的违规比例占比不高,仅0.04%,甚至更低,但为了做到“无漏网之鱼”,企业需要投入大量的人力、物力和财力进行监管,运营成本压力增加。

第二:直播流量聚焦夜晚,人工审核效率低

网络直播白天跟晚上的“房间数”不同,目前,白天直播流量峰值是数百路视频,晚上可以飙升到数千路。但“三班倒”的审核人员,夜晚疲劳,人眼识别精确度降低,出现误判漏判的概率上涨,审核效率降低,难以达到网络直播的内容监管需求。

第三:主播实名及直播实时验证难

直播平台注册简单,主播规模扩充迅速,如果实名验证完全依靠人力审核,人力成本增加,难以做到真实有效的审核;再加上一些稍微大一些的直播平台高峰期时期会有上万人,如果每次主播直播时,都验证是否属于本人在直播,这又增加一部分人力成本,对于一些中小型直播创业企业而言,运营难度上升。

 

2、国家对于监管出台的政策,对直播平台有什么影响?

(1)从直播平台本身来说,能够促进直播平台加强自律:例如部分直播平台规定主播需实名验证、满18周岁;直播内容存储时间不少于15天;所有直播房间内添加水印;对于情节严重的主播将列入黑名单、对直播内容进行24小时实时监管、要有专人负责等。

(2)从直播平台的发展来说,对于大型企业的发展是比较有优势的,相当于对直播平台增加了一定的门槛,大型直播平台对监管成本上升的承受能力比较高,中小型视频直播平台将在监控审查成本的提升环境下挑战和压力增大。

(3)从直播平台的内容来说,依靠色情、暴力等擦边球的“激进”内容来吸引用户的道路越来越不可行,未来受欢迎有潜质的主播也许会更加偏向专业化,内容也会更加健康。

 

问题二|审核直播,机器能做什么?

1、审核直播的方式有哪些?

传统的图像审核方式主要有两种:1、纯人工审核:企业员工“三班倒”工作;传统智能审核:人眼鉴别该图片或视频是否违规;2、传统的智能审核:如识别色情图像,基本是通过图片RGB 值识别肤色比例;通过建模识别异常动作、敏感部位等。

但是这两种审核方式都存在较大的漏洞,“三班倒”的人工容易导致审核效率低、误判漏判多等主观性问题;传统智能识别色情图片准确率低、经常误报等。而且这三种审核方式对近两年热门的视频直播审核需求更难以满足。

现在主要是利用机器识别结合人工审核的模式进行审核,机器识别是依赖于人工智能领域最新的算法:深度学习算法,通过模拟人脑神经网络,构建具有高层次表现力的模型,能够对高复杂度数据形成良好的解读。通过大数据持续训练、频繁的迭代,不断提高鉴黄精确度,有效节省人工复审的工作。

 

2、审核直播内容,机器都做了什么?

(1)机器审核直播内容是否涉黄、违法

机器主要是用来专门判断哪些图片是色情的或者需要被过滤掉的违法信息,它在这方面的智能程度是可以替代人力的,经过机器审核后的数据,会分为“确定”和“不确定”的两个部分,确定部分的可以达到99.5%的准确率,不确定的会诚实地告诉客户,由客户做出决断。不确定的部分可能只占到审核总量的1~2%,原先需要100个人审核,经过机器识别服务,就可以只用1~2个人来完成了。

(2)机器识别的工作原理

目前机器学习的核心技术是深度学习,简单来说,可以把深度学习理解为一个空白的人脑,这些大量的数据就是灌输进来的经验。深度学习是属于机器学习的一个范畴,是最新的机器学习技术,其最主要体现在“深度”这两个字。

深度学习可以理解为“深度机器学习“,普通或者传统的机器学习在神经网络的复杂度和层数没有像现在的这么高,而深度学习层数和复杂度都加深了许多,因此才会叫做深度学习。

譬如说你想训练一只狗,狗做对了你就给它激励,做错了你就惩罚它,那久而久之它就知道哪些是正向、负向的激励,然后就明白自己哪些事情是自己应该去做的,对于错误的事情的想法也会逐渐被抵消。

当我们把大量的色情、性感、正常的样本的属性告诉深度学习的引擎, 然后让引擎不断学习,对他们正确的行为进行奖励,错误的行为进行惩罚,当然这些奖励和惩罚都是数学上的,最后空白的脑袋就会学成了一种连接的模型,这种模型就是为了鉴别色情与非色情而生的。

 

3、那么为什么之前机器学习没有爆发,只是在这一两年开始爆发?

因为机器学习需要同时满足三个条件:

1、海量的数据(大家都知道互联网发展那么多年,已经积累了大量的数据,并且数据量还在持续得上涨);

2、高性能计算的能力 (显卡和GPU因为摩尔定律的发展,也已经有了一定的基础);

3、深度学习的算法(在2012年被一次ImageNet的比赛,被业界广泛注意到,隆重的登上了历史的舞台)

 

4、直播(图片/帧)数量那么多,你们(图普)能为他们做什么?

 

1)目前做图像识别的有哪些公司,你们的竞争差异在哪里?

1、智能审核垂直领域的竞争对手主要是一些比较大的企业,譬如说腾讯优图、阿里绿网,他们主要为自身平台客户提供审核服务,不属于第三方,在产品和技术方面,差异主要如下:

第一:服务细致程度更高,准确度更高。图普是国内最早利用人工智能算法做审核服务的,也是在在工程经验、 服务专业度方面具有先发优势,我们会根据不同的客户、不同的细分领域,做单独的模型调整以及算法细节的优化,专人服务对专门的客户做专业的运营。图普也是国内利用人工智能做智能审核的首倡者,很多定价的方法、归类的方法、接口返回的定义都为后来的同行做出了一定标准和规范。

第二:识别接口更全面。除了提供审核之外,还有包括人脸、场景、物体、车、表情、人的年龄以及服装风格等几十种识别接口。客户一次接入后,可以自行增减各种服务接口,只要一次接入,就可以满足各种需求。

第三、使用更方便。客户无需为了使用图片识别服务而绑定任何云计算平台,也可以通过 图普入驻的七牛、UCloud、AWS、融云等知名平台直接调用。

2、另外,也有一些图像识别技术领域的同行:依图、图森、旷视科技、格灵深瞳、商汤科技等,大多数都是同为创业企业,但是产品线有所差异,他们主要是面向安防监控、金融、广告。

 

2)你们都服务哪些直播平台,举些例子详细解读下

主要的直播平台都是在使用我们的服务:映客、花椒、在直播、繁星网、秀色娱乐、风云直播、易直播、kk直播、17直播、悟空TV、么么直播等

2.png

3)具体做的服务都有哪些,如何帮忙做推荐、鉴别小黄图、如何帮助企业规避政策限定?

目前直播服务主要分为两种类别;

标准审核服务:包括鉴黄、暴恐识别、广告识别、敏感人脸过滤等;

个性化定制服务:根据客户的实际需求,定制专属的图像识别整体解决方案,譬如针对特定场景(抽烟、喝酒、打架、自残等)的审核,人脸识别(主播颜值、风格、表情、年龄、性别、其他外在特征等)、场景识别(主播直播时所在环境)、物体识别(直播平台中出现的物体)等各种图像的识别。

 

比如在场景的精准推送上,可以基于人脸、场景、商品识别与分析技术,抓取视频内的价值信息,实现最精准的内容匹配;在主播风格推荐上,可以自动分类不同风格的男神女神,根据用户平台资料和兴趣,智能推送偏好类型;还可以建立颜值推荐系统,基于人脸识别,机器自动将高颜值主播推荐给用户等。

 

问题三|直播很火,机器学习同样很火

 

1、除了审核直播,机器学习还能做什么?(或者你们还在做什么)

除了帮助直播平台规避内容风险,机器识别还可以通过以下几个形式优化视频直播平台:

第一、通过图像识别对主播进行分类,可以得出直播平台的内容是否健康,或者给主播打上标签,平台是否需要培养和扶持一些比较稀缺、受欢迎的主播。

第二、深挖直播平台的图像识别云服务,例如主播正在做什么,唱歌、跳舞、抽烟、化妆、睡觉或其他。在将来全民生活直播,可以挖掘的信息量就更大,包括万事万物的识别,视频内出现的车、手机、玩具或其他的,这都是反映了一个人的生活习惯、行为习惯,机器可以根据用户偏好,智能推送相应直播视频,帮助直播企业更好地进行用户互动运营。

第三、直播的视频内发出的所有图像信息,包括人物、地点、活动、事物、背景等,在以人工智能技术作为基本支撑下,可以帮助用户智能搜索所需信息,像KTV、餐厅、教室等,这些都是可以提高产品和用户体验,或者企业想将这些信息流量变现,均可按企业需求定制。

第四、基于人的智能搜索,帮助直播平台把用户和内容串连起来,把相似的主播串连起来,让用户找出自己想要的人物形象。例如用户可以描述自己梦中情人的形象然后进行智能搜索,或上传自己的照片即找出与自己最有夫妻相的主播等,这都是目前同质化直播平台没有做到的事情。

 

问题四|您对机器学习的未来趋势怎么看?

大家从图像读出来的信息,同样的,图像识别机器都可以将其中的信息提取出来。机器学习在图像和视频上,就是做了替代了人工回答或者描述一张图片或视频的所有信息的这些事情。

另外,图像搜索也是一种图像识别的应用,比如在视频网站上、在直播上找到跟自己相似、有夫妻相的人等做一些好玩的应用;“正经儿”的应用也有,比如说浙江轻纺城的电商城中对于布匹的搜索。

互联网的本质就是两个字“连接” ,而连接就是需要对内容的识别后才可以进行的,如果不对内容进行理解,连接的是关于什么内容是不知道的,或者说发了同样内容的两个人,他们的兴趣爱好本应是连接起来的也没有被连接。所以在互联网进到视频和直播的时代之后,对于内容的连接应该变得更加重要。

3.png

并且在线下领域,比如说机器人、智能家居、智能工业制造等各个领域,都会需要图像识别和理解,它们就像机器人的眼睛一样收集外界的信息。比如:

1、生活上,智能电视,如果电视识别到是你在电视前面观看,就会自动跳转到球赛;如果是你妈妈在观看,就会自动调到家庭电视剧;智能服务机器人,看到你向他招手,他就会越过障碍向你走过来,会说“先生好,有什么可以帮到你?”你指着菜单跟他说你要某一个之后他就会自动给你下单,然后把菜给你端上来等;

2、商业应用上,一个电影院想统计看电影的人的性别、年龄、穿着打扮做用户画像或者通过看电影时的表情观察用户对电影的评价等都可以通过图像识别来获得分析;

安防和监控领域,除了抓获犯人和违规车辆外,还有企业内部的大客户管理方面的需求等;

3、智能工业制造上,在生产线上,是有1/3的工人是在质检相关的事情,而不是制造相关的事情,这部分质量检测就像是互联网的鉴黄一样,都是对生产内容的把关和检测,也是可以被替代的等。

所以一旦展开,其实大家可以想象到有很多人工智能、图像识别或者视频识别的应用,就像“互联网+”一样,人工智能也会渗透各个领域中,形成“人工智能+”的发展模式。

人工智能不是小部分人垄断在一个平台、一个引擎,每个人都可以在自己的行业和领域发散思维,自己做的哪些事情可以通过人工智能来提高效率、建立先前没有的交互体验、降低成本等。

如果让大家坐时光机跳到五年之后,也许大家会突然感到每一件东西都有一点临近一样,五到十年之后,大家可能会处在一个被人工智能包围的世界里,比如说可能会有人工智能为你开车、为你打扫卫生,打开手机会有人工智能为你推荐新闻,会有人工智能为你管理健康、日程、衣食住行等各个方面。

虽然短时间内,人工智能还无法人类的情感之类的复杂、深刻或微妙的东西,但是五到十年之后,一定会出现大量的在垂直领域相对成熟的人工智能企业,会让大家用上很多相对成熟的人工智能应用,会有很多的行业发生巨大的改变,让我们一起迎接人工智能的时代。

 

 


为您推荐: