多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

【12月公开课预告】,入群直接获取报名地址

12月11日晚8点直播主题:人工智能消化道病理辅助诊断平台——从方法到落地

12月12日晚8点直播:利用容器技术打造AI公司技术中台

12月17日晚8点直播主题:可重构计算:能效比、通用性,一个都不能少

嘉宾 | 爱奇艺

编辑 | Jane

出品 | AI科技大本营(ID:rgznai100)

在本期 CSDN 技术公开课Plus:《多模态人物识别技术及其在视频场景中的应用》中,爱奇艺科学家路香菊博士将为大家介绍了多模态人物识别技术及在视频场景中的应用。大家可以学习到爱奇艺在多模态技术领域的三项主要研究工作,并且在爱奇艺视频中是如何应用这些技术的。

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

讲师介绍:路香菊,爱奇艺科学家,身份识别(PersonAI)团队负责人,专注于人物识别、AI等技术,负责爱奇艺多模态人物识别、智能创作等相关业务。组织创办爱奇艺多模态视频人物识别赛,开放全球首个影视视频人物数库iQIYI-VID,创建百万人物库及四万卡通角色库,相关技术应用到爱奇艺APP扫一扫及AI雷达等产品中。

一、多模态技术基础介绍

首先,请大家思考一个问题:人物识别只是等同于人脸识别吗?其实,人物识别我们现在的工作中不仅仅是人脸识别,为什么是这样呢?因为在视频中,特别是在一些综艺节目、或者动作片中,完全通过个人的人脸是无法满足所有情况的,知道一个人的身份还需要其他属性,像下图中右边这个图人物,大家一看就知道他是郭德纲,但是如我我们用人脸识别绝对是没有办法识别出来的,因为他的人脸没有露出来,只有一个后脑勺,所以,我们现在基于人物识别的技术还涉及人体的识别,也就是我们监控上的 RE-ID。除此之外,在视频中,还需要识别服饰、发型、声纹和指纹、虹膜等生物特征。所以,现在基于视频场景中的人物识别已经成为一个综合需求的识别。

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

第二,如何识别虚拟人物?我们之所以叫虚拟人物,是因为它不是真实的一个人物,它包括卡通人物、二次元、动漫以及与游戏人物等形象,现在这部分角色也越来越多,已经成为娱乐行业一个非常重要的需求。在这些现实需求下,我们的研究工作也基本上在实际中落地应用。基于这些实际应用,接下来就与大家分享我们在人物识别与虚拟人物识别工作中的主要算法。

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

二、多模态技术解读(一):人物识别(IQFace)

这部分内容将主要为大家介绍真人人物识别的多模态基础技术。基于爱奇艺视频内容的需求,我们不仅要做人脸识别,在人脸信息不足或不清晰的情况下,还需要其他信息来辅助进行人物定位,在所有的信息中,我们首先想到的是声音信息;其次,在无声情境中,我们需要结合场景(如打斗、行走中、监控)利用人物的一些动作信息、背影等姿态信息以及服饰等信息来进行人物身份判断。如下图所示,是我们在业务中需要处理的主要信息类别。

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

通过人脸检测与五官定位进行人脸识别及年龄、性别、表情姿态等属性分析,得到更好的认识;此外,根据实际业务需求,如视频中一些艺人本身独有的气质,得到一些特殊的属性,这部分的处理方法是我们根据实际业务场景进行量身订作的。除了人脸信息外,还会用到人体信息,如人体姿态的估计(体型、服饰)、行为数据(手势、动作)、人体RE-ID特征提取、从人物的声音提取声纹特征,这这些都有助于我们对人物进行属性分析与人物身份判断,我们也在实际工程中用到人脸,人体,声纹这三种信息组成多模态信息识别。

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

有了多模态识别的基础数据信息,接下来就是多模态技术的算法,如图所呈现的是我们整体算法框架及工程逻辑。

目前,我们人脸别相关算法使用的人脸数据库 ID数达到了550万,可直接识别名字的名人数量达到30万左右,为了支持这么大规模的人物数据训练,我们自研一个定制化分布式框架,虽然也有一些开源的框架,不过更多情况下适合一些简单任务,针对有定制化需求的任务难以满足,所以我们自研的框架无论是整体训练的精度还是训练速度,都可以取得非常大的提升。

我们可以针对模型定型、数据定型,包括GPO、进程的通讯,都进做了优化处理;在识别的精度方面,我们在自己的数据集上进行了评测:第一个数据集是中学生库,数据分布主要集中在证件照或证件照相匹配的实际应用场景;二是爱奇艺员工数据库,是我们内部员工的数据库,里面包含了大量的人脸、姿态、表情等变化;三是爱奇艺在多模态人物识别竞赛中发布的数据集,里面主要是针对明星的视频数据进行身份识别。

实际业务场景中面临非常多人脸属性的相关需求,现在人脸属性已支持到27个,包含常见属性(表情、男女、年龄)和独有的人脸属性,比如说气质、微表情属性。(微表情指的是人脸基本活动单元的一个激活状态,也叫做一个A,目前微表情除了十一个常见的AU基本能源外,我们根据实际业务中有着强需求的类别,比如吐舌头,翻白眼,嘟嘴,眉毛上升进行处理)微表情指的是人脸基本活动单元的一个激活状态,也叫做一个A,目前微表情除了十一个常见的AU基本能源外,我们根据实际业务中有着强需求的类别,比如吐舌头,翻白眼,嘟嘴,眉毛上升进行处理;在这方面,我们提出了一个创新性工作:利用微表情和数据库中的表情包来自动生成视频中的微表情包数据,具体做法是将库中微表情的一个表情包数据来分别提取人脸的微表情特征与表情包文案同时与长视频中取到的人物微表情素材进行匹配,最后再进行文案迁移,来实现表情包的自动生成,这个方法不仅可用于人脸微表情生成,也已经实际用于卡通人物的微表情生成。

面对这么多人脸数据,如何处理噪声是一项非常艰巨的一个任务。图中是我们有一系列噪声的处理流程,以算法为主,人工为辅,将人脸数据集的噪声比例降到了非常低,使模型精度有较大提升。通过模型量化、剪枝、蒸馏等处理优化模型速度,同时对CPU版本进行定制优化,节省了大量资源。

另外,除了已知ID信息,还要充分利用爱奇艺站内视频资来源获取无标签数据辅助人脸模型训练,下面主要讲一下我们如何利用这些无标签数据进行训练,这个相关工作的论文《利用无标签数据优化人脸识别模型》今年发表于被 ICCV 2019 Workshop大会收录。

如果想要所有数据都是已知ID是比较困难的,需要大量人工标注工作,但是获取无标签数据是非常容易的,我们可以获取海量的无标签数据来辅助人脸识别模型训练,主要的一个思路是利用无标签数据填充有标签数据分布的未知区域,使有标签数据分布变得更紧,即有标签数据的分类间隔更大,分类内间隔变紧致,最终获得更好的分类效果,具体做法如下图,令无标签数据得到一个额外的Loss,叠加到之前训练的Loss 中,辅助最终的模型训练。

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记
  • 具体模型与算法解读:Unknown Identity Rejection(UIR)Loss

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

为了利用无标签数据,我们设计了半监督损失函数,Unknown Identity Rejection(UIR)Loss。人脸识别是open-set问题,将开放环境中的人物类别分为两类:有标签类多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记和无标签类多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记。训练过程中,对于有标签类,每个样本特征需要逼近分类层对应类别的类心向量;对于无标签类,它不属于分类层的任何一个类,模型需要拒绝它们,即特征与每个分类层类心距离都足够远。如下图(a),多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记表示两个分类层类心向量,圆点表示样本特征。图(b)中,加入无标签类多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记后,为了 距离 足够远,会使得有标签类别在特征空间上更稀疏,类间距离更大。

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

对于 CNN 分类模型,全连接分类层的输出经过 softmax 后得到

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

,表示属于各个类别的概率值。然而无标签类别并不属于任何一类,理想情况下应该都足够小,可以通过设置阈值将其过滤,提升库外拒绝率。基于这个想法,问题可以转化成:

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

上式是多目标最小化问题,可以转化成:

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

因此得到UIR loss,即:

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

模型总的loss是有标签类别的loss加上无标签类别的UIR loss:

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

模型框图如下,无标签数据和有标签数据一起作为输入,经过骨干网络得到特征,全连接层得到输出概率值,根据概率值分别计算

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

实验结果

我们采用MS-Celeb-1M清洗过后的MS1MV2数据集作为有标签数据,包括9万人物类别的5百万图片数据。从网上爬取数据,经过清洗,基本保证与有标签数据较低的重合率,得到约4.9百万张无标签数据。

分别在iQIYI-VID和Trillion-Pairs和IJB-C三个测试集上验证了方法的有效性。测试了四种骨干网络,实验结果说明,加入无标签数据的UIR loss后,模型性能有所提升。由于篇幅原因,IJB-C测试结果只贴了ResNet100部分,其他结果可参照论文。

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

二、多模态技术解读(二):虚拟人物识别(iCartoonFace)

基于对真实人物识别的多模态技术的初步认识,接下来介绍在虚拟人物识别的技术与经验。虚拟人物识别包含什么?概括来说虚拟人物识别包含卡通、动漫、游戏人物等所有创作出来的虚拟形象。

虚拟人物识别技术遇到的第一个挑战就是数据源问题,无论是图片数量还是人物身份信息数量,对应用到实际业务中来说都是远远不够的,同时这些数据的标注信息质量也不高,需要我们在前期工作中花费大量的时间进行数据清洗与标注工作。目前我们已经积累了大约四万多个角色,近50万张训练图片,标注精度打98%,标注信息包括位置检测框、姿态、性别、颜色等。

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

这里借鉴了上述真人识别方法中的一些损失函数,如 Softmax、SphereFace、CasFace、ARCFace等,不断使类内分布更紧密,类间分布差异更大,提高实践应用中判别的准确性。

此外,利用真人数据与卡通数据进行融合来弥补虚拟人物数据不足的现状。如下图中A表示融合之前,B表示与真人人脸融合之后使卡通人物的分布更紧密,同时拉开类间距离,实验数据上也证明了方法的有效性。

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

三、多模态数据库与多模态算法

通过两年的积累,目前爱奇艺基于真实场景中视频任务的多模态数据库已经成为业内首个多模态数据,并且标签清晰,规模最大,致力于给大家的研究工作提供更多的帮助。

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

基于多模态数据库,利用人脸、人头、人体与声纹四中特征,我们设计了一种多模态识别算法架构,在模型中提出多模型注意力模型,将这四种特种进行融合。

http://challenge.ai.iqiyi.com/detail?raceId=5c767dc41a6fa0ccf53922e7.

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

有很多研究团队基于此在数据增强、交叉验证和使用无噪声样本进行训练等方面进行了工作的改进。也有工作针对模型架构进行了改进,提出了开放性网络架构,如下图所示,模型主体为全连接层网络,能接收深层次与浅层次间的信息,在两个 dense 层之间加入跳跃连接,将不同层信息进行融合,同时根据 residual block 思路进行改进,加入dropout和batch norm防止过拟合。

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

四、多模态技术在视频场景中的应用与实践案例:只看TA与AI 雷达

2、微表情特征的匹配一个环节是根据人脸的相似度和每个AU的相似度进行匹配;文案匹配是通过网上下载了很多带有文案的表情包,再与视频中提取的表情包进行匹配,如果匹配效果较好,再将文案迁移。

多模态人物识别技术及其在爱奇艺视频场景中的应用公开课笔记

爱奇艺「只看TA 」功能展示

对于上面提到的多项研究论文与数据库感兴趣,大家可以查阅:

论文与论文地址:

  • 《Unknown Identity Rejection Loss: Utilizing Unlabeled Data for Face Recognition》

https://arxiv.org/pdf/1910.10896v1.pdf

  • 《iCartoonFace: A Benchmark of Cartoon Person Recognition》

https://arxiv.org/pdf/1907.13394v1.pdf

  • 《iQIYI-VID: A Large Dataset for Multi-modal Person Identification》

https://arxiv.org/abs/1811.07548

本期公开课回顾学习:

https://edu.csdn.net/huiyiCourse/detail/1075

技术公开课专题页:

https://bss.csdn.net/m/topic/ai_edu

12月公开课,精彩预告

  • 12月11日晚8点:人工智能消化道病理辅助诊断平台——从方法到落地

    报名地址:https://edu.csdn.net/huiyiCourse/detail/1111

  • 12月12日晚8点:公司要不要做 AI 中台?开发者要了解的技术

    报名地址:https://edu.csdn.net/huiyiCourse/detail/1117

  • 12月17日晚8点:如何设计基于可重构计算的AI芯片,效比与通用性皆有

    报名地址:https://edu.csdn.net/huiyiCourse/detail/1112

加入公开课「交流群」获取更多课程、学习资料、岗位招聘等信息

主题测试文章,只做测试使用。发布者:觉鸟网,转转请注明出处:https://www.jueniao.cn/n/21163.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022年6月13日 10:07
下一篇 2022年6月13日 10:09

相关推荐

  • 有较大的涨价空间,京沪高铁:疫情跨过深水区,高铁客流恢复可期

    (报告出品方/分析师:华泰证券沈晓峰 林霞颖) 京沪高铁股价复盘,疫情为关键变量 京沪高铁近一年的股价下跌,主要因为疫情拖累公司盈利。 回顾2021年,京沪高铁股价下跌 14.1%,沪深 300 指数下跌 5.2%,交通运输指数上涨 2.6%。多轮疫情使投资人预期的疫情结束时点落空,在成长股上涨的背景下防御型股票的吸引力较低,对京沪高铁较难看长买短。其中,1…

    2022年6月20日
    2300
  • 贾鸣镝:上汽奥迪实现从“0”到“1”的蝶变

    2022年第一天对于上汽奥迪来说是特别的一天,也是一个全新的开始。1月1日,上汽奥迪进取汇在上海正式揭幕,与此同时首批A7L 55TFSI(3.0T)车主进行交车,A7L 45TFSI(2.0T版)正式上市。可以说,从2021年418上汽奥迪品牌的发布,到718开启A7L先行版预订,再到如今的正式交付,上汽奥迪经过了五年的磨砺,并在短短一年内实现了从0到1的…

    2022年6月20日
    3700
  • 好物│这些家居小物助你养成洗手好习惯

    勤洗手的叮嘱在这段时间高频次出现。这些与洗手有关的小物,颜值爆表、设计巧妙,也为你养成健康好习惯出了一分力。 * Propaganda Mr.P趣味洗手液按压瓶 可爱、调皮、幽默是来自泰国的Mr.P的一贯风格。按住 Mr.P的头,洗手液就会从舌头里流出。这位Mr.P就是这样,为你的日常点滴,经常不惜牺牲自己。 图/德国PlanetLU创意家居网店截图 * J…

    2022年6月20日
    2500
  • 学生成绩不佳是因为太马虎吗?宋少卫打开学习的“黑匣子”

    学生学习成绩不理想,究竟是哪里出了问题?太马虎不努力还是太笨了? 真相或许没有我们想象的这么简单。 经过二十多年的研究,清华大学心理学系学习科学实验室执行主任宋少卫发现,究其根源,学生的学习问题是由其学习系统的漏洞导致的。如同我们吃了五谷杂粮,身体有时会生病一样;孩子们吸收各科知识、各类技能,他们的学习系统也可能‘生病’,最终表现为成绩不佳。 那么,学习系统…

    2022年6月28日
    3000
  • 苹果AppleWatch,续航时间短,影响大吗?

    苹果Apple Watch的续航能力是一个永恒的话题。每次谈到Apple Watch,总会有人指出其续航能力的问题。 1 Apple Watch的续航能力并非一个小问题。 因为存在续航问题,直接劝退了不少人。即使是Apple Watch的忠实使用者,每次出现买来送给父母的念头时,最终也是因为续航而放弃。 续航时间短,意味着需要经常充电。具体充电次数因人而异,…

    2022年6月22日
    3000

发表回复

您的电子邮箱地址不会被公开。

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信