商汤出品,最强目标跟踪算法SiamRPN++开源了CVPR2019Oral

黑栗子 发自 凹非寺

量子位 报道 | 公众号 QbitAI

商汤出品,最强目标跟踪算法SiamRPN++开源了CVPR2019Oral

这是黑客帝国,尼奥和史密斯雨中打斗的样子。

目标追踪AI要在光照急剧变化、物体形状大小也不断改变的场景里,准确锁定尼奥的头。

红色是商汤最新算法SiamRPN++的表现,它中选了CVPR 2019的Oral。

蓝色是它的对手,来自ECCV 2018的优秀前辈UPDT。自古红蓝出CP。

动作太快,看不出红蓝谁更强?有截图啊:

商汤出品,最强目标跟踪算法SiamRPN++开源了CVPR2019Oral
商汤出品,最强目标跟踪算法SiamRPN++开源了CVPR2019Oral
商汤出品,最强目标跟踪算法SiamRPN++开源了CVPR2019Oral

肉眼看去,商汤SiamRPN++更胜一筹,几乎不受复杂场景的影响。

不止如此,它已经在多个数据集上成为了State-of-the-Art

同时也成了商汤Siam家族的骄傲。现在,整个家族都开源了

· SiamMask (CVPR 2019)

· SiamRPN++ (CVPR 2019 oral)

· DaSiamRPN (ECCV 2018)

· SiamRPN (CVPR 2018)

· SiamFC (ECCV 2016)

但这到底是一个怎样的家族?

显赫之家

Siam是Siamese的缩略,所以整个家族都是孪生网络

所谓孪生,就是两个网络的所有权重都一样

给它们输入不同的数据,便可以测量两个输入的相似度,做分类之用。

商汤出品,最强目标跟踪算法SiamRPN++开源了CVPR2019Oral

经年累月,团队死磕孪生网络,用这类算法来做目标跟踪。

在这之中,SiamRPN赫然挺立,中选了CVPR 2018的Spotlight。

SiamRPN:把检测算法引入跟踪

这只AI的诞生,是因为团队发现:虽然孪生网络能对目标快速定位,但不能对目标框作出调整,也就不能调节目标的形状

可目标跟踪并不是只要定一个点,目标所在的范围也同样重要。

于是,团队为孪生网络引入了区域推荐网络 (RPN) 。

商汤出品,最强目标跟踪算法SiamRPN++开源了CVPR2019Oral

孪生网络可以实现对目标的适应,利用被跟踪目标的信息,完成检测器的初始化;而RPN可以让算法对目标位置 (范围) 做出更精准的预测。

两者结合,就有了可以端到端训练的SiamRPN。除了算法上的创新之外,由于支持端到端训练, (在VID之外) 大规模数据集Youtube-BB也成了它的训练集,进一步提升性能。

于是,在OTB100、VOT15/16/17数据集上,SiamRPN都比基线算法SiamFC高出了5%以上,速度也更快。它被CVPR 2018选作了Spotlight。

商汤出品,最强目标跟踪算法SiamRPN++开源了CVPR2019Oral

DaSiamRPN:改进训练集,增强判别能力

虽然,SiamRPN取得了好成绩,但它是用VID和Youtube-BB训练的:里面的类别非常少,大概二三十类,很难胜任现实任务。

COCOImageNet DET的检测数据集,分别有80类和200类。且孪生网络的训练只需要图像对,不用完整的视频,所以轻松就把这些数据集引入了。

可引入之后又有新问题:这个网络会对所有有语义的样本进行响应,不只对目标物体有响应。比如目标是一个人,而AI遇到一把椅子也有很高的响应。

因为之前的训练中,负样本 (和目标无关的样本) 只有背景信息,限制了网络的判别能力。

商汤出品,最强目标跟踪算法SiamRPN++开源了CVPR2019Oral

于是,团队改进了方法——增加一些有语意的负样本对,来增强跟踪器的判别能力。

这就是说,训练过程中不再让模板 (Template) 和搜索区域 (Search Region) 是相同目标;是让网络学习判别能力,去搜索区域里找模版更相似的物体,而不是一个简单的有语义的物体。

商汤出品,最强目标跟踪算法SiamRPN++开源了CVPR2019Oral

做了这样的改动,DaSiamRPN可以从短时跟踪拓展到长时跟踪,且在UAV20L数据集上比之前成绩最好的方法提高了6%。

DaSiamRPN被ECCV 2018收录,且在VOT workshop比赛上,获得了实时赛的冠军,比上年冠军提升了80%

商汤出品,最强目标跟踪算法SiamRPN++开源了CVPR2019Oral

SiamRPN++:让孪生网络用上深度架构

算法也改过了,训练集也改过了。

所以,团队这一次瞄准了还没改过的孪生网络本身。

之前的孪生网络,都是基于比较浅的卷积网络(比如AlexNet) 。但如果直接引入深度网络,性能反而会大幅下降。

商汤出品,最强目标跟踪算法SiamRPN++开源了CVPR2019Oral

想有效利用深网络,就要解决位置偏见的问题。于是,研究人员提出了位置均衡的采样策略:

不把正样本放在中心,而是以均匀分布的采样方式,让目标在中心点附近进行偏移。

随着偏移范围增大,深度网络慢慢开始发挥作用。不止可以跟踪更多细节信息 (浅层网络特征) ,也能跟踪更多语义信息 (深层网络特征) 。多层融合信息,来进一步提升性能。

除此之外,团队还提出了新的连接部件,Depthwise Cross Correlation (下图c) 。它可以极大减少参数量,平衡两支的参数量,同时让训练更加稳定,也更好地收敛。

商汤出品,最强目标跟踪算法SiamRPN++开源了CVPR2019Oral

结果,SiamRPN++在5个大型跟踪数据集上,都拿到了最好成绩:OTB2015,VOT2018,UAV123,LaSOT,以及TrackingNet。

突破了孪生网络和深度架构之间的障碍,这只AI顺理成章地中选了CVPR 2019的Oral。

大规模开源

这些孪生网络,现在都开源了。

商汤发布了一个叫做PySOT的目标跟踪库,基于PyTorch,把整个Siam家族装了进去。回顾一下,包括这些模型:

· SiamMask (CVPR 2019)

· SiamRPN++ (CVPR 2019 oral)

· DaSiamRPN (ECCV 2018)

· SiamRPN (CVPR 2018)

· SiamFC (ECCV 2016)

PySOT库提供了3种不同的backbone,有深有浅:

· ResNet{18, 34, 50}

· MobileNetV2

· AlexNet

模型评估,目前支持这些数据集:

· OTB2015

· VOT16/18/19

· VOT18-LT

· LaSOT

· UAV123

PySOT里面,还包含了评估工具的接口。

所以,大家可以尽情探索了。

PySOT传送门:

https://github.com/STVIR/pysot

SiamRPN论文传送门:

http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf

DaSiamRPN论文传送门:

https://arxiv.org/abs/1808.06048

SiamRPN++论文传送门:

https://arxiv.org/abs/1812.11703

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复招聘两个字。

量子位 QbitAI · 头条号签约作者

վᴗ ի 追踪AI技术和产品新动态

主题测试文章,只做测试使用。发布者:觉鸟网,转转请注明出处:https://www.jueniao.cn/n/23370.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022年6月16日 00:29
下一篇 2022年6月16日 00:32

相关推荐

  • 焕能无境OPPO发力创造高效性能开放服务平台

    【PConline 杂谈】OPPO于北京时间2018年12月26日在北京国家会议中心举行OPPO开发者大会,整场大会分为上下两个半场,共四个分论坛。开发者服务分论坛以焕能无境为主题,阐述了OPPO为开发者提供强大的开放性平台。以及为开发者提供全面方,多角度一站式优质化内容服务,使开发者能够创造出更多产能价值。 面对已经到来的移动互联网后流量时代,基于场景识别…

    2022年6月14日
    2500
  • ICCV2021OralPoinTr:几何敏感的多样点云补全Transformer

    作者 | 于旭敏 编辑 | 王晔 我们提出了一种几何敏感的点云补全Transformer,通过将点云表示成为一组无序的点代理,并采用Transformer的Encoder-Decoder结构进行缺失点云生成。除此以外,我们提出了两个更具有挑战性的点云补全Benchmark——ShapeNet-55/34。我们的论文已被ICCV接收为Oral Presenta…

    2022年6月14日
    3400
  • 奥林巴斯高品质的医疗产品和服务,提升人民健康品质生活

    内镜被称为医生的眼和手的延伸,它可以通过人体自然腔道或人工建立的通道进入人体,辅助医生更高效便捷地诊断或治疗人体内局部病灶。奥林巴斯作为一家以医疗为主的百年光学科技企业,自1972年进入中国市场以来,锲而不舍地将先进光学技术应用到医疗领域,为我国内镜行业提供优质的产品与解决方案。 近日,有幸受邀参加奥林巴斯以探索医疗未来季为主题的C-TEC媒体开放日—上海站…

    2022年6月16日
    3200
  • 3D体感走出游戏,走进现实,华捷艾米的生意经

    十年前,微软发布了一款划时代的游戏设备:Kinect。 这款设备颠覆了传统游戏的单一操作,不需要使用任何控制器,依靠相机捕捉三维空间中玩家的运动轨迹,就能对游戏进行精准操控。 遗憾的是,一度被认为引发了人机互动革命的Kinect,几年后终因游戏内容生态不足而被砍掉。 而这,也带来了3D体感技术在世界范围内的一度沉寂。 幸运的是,Kinect所采用的3D体感技…

    2022年6月18日
    2900
  • 丰田电动化答卷,可选太阳能充电板,静态体验丰田bZ4X

    【有车以后】今天我们来聊一台对于丰田来说非常重要的车型,bZ4X。这台车目前还没有中文名字,不过可以给大家介绍一下bZ4X的意义,首先,bZ的意思是Beyond Zero,超越零排放,然后4是尺寸代号,X代表SUV。至于这台车的定位,丰田有几个关键词,叫低重心、高刚性、具有驾驶乐趣和SUV越野性能。 外观方面,丰田把采用了一种叫作锤头鲨的设计,看起来比较激进…

    2022年6月28日
    2300

发表回复

您的电子邮箱地址不会被公开。

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信