开源论文代码分享

作者 | CV君

编辑 | CV君

报道 | 我爱计算机视觉(微信id:aicvml)

车道线检测CVPR 2022

Rethinking Efficient Lane Detection via Curve Modeling

上海交大&华东师大&香港城市大学&商汤

文章提出一种新的基于parametric curve(参数曲线)的方法,用于 RGB 图像中的车道检测。与最先进的基于分割和基于点检测的方法不同,这些方法通常需要启发式解码预测或制定大量的锚点,而基于曲线的方法可以自然地学习整体的车道表示。为了解决现有多项式曲线方法的优化困难,提出利用 parametric Bézier curve,因为它易于计算、稳定和高自由度的变换。此外,还提出基于变形卷积的特征翻转融合,以利用驾驶场景中车道的对称性特性。

所提出的方法在流行的 LLAMAS 基准上实现了新的最先进的性能。它还在TuSimple和CULane数据集上实现了良好的准确性,同时保持了低延迟(>150 FPS)和小模型大小(<10M)。作者表示该方法可以作为一个新的基线,为车道检测的参数化曲线建模提供启示。

已开源:https://github.com/voldemortX/pytorch-auto-drive

论文:https://arxiv.org/abs/2203.02431

TransformerCVPR 2022Pansharpening

HyperTransformer: A Textural and Spectral Feature Fusion Transformer for Pansharpening

约翰斯·霍普金斯大学

Pansharpening 的目的是将配准的高分辨率全色图像(PAN)与低分辨率高光谱图像(LR-HSI)相融合,生成具有高光谱和空间分辨率的增强型 HSI。现有的pansharpening 方法忽略了使用注意力机制将 HR 纹理特征从 PAN 转移到 LR-HSI特征,引起空间和光谱失真。

本次工作提出一种新的用于 pansharpening 注意机制,HyperTransformer,其中 LR-HSI 和 PAN 的特征分别被表述为 transformer 中的 queries(查询)和 keys(键)。HyperTransformer 由三个主要模块组成,即 PAN 和 HSI 的两个独立的特征提取器,一个多头特征软注意模块,以及一个空间-光谱特征融合模块。它通过学习 PAN 和 LR-HSI 的交叉特征空间依赖性和长程细节,提高了pansharpened HSI的空间和光谱质量指标。此外,HyperTransformer 可以在骨干网的多个空间尺度上被利用,以获得更好的性能。

在三个广泛使用的数据集上进行的广泛实验表明,HyperTransformer 在空间和光谱质量指标上都比最先进的方法取得了明显的改善。

已开源:https://github.com/wgcban/HyperTransformer

论文:https://arxiv.org/abs/2203.02503

开源论文代码分享

deepfake伪造视频检测CVPR 2022

Voice-Face Homogeneity Tells Deepfake

山东大学&新加坡国立大学&香港大学

本次工作,作者从Voice-Face 匹配的角度来解决 deepfake 检测问题。作者称这是第一个进行跨数据集deepfake 检测的工作,不包括任何额外的辅助数据。设计一个 voice-face 检测模型,用于测量通用视听数据集上这两者的匹配程度。此后,这个模型可以顺利地转移到 deepfake 数据集上,而不需要任何微调,跨数据集的通用性也相应地得到加强。作者在 DFDC 和 FakeAVCeleb 两个被广泛利用的数据集上进行了实验,与其他最先进的方法相比,该模型获得了明显改善的性能,并保持了良好的泛化能力。

已开源:https://github.com/xaCheng1996/VFD

论文:https://arxiv.org/abs/2203.02195

开源论文代码分享

立体匹配CVPR 2022

ACVNet: Attention Concatenation Volume for Accurate and Efficient Stereo Matching

华中科技大学

文章提出一种新的 cost volume,attention concatenation volume(ACV),它基于相似性度量产生注意力权重,以过滤串联量。还提出一种新的 multi-level adaptive patch matching 方法,即使对于无纹理的区域也能产生准确的相似度测量。基于ACV,设计一个高度精确的网络 ACVNet,在所有已发表的方法中,在四个公共基准(即KITTI 2012、KITTI 2015、Scene Flow和ETH3D)上排名前三。此外,该方法的一个快速版本,ACVNet-Fast,也取得了优于大多数最先进的实时方法的性能。

将开源:https://github.com/gangweiX/ACVNet

论文:https://arxiv.org/abs/2203.02146

开源论文代码分享

3D目标检测自动驾驶CVPR 2022

Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving

浙江大学&MBZUAI

文章提出一个 Pseudo-Stereo 三维检测框架,它具有三种新的虚拟视图生成方法,包括图像级生成、特征级生成和特征克隆,用于从单一图像中检测三维物体,实现了单目三维检测的显著改善。在 KITTI-3D 基准测试中,采用该特征级虚拟视图生成方法的框架在三个物体类别的单目三维检测器中排名第一。

在此框架中,作者分析了学习深度感知特征表征的两个主要效果,包括估计深度图和作为深度指导的深度损失。非常有趣的是,深度损失只在特征级的虚拟视图生成中有效,而估计深度图在图像级和特征级的深度感知特征学习中都有效。

在特征级虚拟视图生成方法中,提出一种差异度动态卷积,用来自差异度特征图的动态核来自适应地过滤单幅图像的特征,以生成虚拟图像特征,可以避免深度估计误差造成的特征降至。

将开源:https://github.com/revisitq/Pseudo-Stereo-3D

论文:https://arxiv.org/abs/2203.02112

开源论文代码分享

图像生成CVPR 2022

Autoregressive Image Generation using Residual Quantization

POSTECH&Kakao Brain

对于高分辨率图像的自回归(AR)建模,矢量量化(VQ)将图像表示为一串离散的代码。一个短的序列长度对于AR 模型来说是很重要的,可以减少其计算成本,以考虑代码的长距离互动。然而,假设以前的 VQ 不能缩短代码序列,并在速率-失真权衡方面共同生成高保真图像。

文中提出两阶段的框架,其中包括 Residual-Quantized VAE(RQ-VAE)和 RQ-Transformer,用于有效生成高分辨率图像。给定一个固定的编码本大小,RQ-VAE 可以精确地接近图像的特征图,并将图像表示为离散编码的堆叠图。然后,RQ-Transformer 学习通过预测下一叠编码来预测下一个位置的量化特征向量。

由于 RQ-VAE 的精确近似,可以将 256×256 的图像表示为 8×8 分辨率的特征图,而 RQ-Transformer 可以有效降低计算成本。因此,该框架在无条件和有条件图像生成的各种基准上优于现有的 AR 模型,也比以前的 AR 模型有明显更快的采样速度来生成高质量的图像。

将开源:https://github.com/kakaobrain/rq-vae-transformer

论文:https://arxiv.org/abs/2203.01941

开源论文代码分享

ICRA 2022行人行为预测

Pedestrian Stop and Go Forecasting with Hybrid Feature Fusion

洛桑联邦理工学院

文章介绍一个新任务:pedestrian stop and go forecasting(行人走走停停预测)。另外,考虑到缺乏合适的现有数据集,发布了 TRANS,一个明确研究城市交通中行人的走走停停行为的基准。作者从几个现有的带有行人行走动作标注的数据集中创建了它,以便有各种场景和行为。还提出一个新的混合模型,利用来自几种模式的行人特定特征和场景特征,包括视频序列和高级属性,并逐渐融合它们以整合多层次的背景。并在TRANS上对该模型和几个基线进行了评估,为社区在行人走走停停预测方面的工作设定了一个新的基准。

将开源:https://github.com/vita-epfl/hybrid-feature-fusion

论文:https://arxiv.org/abs/2203.02489

开源论文代码分享

文档图像分类

DiT: Self-supervised Pre-training for Document Image Transformer

上海交大&微软

近期,Image Transformer 在自然图像理解方面取得了重大进展,无论是使用监督(ViT、DeiT等)还是自监督(BEiT、MAE等)预训练技术。本次工作,提出 DiT,一个自监督的预训练的 Document Image Transformer 模型,使用大规模的无标记文本图像来完成文档人工智能任务,这一点至关重要,因为由于缺乏人类标记的文档图像,从来没有监督的对应物。作者利用 DiT 作为骨干网络来完成各种基于视觉的文档人工智能任务,包括文档图像分类、文档布局分析以及表格检测。

实验结果表明,自监督预训练的 DiT 模型在这些下游任务上取得了新的SOTA,例如文档图像分类(91.11→92.69)、文档布局分析(91.0→94.9)和表格检测(94.23→96.55)。

将开源:https://github.com/microsoft/unilm/tree/master/dit

论文:https://arxiv.org/abs/2203.02378

开源论文代码分享

Transformer

ViT-P: Rethinking Data-efficient Vision Transformers from Locality

重庆理工大学&加利福尼亚大学

Transformers 的最新进展为计算机视觉任务带来了新的期望。但在小数据集上,Transformers 很难训练,其性能低于卷积神经网络。作者通过引入 multi-focal attention bias(多焦点注意力偏差),使 vision transformers 与卷积神经网络一样具有数据效率。受训练有素的 ViT 中注意力距离的启发,将 ViT 的自注意力限制在多尺度的局部感受野。在训练过程中,感受野的大小是可以调整的,这样就可以学到最佳配置。文中作者提供了经验性的证据,证明适当地约束感受野可以减少 vision transformers 的训练数据量。在 Cifar100 上,ViT-P 基础模型达到了从头开始训练的最先进的准确性(83.16%)。在ImageNet上进行了分析,表明该方法在大数据集上不会失去准确性。

已开源:https://github.com/freder-chen/vitp

论文:https://arxiv.org/abs/2203.02358

开源论文代码分享

行人检测ICPR 2022

F2DNet: Fast Focal Detection Network for Pedestrian Detection

凯撒斯劳滕工业大学&DFKI GmbH

两阶段检测器在目标检测以及行人检测方面是最先进的。然而,目前的两阶段检测器是低效的,因为它们在多个步骤中进行边界盒回归,即在 region proposal networks 和 bounding box heads 中。此外,基于锚的 region proposal networks 的训练也很昂贵。

本次工作提出 F2DNet,一种新型的两阶段检测架构,通过用 focal detection network 取代 region proposal network,用 fast suppression head 取代 bounding box head,消除当前两阶段检测器的冗余性。在顶级行人检测数据集上对F2DNet进行了基准测试,将其与现有的最先进的检测器进行了比较,并进行了跨数据集评估,以测试该模型对未见过的数据的通用性。

F2DNet 在单一数据集上训练时,在 City Persons, Caltech Pedestrian, Euro City Person数据集上分别实现了8.7%、2.2%和6.1%的MR-2,在 Caltech Pedestrian 和 City Persons 数据集的严重遮挡设置下,使用渐进式微调时,达到了20.4%和26.2%的MR-2。此外,与目前最先进的技术相比,F2DNet的推理时间明显缩短。

已开源:https://github.com/AbdulHannanKhan/F2DNet

论文:https://arxiv.org/abs/2203.02331

开源论文代码分享

co-speech motion generation

Freeform Body Motion Generation from Speech

中国科学技术大学&京东

人们在演讲时自然而然地进行自发的身体动作,来使演讲更加生动。由于从演讲到身体动作的 non-deterministic mapping(非确定性映射),从演讲中产生身体动作本身就很困难。大多数现有的工作都是通过对某些风格进行调节,以确定的方式将语音 map 到动作,从而导致次优的结果。受语言学研究的启发,作者将 co-speech motion(共鸣运动)分解为两个互补的部分:pose modes(姿势模式)和 rhythmic dynamics(节奏动态)。因此,引入一个新的自由运动生成模型(FreeMo),配备一个双流结构,即一个用于主要姿势生成的姿势模式分支和一个用于节奏动态合成的节奏运动分支。一方面,在语音语义的指导下,通过隐空间的条件取样生成各种姿势模式。另一方面,有节奏的动态与语音语调保持同步。

广泛的实验表明,在运动多样性、质量和与语音同步方面,与几条基线相比,性能更加优越。

已开源:https://github.com/TheTempAccount/Co-Speech-Motion-Generation

论文:https://arxiv.org/abs/2203.0229

主题测试文章,只做测试使用。发布者:觉鸟网,转转请注明出处:https://www.jueniao.cn/n/20769.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022年6月11日 09:47
下一篇 2022年6月11日 09:49

相关推荐

  • YC撤出中国

    作者:王倩 印度将在下一个阶段占据YC投资的重心。 11月21日,YC宣布从中国撤退,撤销原由陆奇带领的中国分支。这距离它进驻中国仅仅一年零三个月的时间,而就在4天,YC中国还带领22家创业公司进行了路演。 撤出中国,YC的下一站在哪里?答案是印度。 2005年成立以来,声名卓著的硅谷创业加速器Y Combinator(YC)第一次来到了印度。前不久,YC在…

    2022年6月15日
    3900
  • 中国科学院自动化研究所

    中国科学院自动化研究所(Institute of Automation,Chinese Academy of Sciences)成立于1956年10月,是中国最早成立的国立自动化研究机构。1968年,自动化所整建制划入空间技术研究院,更名为空间控制技术研究所,番号中国人民解放军第五○二研究所。1970年,根据自动化学科技术发展的需要,中国科学院重建自动化研究…

    2022年6月25日
    2700
  • 嵌入式人工智能—机器学习以“生态+集成+定制”差异化发展

    随着嵌入式处理器的能力不断提升,超小型化的硬件加速器不断被引入,以及原厂及商业的开发环境和工具不断出现,嵌入式人工智能/机器学习(AI/ML)技术在近几年得到了快速的发展。同时因为这些技术与千姿百态的各种应用需求十分贴近,因此正在进入差异化发展的新空间,未来其增长速度将可以比肩甚至超过需要强大资源体系的、立足良好通信条件的和基于云的人工智能应用。 人工智能并…

    智能科技 2022年6月17日
    4200
  • 北京银行加速数字化转型普惠金融“贷”动小微企业驶入高速路

    北京银行大厦。 目前,中国市场主体已超过1.5亿户,其中小微企业和个体工商户就超过1.2亿户,他们是我国经济活动的主要参与者、就业机会的主要提供者、技术进步的主要推动者,也是国家发展的宝贵财富和人民幸福的重要依托。 而普惠金融则似一泓清泉,成为小微企业发展的源头活水。在当前背景下,如何更好为广大小微企业纾困解难,已经成为中国经济实现稳中求进的关键所在。 北京…

    2022年6月18日
    3200
  • 乐视智能电视开机广告案终审落槌,法院认为构成侵权

    澎湃新闻记者 陈卓 历时2年,全国第一起因开机广告涉嫌侵犯消费者权益提起的公益诉讼,获得终审宣判。 澎湃新闻(www.thepaper.cn)从江苏省消保委获悉,江苏省高级人民法院驳回被告乐融公司的上诉,依法维持原判,支持江苏省消保委的诉讼请求。 事情回溯到2年前,2019年7月起,江苏省消保委开展针对智能电视开机广告专项整改行动,对存在开机广告且不能关闭的…

    智能科技 2022年6月11日
    3300

发表回复

您的电子邮箱地址不会被公开。

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信