NVIDIA 展示视觉 AI 领域的最新进展
NVIDIA 展示视觉 AI 领域的最新进展

NVIDIA 展示视觉 AI 领域的最新进展

本周在西雅图举行的计算机视觉与模式识别(CVPR)会议上,NVIDIA的研究人员正在展示新的视觉生成AI模型和技术。这些进展涵盖了定制图像生成、3D场景编辑、视觉语言理解和自动驾驶车辆感知等领域。

“NVIDIA的学习与感知研究副总裁 Jan Kautz 表示:“人工智能,特别是生成式AI,代表了一个关键的技术进步。”

“在CVPR上,NVIDIA研究展示了我们如何突破可能的边界 —— 从可以为专业创作者提供强大动力的图像生成模型,到可能帮助实现下一代自动驾驶汽车的自动驾驶软件。”

在50多个NVIDIA研究项目中,有两篇论文入选CVPR最佳论文奖的决赛——一篇探讨扩散模型的训练动态,另一篇关于自动驾驶车辆的高清地图。

此外,NVIDIA赢得了CVPR自动驾驶大挑战赛的端到端大规模驾驶赛道,超过全球450多个参赛作品。这一里程碑标志着NVIDIA在利用生成AI开发全面自动驾驶车辆模型方面的开创性工作,并获得了CVPR的创新奖。

其中一个主要研究项目是JeDi,这是一项新技术,允许创作者快速定制扩散模型(文本到图像生成的领先方法),仅使用几个参考图像即可描绘特定对象或字符,而无需在自定义数据集上进行耗时的微调。

另一项突破是FoundationPose,这是一种新的基础模型,可以立即理解和跟踪视频中物体的 3D 姿势,而无需对每个物体进行训练。它创下了新的性能记录,并可能解锁新的 AR 和机器人应用。

NVIDIA 研究人员还推出了 NeRFDeformer,这是一种使用单个 2D 快照编辑神经辐射场 (NeRF) 捕获的 3D 场景的方法,而不必手动重新制作更改或完全重新创建 NeRF。这可以简化图形、机器人和数字孪生应用的 3D 场景编辑。

在视觉语言方面,NVIDIA 与麻省理工学院合作开发了VILA,这是一系列新的视觉语言模型,在理解图像、视频和文本方面取得了最先进的性能。凭借增强的推理能力,VILA 甚至可以结合视觉和语言理解来理解互联网模因。

NVIDIA的视觉AI研究涵盖了多个行业,包括探索用于自动驾驶车辆感知、地图制作和规划的新方法的十多篇论文。NVIDIA的AI研究团队副总Sanja Fidler 介绍了视觉语言模型在自动驾驶汽车中的潜力。

NVIDIA在CVPR的广泛研究展示了生成式AI如何赋予创作者力量,加速制造业和医疗保健中的自动化进程,同时推动自主性和机器人技术的发展。