香港中文大学MMLab在读博士刘吉豪：面向BEV感知与几何理解的视觉骨架预训练

栏目：教育资源时间：2023-08-26

　　自动驾驶新青年讲座」由智东西公开课企划，致力于邀请全球知名高校、顶尖研究机构以及优秀企业的新青年，主讲在环境感知、精准定位、决策规划、控制执行等自动驾驶关键技术上的最新研究成果和开发实践。

　　「自动驾驶新青年讲座」目前已完结 20 讲，错过往期讲座直播的朋友，可以点击文章底部 "阅读原文" 进行回看！

　　有兴趣分享的朋友，可以与智东西公开课教研团队进行邮件（class@zhidx.com）联系。

　　在自动驾驶领域，由于单模态数据的感知存在固有缺陷，基于多模态的融合感知技术已成为了众多自动驾驶企业及团队研究的核心之一。但由于 LiDAR 容易受极端天气的影响，且与相机相比价格昂贵，因此没有被广泛采用。然而，相机捕捉的 2D 图像和 LiDAR 3D 点云特征之间仍存在较大差异，基于多视角相机的 3D 目标检测依然是一个具有挑战性的问题。

　　基于自监督、多模态数据的通用预训练方法能够尽可能多的学习到通用先验知识，通过微调实现知识迁移。它能够显著降低下游任务对标注数据的依赖，提高模型在小数据集上的泛化能力。这类方法在 2D 感知任务上取得了显著进展，但在基于视觉的 BEV 感知模型方面还尚未获得更多关注。

　　针对这一问题，香港中文大学多媒体实验室 ( MMLab ) 在读博士刘吉豪等研究人员详细对比了现有的预训练算法在基于视觉的 BEV 感知模型上的表现，提出了一种基于几何增强的图像掩码预测算法 GeoMIM，来增强视觉模型的 BEV 感知和几何理解能力。通过掩码预测将 LiDAR 所蕴含的丰富几何表征迁移到视觉模型中。经过预训练的视觉模型可广泛应用于各种 3D 检测、分割等下游任务，并且在不同的数据集间具有可迁移性。GeoMIM 算法相关成果的论文收录在 ?ICCV 2023上。

　　8 月 25 日 10 点，「自动驾驶新青年讲座」第 21 讲邀请到论文一作、香港中文大学在读博士刘吉豪参与，主讲《面向 BEV 感知与几何理解的视觉骨架预训练》。

　　讲者

　　刘吉豪，香港中文大学电子工程系，多媒体实验室 ( MMLab ) 在读博士，师从李鸿升教授。主要研究方向为基于自监督、多模态的视觉基础模型预训练。在 ICCV、CVPR、ECCV 等会议上发表多篇论文，曾获得 LFR Challenge 第一名，NIST FRVT 第一名。

　　第 21 讲

　　主题

　　《面向 BEV 感知与几何理解的视觉骨架预训练》

　　提纲

　　1、2D 感知模型预训练算法及其在 BEV 感知上的应用

　　2、利用激光雷达网络的 BEV 知识蒸馏算法研究

　　3、面向几何理解下游任务的表征预训练算法 GeoMIM

　　4、结合 GeoMIM 预训练模型的下游应用

　　直播信息

　　直播时间：8 月 25 日 10：00

　　直播地点：智东西公开课知识店铺

　　成果

　　论文标题

　　《Towards Better 3D Knowledge Transfer via Masked Image Modeling forMulti-view 3D Understanding》

　　论文链接

　　https://arxiv.org/abs/2303.11325

上一篇：这些青年科技工作者挑大梁、担重任、当主角
下一篇：八大专项行动推动高质量发展

香港中文大学MMLab在读博士刘吉豪：面向BEV感知与几何理解的视觉骨架预训练

最近更新教育资源