![](https://www.265xx.com/res/images/mobile.png)
“卖铲人”也坐不住了!英伟达发布视频 AI 大模型论文 有望深度赋能自动驾驶
《科创板日报》4 月 21 日讯(编辑 邱思雨) 近日,英伟达与慕尼黑大学等院校的研究人员联合发布了一篇有关视频潜在扩散模型(VideoLDM,Latent Diffusion Model)的论文,该模型能够将文本转换成视频,实现高分辨率的长视频合成。相关论文已经发表在预印本网站 arXiv 上。
研究人员给出 " 一个泰迪熊正在弹电吉他、高清、4K" 等文本提示词后,运用 VideoLDM,成功生成了相关视频(已转为 GIF 格式):
目前,VideoLDM 生成视频的最高分辨率可达 2048 × 1280、24 帧。研究团队仅公布了论文和一些成品视频案例,暂未开放试用。
据介绍,相对来说,该模型对于训练和计算的要求较低。在文字大模型、文生图大模型发展迅速的当下,受限于视频训练数据的计算成本高昂以及缺乏大规模公开可用的数据集等原因,视频大模型的发展相对较慢。VideoLDM 则成功解决了这个关键问题。
从原理上来分析,VideoLDM 基于图像数据集预训练,并在此基础上加入时间维度以形成视频框架,最后在编码的视频序列上进行微调,得到视频生成器。
为进一步提高分辨率,研究人员从时间维度将其与扩散模型 upsamplers 对齐,并与真实视频对比验证,从而将其转换为时间一致的视频超分辨率模型。
此外,研究人员还微调了 Stable Diffusion,将其转换为视频生成器。他们通过对 Stable Diffusion 的空间层进行简单微调,然后插入时间对齐层,从而实现了视频的生成。
落实到应用层面,研究人员给出了两大具有潜力的应用领域:一是驾驶数据的高分辨率视频合成,能够模拟特定驾驶场景,在自动驾驶领域中具有巨大的应用潜力;二是创意内容的生成。
在论文中,团队给出了几个驾驶场景视频的生成案例:
目前,在自动驾驶领域,AI 大模型被认为能够赋能感知标注、决策推理等环节。
华泰证券分析师黄乐平、陈旭东等于 4 月 13 日发布研报指出,AI 大模型有望解决行业数据标注准确率及成本困境。该机构以 DriveGPT 为例进行分析,大模型能够将交通场景图像的标注费用从行业平均约 5 元 / 张降至约 0.5 元 / 张。
与此同时,机构还认为大模型将赋能场景生成、轨迹预测、推理决策等环节,能够根据驾驶场景序列数据,生成未来可能发生的多种驾驶环境并预测每种情况下车辆行驶轨迹。国泰君安亦指出AIGC 将有助于自动驾驶的推进落地。
上一篇:你见过最奇葩的老师是什么样的?
下一篇:春秋俄语语法|形容词比较级(3)
最近更新教育平台
- 河南出台28个重点产业链行动方案
- 玉林工务段聚力抗击台风“三巴”保障安全
- 2023下半年广西英语四级考试时间具体安排
- 【邀请函】11月29日,北京物资学院2024届毕业生秋招校园双选会(第三场)
- “超级稻”亩产809公斤!江苏省第一家水韵苏米“三品一标”示范基地诞生
- 北京市第八中学京西附属小学 院士开讲“太阳风暴”向学生发出科研“邀请”
- 多地高考报名时间提前 专家:考生把握好自己的学习节奏
- 光谷一街道就业超市开17家“连锁店”,专为60、70后待岗居民“供货”
- 思政有深度,育人有温度——郑州市第四十七中学管城三中校区开展中小学“思政一体化”
- 创新风潮迭起,2023深圳国际金融科技大赛——西丽湖金融科技大学生挑战赛正式启动
- 一图读懂丨上海松江新城“十四五” 规划出炉
- 美国众议院选举第二轮投票依旧无果 众议院仍处混乱状态
- [浦东]竹园小学:长岛|弘扬科学精神,X沪东“科堂”公益科普活动激发科学梦想
- 导读:郑州妇科医院排名公布
- 第六届进博会期间,上海部分道路和区域采取临时交通管制措施
- 热搜第一,王楚钦深夜发声!
- 成人自考本科通过率高吗?
- 打造雄安家门口的名校名院 “三校一院”平稳运行
- 弘一法师李叔同的《送别》:城南草堂结下天涯五友,挚友阔别留下传世之曲
- 早参|神舟十七号瞄准今日11时14分发射;2024年广州中考报名准备工作开启
- 人社部回应身份证和档案年龄不同退休依据哪个算
- 新银发族“求知若渴” 老年大学如何满足?
- 女子结婚要求前同事还礼400引热议,当事人:发了两次请帖,对方一直不理,后来还说
- 教师批学生对日不当称谓:怒拍桌子给学生们上了一课
- 英伟达将与鸿海共建AI工厂,涉及智能电动汽车、自主移动机器人等项目