![](https://www.265xx.com/res/images/mobile.png)
元宇宙建设添利器 Meta 强推视觉大模型 多模态 AI 有望加速发展
《科创板日报》4 月 21 日讯(编辑 宋子乔) 在 AI 大模型竞赛中,Meta 选择重押视觉模型,继推出零样本分割一切的 SAM 后,扎克伯格亲自官宣了重量级开源项目 DINOv2。
据介绍,DINOv2 是计算机视觉领域的预训练大模型,模型参数量是 10 亿级,采用 Transformer 架构,能在语义分割、图像检索和深度估计等方面实现自监督训练,不需微调即可用于多种下游任务,可以被用于改善医学成像、粮食作物生长、地图绘制等。
DINOv2 用于语义分割,将图中每个像素划分类别
DINOv2 用于图像检索,查找与给定图像相关的图
DINOv2 用于深度估计,给出图中物体到镜头的距离信息
DINOv2 有何亮点?
主要体现在两方面——DINOv2 可以为大语言模型提供丰富的图像特征,有助于完善多模态 GPT 应用;其蒸馏成小模型后效果依然优秀,便于在各种边缘场景及本地化落地。
对于前者,Meta 已表示计划将 DINOv2 集成到更大、更复杂的 AI 系统中,作为视觉主干提供丰富的图像特征与大型语言模型进行交互。
国盛证券分析师刘高畅表示,DINOv2 能比用图像文本对做训练的模型得到更丰富的图像特征,这将让整个系统能更好地理解图像,对多模态 AI 的发展起到加速作用。
值得注意的是,多模态技术还能助力游戏内容与元宇宙构造,随着 AR/VR 技术的发展,未来将能构建逼真的虚拟现实。扎克伯格就强调,DINOv2 可以极大地加持元宇宙的建设,让用户在元宇宙中的沉浸体验更出色。
上述分析师大胆预测,1-5 年内,随着多模态的发展带来 AI 泛化能力提升,通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。未来 5-10 年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。
对于边缘场景落地,简单来说是指将大模型移植到移动端或是算力有限的场景。
运行大型的模型需要强大的硬件,这可能会限制模型在 C 端场景的应用,为大模型 " 瘦身 " 成了手机等移动终端运行大模型的前提,其技术路径多样,包括通过剪枝让模型稀疏化、知识蒸馏对模型进行压缩、通过权重共享来减少参数量等。
DINOv2 即采用模型蒸馏的方式,将大型模型的知识压缩为较小的模型,从而降低推理时的硬件要求。据官方介绍,Meta 开源了多个不同参数规模的预训练模型,在相同的规模下比较,DINOv2 在多种测试基准的得分都能优于目前开源视觉模型中表现最好的 OpenCLIP。
Meta 之外,高通、华为等科技巨头也在致力于实现 AI 大模型在终端的轻量化部署,谷歌、腾讯、百度等已将模型压缩技术紧密结合移动端模型部署框架 / 工具。
最近更新教育教学
- 济南将碎片化经验总结提升,创新推出五项地方标准 让学前教育高质量发展有“标准”可
- 拓斯达:三季度实现扣非归母净利润同比增长27.39%,盈利能力持续提升
- “亚运薪火”与“宸星星火”同频共振 中学运动会迎来亚运冠军
- 多地清退编外人员,他们的“编外困局”:有人没资格报考所在岗位,有人因编外经历失去
- 民航局发布《活体动物航空运输工作指南》
- 合肥市淮河路第三小学教育集团映月校区:借数字应用于课堂 创智慧引领于教学
- 促进家校共育 巴蜀蓝湖郡小学开展家校共话成长系列活动
- 云南电网公司充分发挥公司律师四个作用助推企业高质量发展
- 汇聚邻里 共筑幸福丨合肥万科物业2023“朴里节”圆满落幕!
- 中拉跨越大洋高质量共建“一带一路”
- 广东报名自考有什么条件?
- 山东东营:文明宣讲进乡村 勤俭节约树新风
- 初中女生体测时突然心脏骤停……心肺复苏+AED“救了命”!
- 李刚,进京任职
- 1-9月海口港海关共受理“加工增值”试点扩区企业内销报关单404票 合计货值1.
- 重逢雁栖湖畔,国科大校友回家啦!
- 好水才能养好蟹
- 这种“鱼骨线”能变道吗?答案是……
- 今年上半年全球手机CIS传感器出货量20亿:同比下降14%
- 撑一支长蒿,向青草更青处漫溯
- 自考相对容易专业都有哪些?
- 远程“扶智”让优质教育资源“动”起来
- 黄喜灿:能被瓜迪奥拉称赞非常荣幸,新绰号可以向大家多宣传韩国
- AI赋能教育智变
- 同题观点