剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态
机器之心专栏
机器之心编辑部
近日,来自剑桥、NAIST 和腾讯 AI Lab 的研究者推出了一款名为 PandaGPT 的跨模态语言模型,展示了在人工智能领域的创新尝试。通过结合 ImageBind 的模态对齐能力和 Vicuna 的生成能力,同时实现了六种模态下的指令理解与跟随能力。虽然 PandaGPT 的效果尚有提升空间,但展示了跨模态 AGI 智能的发展潜力。
来自剑桥、NAIST 和腾讯 AI Lab 的研究者近期发布了一项名为 PandaGPT 的研究成果,这是一种将大型语言模型与不同模态对齐、绑定以实现跨模态指令跟随能力的技术。PandaGPT 可以完成诸如生成详细的图像描述、根据视频编写故事以及回答关于音频的问题等复杂任务。它可以同时接收多模态输入,并自然地组合它们的语义。
项目主页: https://panda-gpt.github.io/
代码: https://github.com/yxuansu/PandaGPT
论文: http://arxiv.org/abs/2305.16355
线上 Demo 展示: https://huggingface.co/spaces/GMFTBY/PandaGPT
为了实现图像 & 视频、文本、音频、热力图、深度图、IMU 读数六种模态下的指令跟随能力,PandaGPT 将 ImageBind 的多模态编码器与 Vicuna 大型语言模型相结合(如上图所示)。
为了使 ImageBind 的多模态编码器和 Vicuna 的大型语言模型的特征空间对齐,PandaGPT 使用了组合 LLaVa 和 Mini-GPT4 发布的共 160k 基于图像的语言指令跟随数据作为训练数据。每个训练实例包括一张图像和相应一组多轮对话。
为了避免破坏 ImageBind 本身的多模态对齐性质和减少训练成本,PandaGPT 只更新了以下模块:
在 ImageBind 的编码结果上新增一个线性投影矩阵,将 ImageBind 生成的表示转换后插入到 Vicuna 的输入序列中;
在 Vicuna 的注意力模块上添加了额外的 LoRA 权重。两者参数总数约占 Vicuna 参数的 0.4%。训练函数为传统的语言建模目标。值得注意的是,训练过程中仅对模型输出对应部分进行权重更新,不对用户输入部分进行计算。整个训练过程在 8×A100 (40G) GPUs 上完成训练需要约 7 小时。
值得强调的是,目前的 PandaGPT 版本只使用了对齐的图像 - 文本数据进行训练,但是继承了 ImageBind 编码器的六种模态理解能力(图像 / 视频、文本、音频、深度度、热量图和 IMU)和它们之间的对齐属性,从而具备在所有模态之间跨模态能力。
在实验中,作者展示了 PandaGPT 对不同模态的理解能力,包括基于图像 / 视频的问答,基于图像 / 视频的创意写作,基于视觉和听觉信息的推理等等,下面是一些例子:
图像:
音频:
视频:
与其他多模态语言模型相比,PandaGPT 最突出的特点是它能够理解并将不同模态的信息自然地组合在一起。
视频 + 音频:
图像 + 音频:
总结
作者们也总结了目前 PandaGPT 的诸多问题以及未来的发展方向。尽管 PandaGPT 在处理多种模态及其组合方面具有惊人的能力,但仍有多种方法可以极大程度的提升 PandaGPT 的性能。
PandaGPT 可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力,例如利用 ASR 和 TTS 数据来进行音频 - 文本模态的模态理解和指令跟随能力。
文本以外的其他模态仅仅使用了一个 embedding 向量进行表示,导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究,如跨模态注意力机制,可能有助于提高性能。
PandaGPT 目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个 AIGC 统一到同一个模型之中,即一个模型同时完成图像 & 视频生成、语音合成、文本生成等任务。
需要新的基准测试来评估多模态输入的组合能力。
PandaGPT 还可能表现出现有语言模型的一些常见缺陷,包括幻觉、毒性和刻板印象。
最后,作者们强调,PandaGPT 仅仅是一个研究原型,暂时还不足以直接应用于生产环境。
? THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
原标题:《剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态》
阅读原文
上一篇:我市2023年高考各项工作准备就绪
下一篇:让未成年人在蓝天下茁壮成长
最近更新网络教育
- 改善医疗服务 北京今年推出45个医务社工多元培育服务项目
- 德易车金融促成服务,让你不再与心爱的汽车失之交臂
- 华东院青年工程师参与第三届“问道自然”杯职业技能展示大赛载誉而归
- 成人高考没毕业有证书吗 学历作用
- 电大和夜大是什么教学方式呢
- 【引央企 有“冀”策】落户一家央企 壮大一个产业
- “艺·智”讲堂|人文讲堂(第十季第二讲):对联的智慧——例谈创作实践
- 台州市高层次人才交友联谊活动等你来报名!
- 截至9月末 那曲金融机构累计投放绿色贷款4.74亿
- 美媒将30队中锋分6档:火箭申京倒数 湖人浓眉2档 两人共享第1档
- 郑州都市圈致力打造辐射全国、链接全球的中部地区开放高地
- 与冠军同行扬体育精神:执信中学校运会冒雨竞技
- 广州高三要考体育!成绩将影响毕业,选卓越教育高考学校冲刺备考
- 朕匜,人类最古老的法律萌兽——文物里的法律故事①
- 昌乐一中在昌乐县2023年教职工乒乓球比赛中勇夺桂冠
- 凝心聚力 助推医疗保障高质量发展
- “学校家庭社会协同育人”城市模型在山东潍坊发布
- 答应我!金秋有龙江高校才最美!
- 从“网络靶场”驶过 :智能网联车安全测试方法论
- 教育优质均衡发展丨大冶市实验中学教联体让农村课堂“活”起来
- 学法减分20题库及答案,20题库及答案速成,轻松通过学法减分!
- 海外归国青年教师暨第七期骨干教师国情教育研修班顺利开班
- 市域产教联合体助力技术攻关
- 雅思口语历史人物话题
- 【政策解读】加格达奇区民政局惠民惠农财政补贴资金社会保障卡“一卡通”发放政策解读