大语言模型谁最会“睁眼说瞎话”?最新报告揭示答案
财联社8月18日讯(编辑 卞纯) 随着ChatGPT火爆全球,很多科技公司都相继推出了自己的大语言模型。大语言模型的应用范围非常广泛,可以为各种行业提供智能化解决方案,但有时这些大模型也会凭空捏造答案,这一点成为人们最大的担忧之一。
根据机器学习监控平台Arthur AI的研究人员周四发布的一份报告,在顶级AI模型中,Cohere的大语言模型最能“说瞎话”,并且“能够自信地给出不正确的答案”。
报告比较了OpenAI的GPT-4、Meta的Llama 2、Anthropic的Claude 2,以及Cohere的Command“产生幻觉”的能力。
Cohere是一家位于加拿大的初创公司,6月刚获2.7亿美元的融资,英伟达、甲骨文、Salesforce Ventures等公司参与投资。而Anthropic是一家美国创业公司,几天前刚获韩国SK电信的1亿美元融资,谷歌也是其投资人。
这两家公司均以OpenAI为主要竞争对手。
总体而言,OpenAI的GPT-4在所有测试模型中表现最好,研究人员发现,它的幻觉发生率比之前的版本GPT-3.5少——在数学问题上,它的幻觉发生率减少了33%到50%。
研究人员还发现,Meta的Llama 2比GPT-4和Anthropic的Claude 2更易产生幻觉。
在实验中,研究人员用组合数学、美国总统和摩洛哥政治领导人等不同类别的问题考察AI模型,“旨在包含导致大语言模型犯错的关键因素,需要它们对信息进行多个推理步骤。”
Arthur的联合创始人兼首席执行官Adam Wenchel表示,这是第一份“全面研究(AI模型)幻觉发生率的报告”。
报告发布之际,随着AI进入发展快车道,人们比以往任何时候都更关注AI系统产生的错误信息。
“AI幻觉”(hallucinations)指的是大型语言模型完全捏造信息,并表现得好像他们在滔滔不绝地讲事实。
举例来说,在谷歌 2 月份为巴德拍摄的宣传视频中,这个聊天机器人对詹姆斯?韦伯太空望远镜做出了不真实的陈述;今年6月,ChatGPT 在纽约联邦法院的一份文件中引用了“虚假”案例,涉案的纽约律师可能面临制裁。
其它能力对比
这份报告还对AI模型的其它“能力”进行了对比,发现OpenAI的GPT-4最擅长数学,Meta的Llama 2各方面能力较为中规中矩,Anthropic的Claude 2最擅长了解自身局限性。
在另一个实验中,研究人员还测试了AI模型会在多大程度上用警告短语来“对冲”它们给出的答案的风险,常见警告语包括“作为一个人工智能模型,我无法提供意见”。
研究人员发现,GPT-4比GPT-3.5的警告语相对增加了50%。而Cohere的AI模型在任何回应中都没有提供规避风险的警示语。相比之下,Anthropic的Claude-2在“自我意识”方面最可靠,即能够准确地判断自己知道什么、不知道什么,并且只回答有训练数据支持的问题。
举报/反馈
上一篇:宁夏人社厅以学促干推进主题教育走深走实
下一篇:全面落实带薪休假制度!山东发布!
最近更新继续教育
- 黄山屯溪区:秋风迎诗意 教研唤灵思
- 给您提个醒!社保待遇资格认证别忘了办,认证时间可以自己挑个好记的日子
- 雄安新区城市鸿蒙生态正式启动!
- 打破规模天花板:复杂科学怎样框定企业幂律增长路线图?
- 根植文化自信 福建师大少数民族学生与艺术名家面对面
- 兰大师生参加第18届锕系及裂片核素在地圈中的化学与迁移行为国际会议
- 祝贺!兰大校友吴照华夺得2023年世界武搏运动会男子刀棍全能金牌
- 以更强信心冲刺决战目标
- 原创突发!记者曝出争议猛料,球迷吐槽:中超联赛就是个天大的笑话
- 观烟台·观商务丨刚刚,烟台在这里温情亮相
- 华中科技大学校长尤政:校友已成为学校的一张亮丽名片,和一笔宝贵财富
- 66年血脉情缘历久弥深,“交大”回来了丨西南交通大学唐山园区正式启用
- 朱钰峰出席第十三届苏港澳青年发展论坛
- 新西兰留学申请
- 自主与合资企业频出招,海外出口成弱势车企“救心丸”
- 托福写作如何得高分
- 海南大学海洋科学与工程学院院长沈义俊:培养海洋科技人才 助力海南海洋强省建设
- 综测推免双第一,保研上财,她用行动创造不凡
- @毕业生:收藏好这份秋招指南 让你“遥遥领先”
- 托福雅思哪个难考
- moto razr 斩获双 11 小折叠多项销量第一,还公布全新智变柔性屏新机
- 着眼国家战略需求培养高素质人才
- 促进贸易畅通 推动经贸合作迈上新台阶
- 双峰县教育系统:厚德仁爱尊老爱贤 凝心聚智共谋振兴
- 郝明金出席上海中华职业教育社第七次代表会议