斯坦福大学研究发现,AI 聊天机器人 ChatGPT 的表现很不稳定
IT之家 9 月 7 日消息,斯坦福大学的一项新研究发现,热门生成式人工智能(AI)聊天机器人 ChatGPT 的能力在几个月内有所波动。
斯坦福大学的团队评估了 ChatGPT 在几个月内如何处理不同的任务。他们发现,ChatGPT 的能力随时间的推移而出现了不一致。目前,ChatGPT 有两个版本 —— 免费的 GPT-3.5 模型和更智能、更快速的付费 GPT-4 版本。 研究人员发现,GPT-4 在 3 月份能够有效地解决数学问题,识别质数的准确率为 97.6%。三个月后,其准确率下降到了 2.4%。而另一方面,GPT-3.5 却变得更好,从 7.4% 的准确率提高到了 86.8%。
研究人员还注意到,在编写代码和视觉推理方面也有类似的波动。斯坦福大学计算机科学教授 James Zou 称:“当我们调整一个大型语言模型来提高它在某些任务上的表现时,那可能会有很多意想不到的后果,可能会损害这个模型在其他任务上的表现…… 这个模型回答问题的方式有各种各样的相互依赖性,这可能导致我们观察到的一些恶化行为。”
研究人员认为,结果并不能真正反映 ChatGPT 性能的准确性状态,而是显示了微调模型带来的意外后果。本质上,当修改模型的一部分来改善一个任务时,其他任务可能会受到影响。为什么会这样很难确定,因为没有人知道 ChatGPT 是如何运作的,而且它的代码也不是开源的。
随着时间的推移,研究人员注意到,ChatGPT 的回答不仅变得不太准确,而且还停止了解释其推理过程。
由于 ChatGPT 的运作方式,要研究和衡量它的表现可能很困难,这项研究强调了观察和评估驱动 ChatGPT 等工具的大型语言模型(LLM)性能变化的必要性。该研究已经在 arXiv 上发布,并正在等待同行评审,IT之家附链接在此。
举报/反馈
上一篇:刚刚!福建理工大学正式揭牌!
下一篇:禹州市苌庄镇:讲好思政课 培育接班人
最近更新教育培训
- 丰林县:打好“组合拳” 稳岗促就业
- 进城务工人员随迁子女可在北京参加高职招考!今天17时截止——
- 政策|促进负责任创新与隐私保护:《科技伦理审查办法(试行)》解读
- 湖北教育行业微信9月TOP30榜:“湖北民族大学”等8个账号新晋榜单
- 晒课堂常规 看星湖学校促师生习惯养成
- “乡”味浓浓,侨后代千里返乡学潮菜
- 房车资讯:房车买个什么车好?正犹豫的你,请收下本篇测评!
- 张家界市总工会女职工芙蓉公益讲堂送课到永定区教师进修学校
- 广东2024年普通高考报名百问百答(一)
- “首批二孩”集中入学 看银川如何从容应对
- 【理通三迤】好品德造就干部好风尚
- 长春职业技术学院探索职教援外新路径
- 排名公开:贵阳精神病医院2023排名10月详情榜单
- 亳州教师勇救落水青年 彰显师者大爱
- 贵州省2023年下半年高等教育自学考试考前提示
- 10月17日起,贵州省2023年度全国社会工作者职业资格证书(纸质)可以领取啦!
- 四川北川:“羌山领头羊”计划让中学生成为科学实验的“研究者”
- 山东代表寄语妇女十三大丨刘莉:让巾帼之力在乡村振兴路上更加出彩
- “只要有孩子来读书,我就不会放弃”
- 原创国乒世界排名洗牌!王楚钦3项第1,张本智和暴跌,马龙第3难保
- 68125亿元!同比增长6%!山东前三季度“成绩单”出炉
- 文教融合共创未来
- 生态环境部、市场监管总局联合发布《温室气体自愿减排交易管理办法(试行)》
- 约老师轰22+12+7,掘金险胜灰熊!罗斯梦回巅峰,穆雷只打关键球
- 定档12月31日!2023深圳宝安马拉松报名今日开启