OpenAI 带来 GPT-4，AI 比“做题家”更会考试

栏目：教育管理时间：2023-03-20

　　OpenAI 的聊天机器人 ChatGPT 在过去数月间，用近乎于人类的表现在科技圈掀起了一阵人工智能浪潮，大洋两岸的无数人更是为之倾倒。然而就在大家沉迷于 ChatGPT 时，北京时间 3 月 15 日凌晨，OpenAI 方面在预热许久后带来了新一代的多模态大模型 GPT-4，为 ChatGPT 的热潮又添了一把火。

　　在 OpenAI 官网公布的 GPT-4 技术文档中，前言部分是这样形容它的，" 我们已经创建了 GPT-4，这是 OpenAI 扩大深度学习努力的最新里程碑。GPT-4 是一个多模态大模型（接受图像和文本输入，文本输出），虽然它在许多现实世界的场景中不如人类，但在各种专业和学术基准上表现出人类水平的性能。"

　　咋一看，GPT-4 似乎并没有那么强大。相比于上一代的 GPT-3，GPT-4 的升级主要在于识图能力，文字输入的限制则提升至 2.5 万字，回答准确性也显著提高，能够生成歌词、创意文本，并实现风格的变化。只不过在技术文档中，OpenAI 展示了一个无限接近人类的 AI 系统。

　　GPT-4 到底有多么智能，OpenAI 为了向外界解释了这个问题，并没有扯太多的专业术语、也没有 " 不服跑个分 "，而是用了绝大多数人都亲身经历过的考试。在被称为 " 美国高考 " 的 SAT 考试中，GPT-4 在满分 1600 分的测试中拿到了 1410 分，而在美国律师资格考试 Uniform Bar Exam 和法学院入学考试 LSAT 中，得分则更是高于 88% 的应试者。

　　GPT-4 的做题能力到底有多强呢？在面对一道巴黎综合理工学院的物理题时，GPT-4 按照非常标准的分步解题步骤，拆解了整个问题，最终一步步推导出结果。如果抛开速度的差异，GPT-4 真的就像大学生一样在做试题，实现了类似人类的视觉感知到语义理解，再到逻辑推理的一整套流程。

　　如果说 OpenAI 举例的这一系列考试对于国内用户太远，那么 GPT-4 相比于基于 GPT-3.5 的 ChatGPT 还有一个质的飞跃，那就是可以处理图像了，也就是说它能够理解图片的内容。比如说在 OpenAI 方面公布的 DEMO 中，GPT-4 不仅可以解释图片中的笑话、能写出符合格律的诗作，更可以根据草稿纸上的一张草图，仅 10 秒就将草图变成与之相对应的网站。

　　不仅如此，GPT-4 还能完成复杂的报税工作，并附带完整的计算过程和条款解释，还有网友用 GPT-4 针对骚扰电话写律师函，甚至用 GPT-4 直接生成一个简单的游戏。

　　其中从这里就不难看出 OpenAI 的野心，那就是 GPT-4 不仅仅是一个简单的聊天机器人，而是能在真正的生产力场景中用 AI 为人类赋能。

　　用英伟达 AI 科学家 Jim Fan 的说法，"GPT-4 可以全靠自己考进斯坦福了 "。图灵奖得主、" 深度学习之父 "Geoffrey Hinton 也对 GPT-4 赞叹不已，并表示，" 毛虫吸取了营养之后，就会化茧为蝶。而人类提取了数十亿个理解的宝藏，GPT-4 就是人类的蝴蝶。"

　　尽管 GPT-4 的表现足够惊艳，但它依然没能摆脱 " 满嘴跑火车 " 这一现象。在 OpenAI 的内部对抗性真实性评估中，GPT-4 的得分比 ChatGPT 此前使用的 GPT-3.5 高出 40%，但 GPT-4 一样也会出现编造事实的情况，也就是会一本正经的胡说八道，比如给出完全不存在的网址。

　　OpenAI 方面对此也毫不避讳，"GPT-4 仍有许多已知的局限性，我们正在努力解决，比如社会偏见、幻觉和对抗性提示。"

　　并且值得一提的是，在可控性方面，GPT-4 则有了长足的进步。此前在应用了 ChatGPT 相关技术的新版 Bing 上，出现了在部分情况下会侮辱用户、撒谎等行为，甚至还会故意撒谎、侮辱用户或是情绪化操纵人类，以至于微软方面不得不限制用户每天的对话次数。按照 OpenAI 方面的说法，GPT-4 的训练在去年 8 月、也就是 ChatGPT 上线之前就已经完成，这半年的时间都用来对 AI 模型多个方面特征的控制。

　　OpenAI 在技术文档中解释到，GPT-4 在 RLHF（基于人类反馈的强化学习）训练中加入了一个额外的安全奖励信号，通过训练模型拒绝对此类内容的请求，来减少有害的输出。并透露，" 与 GPT-3.5 相比，它对不允许内容的请求做出回应的可能性低了 82%。"

　　至于说 GPT-4 是否会冲击到现有的人类工作，答案是未来或许确实有这种可能性，但现在还不至于会让一部分人失业。毕竟，成本制约了 GPT-4 的发挥。来自 OpenAI 的价目表显示，GPT-4 的 API 价格为 0.02 美元 /1000token（约 750 英文单词或 500 汉字），而已经被用户吐槽很贵的 ChatGPT-turbo 则还要便宜十倍。

　　当然，相信绝大多数吃瓜群众最关心的话题，是我们现在能用上 GPT-4 吗？答案是可以的、但有代价，现在 OpenAI 仅向花费 20 美元订阅了 ChatGPT Plus 版本的用户提供 GPT-4。但除了直接给 OpenAI 付钱外，有能力的用户还可以选择打工的方式去 GitHub - openai/evals 参与测试，提交高质量反馈来获得访问权限。

　　但如果既不想花钱、又不愿花时间，那么使用微软的新版 Bing 就是最简单的方式了。没错，微软已经发布新版 Bing 就已经就用上了 GPT-4，要不当时微软的说法为什么是 " 基于类 ChatGPT 技术 "，

　　【本文图片来自网络】

上一篇：随锐瞩目小贴士：视频会议也能支撑线上考试
下一篇：网课时代，让数据更安全 CFCA护航教育行业数字化发展

OpenAI 带来 GPT-4，AI 比“做题家”更会考试

最近更新教育管理