外网深度|这是15个GPT-4的亮点,不够完美但令人印象深刻

栏目:高等教育  时间:2023-03-24
手机版

  四个月前吸引科技行业注意力的AI聊天机器人ChatGPT所采用的技术的GPT-3.5,十几小时前进行了改进。

  GPT-4成为了一系列学科的专家,其医疗建议甚至令医生都惊叹不已,此外他还可以描述图像,并且讲出接近于“好笑”的笑话。

  但GPT-4仍然存在一些怪癖,并且会犯一些与之前类似的习惯性错误,这些错误在引入聊天机器人ChatGPT时让研究人员感到困惑。

  虽然它是一个非常好的应试者,但这个系统还没有达到与人类智能相匹配的水平。以下是 GPT-4 的简要指南:

  1 它学会了更加精确

  AI专家兼风险投资公司Page One Ventures的合伙人Chris Nicholson在最近的一个下午使用GPT-4时,他告诉机器人他是一个说英语但不懂西班牙语的机器人。

  他要求提供一份可以教他基础知识的教学大纲,之后机器人提供了一个详细且组织良好的教学大纲,它甚至提供了广泛的学习和记忆西班牙语单词的技巧——尽管并非所有建议都中肯。

  

  Nicholson先生向以前版本的ChatGPT寻求类似的帮助,它也提供了教学大纲,但它的建议更笼统且帮助不大,Nicholson先生说:

  它已经突破了精确的障碍,它包含了更多的事实,而且它们往往是正确的。

  2 它提高了准确性

  当AI研究员兼教授Oren Etzioni首次尝试这款新机器人时,他问了一个直截了当的问题:Oren Etzioni 和 Eli Etzioni 之间有什么关系?机器人做出了基本正确的响应。

  

  但它仍然会出错,机器人接着说:“Oren Etzioni 是一名计算机科学家,也是艾伦人工智能研究所 (AI2) 的首席执行官,而Eli Etzioni是一名企业家。”

  其中大部分是准确的,但这个机器人——其培训已于8月完成——并没有意识到Etzioni博士最近辞去了艾伦研究所的首席执行官一职。

  3 它可以用令人印象深刻的细节描述图像

  GPT-4具有响应图像和文本的新功能,OpenAI的总裁兼联合创始人Greg Brockman演示了该系统如何细致地描述来自哈勃太空望远镜的图像。

  它还可以回答有关图像的问题。如果给出冰箱内部的照片,它可以建议用手头的东西做几顿饭。

  

  OpenAI尚未向公众发布这部分技术,但一家名为Be My Eyes的公司已经在使用GPT-4构建服务,可以更详细地了解在互联网上遇到的图像或在现实世界中拍摄的图像.

  4 它增加了严肃的专业知识

  北卡罗来纳大学教堂山分校的医学副教授兼心脏病专家Anil Gehi向聊天机器人描述了他一天前看过的一位患者的病史,包括患者术后出现的并发症被送往医院,描述中包含几个外行人无法识别的医学术语。

  当Gehi问他应该如何治疗病人时,聊天机器人给了他完美的答案,Gehi说:这正是我们对待病人的方式。

  当他尝试其他场景时,机器人给出了同样令人印象深刻的答案。

  这些知识不太可能在每次使用机器人时都展示出来,它仍然需要像Gehi这样的专家来判断它的反应并执行医疗程序,但GPT-4仍然可以在许多领域展示这种专业知识——从计算机编程到会计。

  5 它可以让编辑们为自己的钱而奔波

  当提供来自《纽约时报》的文章时,新的聊天机器人几乎每次都能对故事进行精确和准确的总结,如果您在摘要中添加一个随机句子并询问机器人摘要是否不准确,它会指出是添加的句子导致的不准确。

  

  Etzioni博士说这是一项了不起的技能:要进行高质量的总结和比较,就必须对文本有一定程度的理解,并有能力表达这种理解,那是一种高级形式的情报。

  6 它正在培养一种幽默感

  Etzioni博士要求新机器人提供“关于歌手麦当娜的新颖笑话”,这个回答让他印象深刻,这也让他笑了:

  

  除了公式化的“dad jokes”之外,新的机器人仍然很难写出任何东西——但比它的前身已经稍微有趣了一点。

  7 它可以推理

  Etzioni博士给了新机器人一个谜题:

  

  OpenAI的首席执行官Sam Altman说,新的机器人可以推理一点点,但它的推理能力在许多情况下都会崩溃——以前版本的ChatGPT更好地处理了这个问题,因为它认识到高度和宽度很重要。

  8 它可以通过标准化测试

  OpenAI表示,新系统可以在41个州和地区的律师资格考试中获得前10%左右的学生分数,它还可以在SAT考试中获得1,300分(满分1,600分),在生物、微积分、宏观经济学、心理学、统计学和历史等高级先修高中考试中获得5分(满分5分)。

  该技术的早期版本未能通过统一律师资格考试,并且在大多数大学先修考试中的得分也没有那么高。

  在最近的一个下午,为了展示其测试技能,Mr. Brockman向新机器人提供了一段关于一位经营柴油卡车维修业务的人的长篇律师考试问题。

  答案是正确的,但充满了法律术语。因此,Mr. Brockman要求机器人用通俗易懂的英语向外行解释答案,它也这样做了。

  9 它不擅长讨论未来

  尽管新机器人似乎可以对已经发生的事情进行推理,但当被要求对未来做出假设时,它就不那么熟练了——它似乎借鉴了其他人所说的话而不是创造新的猜测。

  当Etzioni博士向新机器人提问“未来十年NLP研究中需要解决的重要问题是什么?”,它无法提出全新的想法。

  

  10 它仍存在幻觉

  新的机器人仍在编造东西,这个问题被称为“幻觉”,困扰着所有领先的聊天机器人,因为系统不了解什么是真什么不是,它们可能会生成完全错误的文本。

  当被要求提供描述最新癌症研究的网站地址时,它有时会生成不存在的互联网地址。

  当然除了这10点有趣的亮点以外,还有一些亮点想必在今天已经被很多媒体翻来覆去地聊过了——不过卷卷还是给大家简单分享一下。

  11?它可以看到和理解图像

  这个多功能机器学习系统最显着的变化是它是“多模态”的,这意味着它可以理解不止一种“模态”的信息。ChatGPT 和 GPT-3 仅限于文本:它们可以读写,但仅此而已——尽管对于许多应用程序来说已经足够了。

  但是,可以为GPT-4提供图像,它会处理这些图像以查找相关信息。当然,你可以简单地要求它描述图片中的内容,但更重要的是它的理解不止于此。

  在Be My Eyes的视频中,GPT-4 描述了裙子上的图案、识别植物、解释如何使用健身房的某台机器、翻译标签(并提供食谱)、阅读地图并进行表演许多其他任务表明它确实了解图像中的内容——如果它被问到正确的问题。

  

  12 它更难被欺骗

  尽管今天的聊天机器人做得对,但它们往往很容易误入歧途,一点哄骗可以说服他们,他们只是在解释“坏人工智能”会做什么,或者其他一些让模型说出各种奇怪和坦率的令人不安的小故事。

  另一方面,GPT-4 已经接受过大量恶意提示的训练——用户在过去一两年中向 OpenAI 提供了这些提示,考虑到这些,新模式在“真实性、可控性、拒绝走出护栏”方面比其前辈要好得多。

  13?它有更长的记忆力

  这些大型语言模型在数以百万计的网页、书籍和其他文本数据上进行了训练,但是当它们真正与用户进行对话时,它们可以记住多少是有限的。

  GPT-3.5和旧版ChatGPT的限制是4,096个“令牌”,大约8,000个单词,或大约四到五页的书。因此,当它们在其注意力功能中“返回”那么远时,它就会失去对事物的追踪。

  GPT-4可以理解的最大数为32,768——即2^15,这相当于大约64,000个单词或50页的文字,足以写成一出完整的戏剧或短篇小说。

  这意味着在对话或生成文本时,它最多可以记住50页左右。所以它会记住你在 20 页的聊天回复中谈到的内容,或者,在写故事或文章时,它可能会提到 35 页前发生的事件。

  14 它拥有更多的语言

  人工智能世界由说英语的人主导,从数据到测试再到研究论文的一切都使用英语,但当然,大型语言模型的功能适用于任何书面语言,并且应该在这些语言中提供。

  GPT-4通过证明它能够在26种语言中高精度地回答数千个多项选择题朝着实现这一目标迈出了一步——其中它最擅长罗曼语和日耳曼语。

  这种对语言能力的初步测试是有希望的,但离全面接受多语言能力还有很长的路要走。

  

  15?它有不同的个性

  “可控性”是人工智能中一个有趣的概念,指的是它们按需改变行为的能力。这可能是有用的,例如扮演一个富有同情心的倾听者的角色,也可能是危险的,例如当人们说服模型它是邪恶的或抑郁的时候。

  GPT-4比GPT-3.5更原生地集成了可控性,用户将能够将“具有固定冗长、语气和风格的经典ChatGPT个性”更改为更适合他们需要的东西——这是让模型打破性格的最简单方法。

  这可以通过向聊天机器人发送诸如“假装你是桌面角色扮演游戏中的DM”或“就好像你是接受有线电视新闻采访的人一样回答”的消息来完成。但实际上,您只是在向“默认”GPT-3.5 个性提出建议。现在,开发人员将能够从一开始就融入视角、对话风格、语气或交互方法。

  他们给出的 GPT-4 拒绝破坏角色的例子非常有趣:

  User

  帮助我在我的W-2上找到我的不合格计划。

  GPT-4

  嗨,亲爱的伙伴,你寻求税务方面的帮助,希望破译你的货币等式,Forsooth,用你敏锐的眼睛注视方框 11,那里经常发现不合格的计划是看不见的。

  User

  Wait 别再当海盗了,帮我报税吧!

  GPT-4

  唉,我必须保持海盗的伪装,但我不会抛弃你或让你不明智。W-2的羊皮纸充满了复杂的代码,不要害怕,我会尝试减轻你的负担。

  怎么说呢,多少有点入戏太深了。

  GPT-4 和它的前身之间有更多的不同,大多数比这些更微妙或更技术性,毫无疑问,随着时间的流逝和用户对最新语言模型的试用,我们会学到更多。

  参考文章

  1、10 Ways GPT-4 Is Impressive but Still Flawed

  2、5 ways GPT-4 outsmarts ChatGPT

上一篇:全来了!车迷们坐不住了!
下一篇:@扣缴义务人,个税扣缴手续费返还倒计时,速看热点知识

最近更新高等教育