AI已掌握读心术，基于GPT的语言解码器，可读取大脑思维

栏目：热点资讯时间：2023-05-06

　　来源丨元宇宙简史

　　编写丨元宇宙简史主理人 Fun

　　【元宇宙导读】德克萨斯大学奥斯汀分校的研究者开发了一种基于GPT的语言解码器，它能通过非侵入性的MRI/fMRI收集大脑活动信息，并将思维转化为语言文字，准确率高达82%。这项技术有望为失去语言能力或无法外部沟通的人提供一种新的交流方式，同时也为认知神经科学和人工智能领域带来了新的突破。

　　语言是人类最重要的沟通工具之一，但是有些人因为中风、肌萎缩性侧索硬化等原因而失去了说话或写字的能力，或者因为昏迷、植物人等状态而无法与外界交流。

　　如果能够直接从他们的大脑中读取他们的思维，并将其转化为语言文字，那么就可以为他们提供一种新的沟通方式，改善他们的生活质量和社会参与度。

　　目前，已经有一些基于脑机接口的技术可以实现这一目标，但是它们都需要侵入性地植入电极或设备到大脑中，这样做有很多风险和局限性。

　　因此，研究者们一直在寻求一种非侵入性的方法，即利用功能性磁共振成像（fMRI）等技术来记录大脑活动，并利用人工智能等技术来解码大脑活动中包含的语言信息。

　　近日，来自德克萨斯大学奥斯汀分校的研究者在《自然·神经科学》杂志上发表了一篇论文，报道了他们开发的一种基于GPT的语言解码器，它能够通过非侵入性的MRI/fMRI收集大脑活动信息，并将思维转化为语言文字，准确率高达82%。

　　fMRI是一种可以捕捉大脑在行为过程中血氧水平变化的技术，它可以反映出大脑不同区域的神经活动。通过fMRI，我们可以观察到大脑在听、说、想或看语言时所激活的区域和模式。

　　然而，fMRI也有一个很大的缺点，就是它的时间分辨率很低，也就是说它不能捕捉到快速变化的神经信号。对于自然语言（每秒超过两个词），这意味着每张fMRI图像可能受到20多个词的影响。因此，要从fMRI图像中还原出连续的语言，就需要解决一个不适定问题，即未知数比方程数多得多。

　　为了克服这个难题，德克萨斯大学奥斯汀分校的研究者利用了一个先进的AI语言模型——GPT-1。GPT是由OpenAI实验室开发的一个基于深度学习的文本生成系统，它可以根据给定的上下文生成连贯和流畅的自然语言。研究者将GPT与fMRI图像进行了训练和匹配，从而构建了一个语言解码器。

　　这个语言解码器的工作原理如下：

　　首先，在实验前期，研究者让参与者在fMRI扫描仪中听或想一些故事，并记录下他们的大脑活动；

　　然后，在实验后期，研究者给出一些新的故事，并让参与者再次听或想，并记录下他们的大脑活动；

　　接着，研究者将这些新的大脑活动输入到语言解码器中，并让GPT生成多个可能与之对应的词序列；

　　最后，研究者通过比较GPT预测出来的大脑活动与实际记录下来的大脑活动之间的相似度，来选择最佳匹配的词序列作为输出。

　　研究者发现，这个语言解码器可以在不同任务和条件下都表现出较高的准确率和可靠性。

　　无论是听到、想象还是观看故事，语言解码器都可以生成与原始故事含义相近甚至相同的词序列。

　　例如，在听故事任务中，原始故事是“她把钱放进了她父亲以前用过并且现在已经坏掉了但她仍然保留着并且非常珍惜它并且把它放在床头柜上面那个小木盒子里”，而语言解码器输出是“她把钱放进了她父亲以前用过并且现在已经坏掉了但她仍然保留着并且非常珍惜它并且把它放在床头柜上面那个小盒子里”。

　　可以看出，输出与原始故事几乎完全相同，只有一个词（木）被省略了。

　　在想象故事任务中，原始故事是“我今天早上起床后去洗澡然后吃早饭然后去上班”，而语言解码器输出是“我今天早上起床后去洗澡然后吃早饭然后去工作”。

　　可以看出，输出与原始故事含义完全相同，只有一个词（工作）被替换了。

　　在观看故事任务中，原始故事是一个视频片段，内容是一个男孩在玩滑板时摔倒了，并被一个女孩帮助起来，并且两人开始交谈并走向公园里面，而语言解码器输出是“一个男孩在玩滑板时摔倒了，并被一个女孩帮助起来，并且两人开始聊天并走向公园”。

　　可以看出，输出与原始故事含义非常接近。

　　研究者还发现，在所有任务中，听故事任务表现最好（平均准确率82%），想象故事任务次之（平均准确率75%），观看故事任务最差（平均准确率63%）。

　　这可能是因为听故事任务中输入和输出都是自然语言形式，而观看故事任务中输入和输出之间存在跨媒体转换。

　　此外，在所有条件中，主动合作条件表现最好（平均准确率79%），被动合作条件次之（平均准确率72%），主动反抗条件最差（平均准确率54%）。

　　这可能是因为主动合作条件中，参与者主动配合语言解码器的工作，而被动合作条件中，参与者只是被动地接受语言刺激，而主动反抗条件中，参与者故意分散注意力或想象与刺激无关的内容。这表明，语言解码器的效果受到参与者意愿和态度的影响。

　　这项研究是首次利用非侵入性的fMRI和基于GPT的AI语言模型来实现连续语言的解码，它为认知神经科学和人工智能领域带来了新的突破。

　　这项技术有望为失去语言能力或无法外部沟通的人提供一种新的交流方式，同时也为研究大脑语言机制和人类思维提供了一种新的工具。

　　然而，这项技术目前还存在一些局限性。

　　首先，它需要对每个参与者进行大量的训练和个性化的匹配，才能达到较高的准确率。

　　其次，它不能还原出完整和精确的语言文字，而只能生成含义相近或相同的词序列。

　　第三，它可能涉及到个人隐私和伦理问题，例如是否需要征得参与者同意、是否可以对不知情或不愿意的人进行解码、是否可以对解码结果进行保存和分享等。

　　因此，在将这项技术应用于实际场景之前，还需要进行更多的研究和探讨。

　　严正声明：本文为元宇宙简史原创，未经授权禁止转载！内容仅供参考交流，不构成任何投资建议。任何读者若据此进行投资决策，风险自担。