人工智能如何“说人话”——对于自然语言处理研究的哲学反思

栏目：远程教育时间：2023-05-11

　　一、导论：为何对人工智能来说，

　　“自然语言处理”非常重要?

　　概而言之，所谓“人工智能”(“ArtificialIntelligence”，简称为“AI”)，就是用计算机技术提供的技术手段，对人类智能进行模拟或部分模拟的一门学科。而人类的智能活动的一个非常重要的面相，用非常通俗的话说，就是“会说话”，也就是某种根据在特定语言共同体里通行的词汇表与语法，进行灵活的思想交流的能力。对于AI研究来说，让计算机能够“说人话”，具有如下的重要理论意义：这样的一项工作，将帮助我们从“人造认知架构”的角度理解语言能力在一个智能体系中所占据的地位，并由此夯实AI研究与广义上的认知科学之间的联系。

　　而换个角度看，让AI“说人话”的科学与工程学努力，也会带来丰厚的实践红利。概而言之，能够“懂人话”的人工智能机器所能胜任的工作将包括(但不局限于)：(甲)电子邮寄处理；(乙)自动生成阅读摘要；(丙)自动翻译；(丁)文本自动生成。

　　在AI学界，负责完成上述任务的计算机编程研究，都会被打上“自然语言处理”(NaturalLanguage Processing，简称为“NLP”)的标签。顾名思义，“自然语言处理”(NLP)的任务，就是用计算机进行编程，以便让相关程序能够“理解”人类的自然语言。

　　不过，说到这里，爱较真的读者或许会问：“会说话”能算是“具有智能”的充分必要条件吗?

　　笔者倾向于认为答案是肯定的。换言之，如果某观察对象能够具有我们认可的语言水平(即达到了“会说话”的标准)，你就能推出它有智能；反过来说，如果它是有智能的，你就能反过来断定它有比较高的语言水平。

　　有的读者或许还会反驳说：笔者将语言处理能力视为智能之核心的观点，显得有点过于“逻各斯中心主义”了，并由此忽略了“具身化”(embodiment)在智能构成所起到的作用。换言之，在这些人看来，一个智能体之所以是智能的，首先并不在于其能说话，还是因为其能够通过其身体，而在物理空间中自由移动，感知光线、气味与温度，躲避危险，等等。“会说话”无疑是第二位的。

　　而在笔者看来，上面这种批评，并没有抓到我的立论的核心。相反，笔者完全愿意承认“具身性”自身的确构成了“会说话”的一个重要前提。与之相比较，对于某对象的纯粹的非言语身体行为的记录，却往往不能让观察者判断出对象的某些抽象能力的高低。从这个角度看，从言语行为——而不是从身体行为——的角度出发来评判被观察对象的智能水平，是具有其特有的方法论优势的。由此外推，我们也不难得出：就人造智能体而言，其在NLP领域的表现水平，也应当对其整体智能水平具有指标意义。

　　二、目前的人工智能发展水平，

　　是否能够满足“说人话”的需求呢?

　　目前，智能语音音箱、手机上装载的各种人机对话应用软件、“百度翻译”“谷歌翻译”，都是此类研究的重要成果。但是需要指出的是，此类产品的表面上的繁荣，并不意味着目下的NLP产品已经达到了“会说人话”的水准。其评判理由是：

　　第一，诸如“谷歌翻译”这样的机器翻译机制、各种自动语音识别机制与各种各样的机器人聊天盒，都是针对不同的NLP任务而被设计出来的特定NLP机制，而不是某种面面俱到的针对所有NLP问题的一揽子解决方案。与之相较，对于一个完整的自然人而言，语义识别、语音识别、翻译等语言功能都是被集成到一个大脑上的，其各自运作背后均有一套统一的心理学与生理学规律予以统驭。

　　第二，就人类而言，人类的语言能力本身是用来“做事情的”，比如帮助语言使用者在决策活动中进行复杂的信息梳理，或者是帮助语言使用者去说服某人采取某种行动。所以，语言能力天然就与逻辑推理能力、他心感知能力等其他心智能力相互交织。然而，就目前AI工业的学术分工情况而言，NLP的研究与常识推理、非演绎推理等技术模块之间的关系是相对分离的。

　　第三，深度学习技术在NLP领域内的运用，往往需要依赖网络提供大量的语料与学习样本，而这些语料与学习样本的最终提供者毕竟还是人类。这样的技术很难在脱离互联网的支持的前提下，自主地创生出对于输入语料的恰当处理结果——而与之相较，具有正常语言智能的人类却能在不借助网络资源的情况下进行流畅的语言交流。因此，目前的主流NLP研究乃是缺乏足够强大的“本地化信息处理能力”的。

　　第四，也正是因目前的主流NLP技术与大数据的信息采录具有非常密切的关联，一些在原则上就很难通过大数据技术获得的语言材料，也就很难获得目下主流NLP技术的充分处理。与之相较，具有适当语言智力的人类，却能比较快地通过语境信息提取而理解特定的双关语、隐喻与反讽的含义，或者通过一定时期的努力，仅仅通过少数几个教学者的帮助，学会一门方言。仅就这方面的表现而言，目前NLP的研究所达到的水平，还远远没有达到人类语言智力的平均水平。

　　笔者认为，目前NLP技术所面临的这些问题，不仅仅基于这样的或那样的工程学问题，而是有着深刻的哲学面相的。

　　三、为何自然语言处理研究

　　需要哲学视角的介入？

　　从总体上来看，哲学与NLP研究之间的关系，与哲学和一般意义上的理工科研究规划之间的关系，并无本质不同。哲学研究者的任务，就是将NLP研究未及言明的前提予以揭露，并对其进行反思性的评判。大致而言，由于NLP的研究将不得不预设这样的或者那样的关于语言之本性的看法，作为哲学分支的语言哲学与NLP研究之间的关系就会变得异常相关。其中，有如下四个问题是特别值得一提的：

　　问题一：语言与世界的关系为何?语言表征是对于说话者之外的外部世界的建模，还是对于说话者自己的内部观念世界的建模?

　　这个问题显然牵涉到语言哲学历史上的一个大争议。像柏拉图、弗雷格、克里普克、普特南这样的带有客观主义倾向的哲学家会倾向于认为语言的作用是成为外部客观事物的标记符号；而像洛克、胡塞尔、大森庄藏这样的带有主观观念论色彩的哲学家则会认为语言的主要任务乃是表征言说者内部的思想观念，而不是指称外部的对象。此类争议在NLP内部也引发了相关技术路径的分野。两类研究路线之间的差异，乃是“上帝视角”与“凡人视角”之间的差异：基于“上帝视角”的客观主义的NLP研究路向会预设：程序员已经获得了其关于外部世界的至少某些方面的充分知识；而基于“凡人视角”的主观主义的NLP研究路向则会预设：程序员所知道的，仅仅是被构建的NLP体系内部的表征符号之间的推理关系——至于这些推理关系是否严格对应于外部世界中的诸要素之间的因果关系，则是“未知之事”。

　　笔者是“凡人视角”的NLP研究路向的支持者，否则，我们就不得不预设NLP系统所储存的某些关于外部世界的知识乃是“不可变的”，并由于这种预设而使得由此被设计出来的NLP系统失去应有的灵活性。但不幸的是，基于“凡人视角”的NLP研究，目前并非NLP研究的主流。因此，哲学家就特别需要在概念层面上进行相关的“纠偏”工作。

　　问题二：语言中的规则，究竟是先验的、不可变的，还是经验的，可变的?

　　关于如何更好的界定“先验”与“经验”之间的分界，大致有以下三种解答方案：

　　(甲)做大“先验”的范围，即将所有的经验层面上的自然语言语法都视为先验的。不过，这种研究方式由于实在难以配合经验语法在事实层面上的演化现实，而只能被视为某种抽象的可能性。

　　(乙)做大“经验”的范围，即认为所有的先验语法都可以通过统计资料甲乙消化。这是目下主流的基于深度学习的NLP研究的思路。

　　(丙)与前二者都不同，在“规则”中又一分为二：有些规则是“经验的”，如各种语言的表层语法；有些规则是先验的，如某种贯穿于各种表层语法的“深层语法”。乔姆斯基的基于“普遍语法”概念的语言学路数，以及受到该路数影响的NLP研究，采用的就是该思路。

　　笔者本人所赞成的立场，乃是路数(丙)的某种更偏向经验论方向的改良版。笔者与乔姆斯基之间的共同点就在于：我们都认为对于所有语言的构成的终极说明却都可以诉诸于一套统一的语法范畴；而笔者与他的不同之处就在于：在他看来，既然有待说明的诸语言现象有繁、简之分，那么，用以说明它们的语法范畴就必须在“繁”的一头留足“冗余量”，并由此成为了一种预备了所有语法开关的“普遍语法”；而笔者却不赞同这一判断。

　　问题三：语言与心理架构的关系之间的关系究竟是什么?

　　目前NLP研究者所关心的是，乃是如何在某些特定类型的语料输入与语料输出之间建立起合适的映射关系，而并非是这样的语言现象是从怎样的心理认知架构之中涌现的。而在笔者看来，“纯粹地停留在言语行为的层面上来研究语言”这一做法本身乃是肤浅的，在言语行为层次上的现象实在是过于繁杂了，必然会带来昂贵的数据采集成本与建模成本；而如果我们换一个思路，将复杂的言语行为视为“某种更具有一般性的心智架构在不同外部环境的刺激下而产生的不同的对应输出”的话，我们就能大大降低我们的建模成本，并为相关系统在特定外部条件下的自动升级预留逻辑空间。

　　但这样的一种研究思路，必然会将主流的NLP研究的进路，进一步升级为一个宏大的通用人工智能的研究规划。这种带有整体论思维模式色彩的研究路线图恐怕会让一部分研究者感到绝望，因为AI研究的典型操作模式便是针对某个特定应用场景提出的问题进行工程学开发，并将相关的研究成果拓展到别的应用场景上去——而笔者所提倡的研究思路却是先去悬置一切技术应用场景，而在哲学与科学的层面上理清智能推理的一般特征，然后再考虑技术运用的问题。

　　问题四：自然语言处理所需要的认知架构理论，究竟在多大程度上还需要被“具身化”？

　　我们将这个问题予以单列，其意义就在于对于下述问题的澄清：上述这种“具身化”的工作，究竟对于NLP的研究来说是具有本质性的，还是仅仅具有某种边缘性的意义?说得更清楚一点，在NLP的研究中，架构者是否预先需要思考相关的AI体将被匹配上怎样的感受-运动设备，并为这样的设备而在NLP的界面上预留一些重要的“槽口”?抑或：架构者根本不用关心相关的AI体将被匹配上怎样的感受-运动设备，并完全可以将此类的考虑全部分配给别的领域内的专家?而这个“二选一”问题在近代哲学中的表现形式就是：人类的理性能力，是否能够在悬置各种感官能力的运作的情况下，进行相对独立的运作?对这一问题答“否”的乃是经验派的观点(这种观点的工程学对应者，自然就会强调NLP界面设计与AI体的外部设备设计之间的连续性)，而对该问题答“是”的，则是唯理派的观点(这种观点的工程学对应者，自然就会强调NLP界面设计与AI体的外部设备设计之间的可分离性)。

　　笔者对于该问题的解答，则既不是纯粹唯理论的，也不是纯粹经验论的，而是带有康德式的调和意味的：在笔者看来，在纯粹的概念构造与底层的感官信息之间，还有一个重要的中间层被唯理派与经验派所忽略了，这也就是时-空关系的直观形式。一方面，这样的直观形式显然具有一定的前概念性(譬如，对于一个房间的空间感知，不能被还原为对于相关空间的几何学描述)，而在另一方面，这样的直观形式又具有针对各种感官道的某种抽象性，并因此更接近于概念(譬如，一位盲人所感知到的教室的内部空间形式，依然会与一个正常人所看到的教室的内部空间形式有着高度的可重叠性)。

　　总?结

　　从本“导论”完成的讨论来看，NLP问题的研究的确对整个AI的研究来说具有指标性的意义。但对于该问题的哲学面相的了解，却一直没有被NLP学界所充分地意识到。毋宁说，目前NLP学界研究的话题取向是完全被偶然的工程学需求或商业需求所牵导的，而缺乏哲学(甚至是科学)层面上的整体谋划。这种“两张皮互不相扰”的状态显然是不能让人满意的。

上一篇：教育部：求职高峰期，毕业生求职需警惕陷阱，避免踩“坑”
下一篇：2023五月天北京演唱会门票购买问题汇总（开售+转赠）

人工智能如何“说人话”——对于自然语言处理研究的哲学反思

最近更新远程教育