科学家揭示为何人类语言不同于计算机代码

与计算机使用的极度简洁的二进制字符串相比，人类语言可能显得杂乱低效——但我们的大脑其实更喜欢这种表达方式。最新研究发现，虽然数字式编码理论上能将信息压缩得更为紧密，但会显著增加说话者和倾听者的脑力负荷。事实上，语言建立在反映现实世界经验的熟悉词汇与可预测模式之上，这使得大脑能够持续预判后续内容，并逐步缩小语义范围。

基于萨尔布吕肯的语言学家迈克尔·哈恩与加利福尼亚大学欧文分校的理查德·富特雷尔合作，共同探究了这个问题。他们创建了一个模型，旨在解释人类语言为何呈现如今的面貌。这项研究近期发表在《自然·人类行为》期刊上。

人类语言与信息效率

全球大约有7000种语言在使用。有些语言仅剩少数使用者，而另一些如汉语、英语、西班牙语和印地语，则有数十亿人在使用。尽管存在差异，所有语言都服务于相同的基本目的：通过将词语组合成短语，再排列成句子来传递意义。每个部分都承载着自身的含义，组合起来便形成了清晰的信息。

迈克尔·哈恩解释道：“这实际上是一个非常复杂的结构。既然自然界倾向于追求效率最大化和资源节约，那么我们完全有理由追问，为什么大脑要用这种明显复杂的方式来编码语言信息，而不是像计算机那样采用数字化的方式？”理论上，将语音编码为二进制的0和1序列会更高效，因为它比口语能更紧密地压缩信息。那么，为什么人类不像《星球大战》里的R2-D2那样交流呢？哈恩和富特雷尔认为他们找到了答案。

语言根植于现实世界经验

“人类语言是由我们周围的生活现实塑造的，”迈克尔·哈恩说。“例如，如果我要谈论‘半只猫加上半只狗’，并用‘gol’这个抽象词来指代，没人会明白我的意思，因为几乎可以肯定没人见过‘gol’——它根本无法反映任何人的生活经验。同样，把‘cat’和‘dog’这两个词胡乱拼凑成一串字符，虽然用了相同的字母却无法解读，这也是毫无意义的，”他继续说道。

像“gadcot”这样的乱序形式，从技术上讲包含了两个词的所有字母，但对听者来说毫无意义。相比之下，“cat and dog”这个短语能立刻被理解，因为这两种动物都是人们熟悉的概念。人类语言之所以有效，是因为它直接连接了共享的知识和生活经验。

大脑偏爱熟悉的模式

哈恩这样总结他们的发现：“简而言之，我们的大脑更容易接受看似更复杂的路径。”虽然自然语言并非最大程度压缩的，但它对大脑造成的负担要小得多。这是因为大脑在处理词语时，会与我们已知的世界知识持续互动。

纯粹的数字代码可能传输信息更快，但它脱离了日常经验。哈恩将此比作通勤上班：“在我们日常的通勤路线上，路途非常熟悉，驾驶起来几乎像自动驾驶一样。我们的大脑完全知道接下来会遇到什么，因此它需要付出的努力就少得多。走一条更短但不熟悉的路线会感觉累得多，因为新路线要求我们在驾驶过程中注意力要集中得多。”他补充道，从数学角度看，“当我们用熟悉的、自然的方式说话时，大脑需要处理的信息比特数要少得多。”

换句话说，说和理解二进制代码需要说话者和听者付出更多的脑力劳动。相反，大脑会不断估算接下来可能出现哪些词和短语的可能性。由于我们几十年如一日地使用母语，这些模式变得根深蒂固，使得交流更顺畅，对大脑的要求也更低。

预测性处理如何塑造语言

哈恩举了一个清晰的例子：“当我说德语短语‘Die fünf grünen Autos’（英语：‘the five green cars’）时，这个短语对另一个德语使用者来说几乎肯定是有意义的，而‘Grünen fünf die Autos’（英语：‘green five the cars’）则不然，”他说。

当听到“Die fünf grünen Autos”时，大脑会立即开始解读其含义。“Die”这个词提示了某些语法可能性。一个德语听众可以立刻缩小选项范围，排除阳性或中性单数名词。下一个词“fünf”暗示了可数的事物，排除了诸如爱或渴这样的抽象概念。接着“grünen”表明名词将是复数且为绿色。此时，这个物体可能是汽车、香蕉或青蛙。只有当最后一个词“Autos”说出来时，意义才最终确定下来。每听到一个词，大脑就减少一些不确定性，直到只剩下一种解释。

相比之下，“Grünen fünf die Autos”打乱了这种可预测的模式。预期的语法信号以错误的顺序出现，因此大脑很难从这个序列中构建出意义。

对人工智能和语言模型的启示

哈恩和富特雷尔能够用数学方式证明这些模式。他们的研究发表在《自然·人类行为》上，表明人类语言优先考虑的是减少认知负荷，而不是最大化信息压缩。

这些见解也可能为大型语言模型（LLMs）的改进提供信息，LLMs是诸如ChatGPT或微软Copilot等生成式人工智能工具背后的系统。通过更好地理解人类大脑如何处理语言，研究人员可以设计出更贴近自然交流模式的人工智能系统。