通过跨学科的合作与交流,我们能够突破传统思维的边界,开拓新的研究领域。

——院长致词

首页 > 科学研究 > 信息科技

科学家发现AI真正理解语言的时刻

本站发布时间:2025-08-02 13:06:43
注:部分名称可能翻译不全,如有问题可联系15163559288@163.com

发表在《统计力学杂志:理论与实验》(JSTAT)上的一项新研究揭示了这一谜题的一部分。研究表明,当使用少量数据进行训练时,神经网络最初依赖于单词在句子中的位置。然而,当系统接触足够多的数据后,它会转向基于单词含义的新策略。该研究发现,一旦跨越关键的数据阈值,这种转变就会突然发生——类似于物理系统中的相变。这些发现为理解这些模型的工作原理提供了宝贵的见解。

就像学习阅读的儿童一样,神经网络开始时通过单词位置理解句子:根据单词在句子中的位置,网络可以推断它们的关系(是主语、动词还是宾语?)。但随着训练的持续——神经网络"继续上学"——转变发生了:单词含义成为主要信息来源。

这项新研究解释道,这正是在自注意力机制的简化模型中发生的情况。自注意力机制是转换器语言模型(如我们日常使用的ChatGPT、Gemini、Claude等)的核心构件。转换器是一种设计用于处理文本等数据序列的神经网络架构,它构成了许多现代语言模型的支柱。转换器擅长理解序列内的关系,并利用自注意力机制评估每个单词相对于其他单词的重要性。

"为了评估单词之间的关系,"哈佛大学博士后研究员、该研究的第一作者崔雨果解释道,"网络可以采用两种策略,其中之一是利用单词的位置。"例如在英语中,主语通常位于动词之前,而动词又位于宾语之前。"Mary eats the apple(玛丽吃苹果)"就是这种序列的一个简单例子。

"这是网络训练时自发出现的第一种策略,"崔解释道。"但在我们的研究中,我们观察到如果训练持续进行且网络获得足够数据,在某个临界点——一旦跨越阈值——策略会突然转变:网络开始依赖语义而非位置。"

"当我们设计这项工作时,只是想研究网络会采用哪些策略或策略组合。但发现的结果有些出人意料:低于特定阈值时,网络完全依赖位置策略;而高于阈值时,则完全依赖语义策略。"

崔将这种转变描述为相变,借用了物理学概念。统计物理学通过统计学描述由大量粒子(如原子或分子)组成的系统的集体行为。类似地,神经网络——这些人工智能系统的基础——由大量"节点"(或称神经元,类比人脑命名)组成,每个节点与许多其他节点相连并执行简单操作。系统的智能正是源于这些神经元之间的相互作用,这种现象可以用统计方法描述。

 

这就是为什么我们可以将网络行为的突然变化称为相变,就像水在特定温度和压力条件下从液态转变为气态。

"从理论角度理解策略转变以这种方式发生很重要,"崔强调道。"我们的网络比人们日常交互的复杂模型更为简化,但它们可以为我们提供线索,以开始理解导致模型稳定采用某种策略的条件。希望这些理论知识未来可用于提高神经网络的使用效率和安全性。"

由崔雨果、弗雷亚·贝伦斯、弗洛朗·克尔扎卡拉和伦卡·兹德博洛娃共同完成的研究《点积注意力可解模型中位置学习与语义学习的相变》发表于JSTAT杂志,作为"机器学习2025特刊"的一部分,并被收录于NeurIPS 2024会议论文集。

Story Source:

Materials provided bySissa Medialab.Note: Content may be edited for style and length.

Journal Reference:

Hugo Cui, Freya Behrens, Florent Krzakala, Lenka Zdeborová.A phase transition between positional and semantic learning in a solvable model of dot-product attention*.Journal of Statistical Mechanics: Theory and Experiment, 2025; 2025 (7): 074001 DOI:10.1088/1742-5468/ade137

排行榜

备案号:京ICP备2023036195号-1

地址:北京市丰台区南三环西路16号2号楼

地址:山东省济南市历城区唐冶绿地汇中心36号楼

电话: 400-635-0567

北前院微信公众号