通过跨学科的合作与交流,我们能够突破传统思维的边界,开拓新的研究领域。

——院长致词

首页 > 科学研究 > 信息科技

科学家发现人工智能真正理解语言的时刻

本站发布时间:2025-08-17 05:26:33
注:部分名称可能翻译不全,如有问题可联系15163559288@163.com

《统计力学杂志:理论与实验》(JSTAT)最新研究揭示了这一奥秘的部分真相。研究表明,当使用少量数据进行训练时,神经网络最初依赖于单词在句子中的位置。但随着系统接触足够数据后,它会转向基于单词含义的新策略。研究发现这种转变会在跨越关键数据阈值时突然发生——就像物理系统中的相变现象。这些发现为理解模型工作机制提供了宝贵见解。

正如学龄儿童识字过程,神经网络最初通过单词位置来理解句子:根据单词在句中的位置推断其关系(是主语、动词还是宾语?)。但随着持续训练——即网络"持续接受教育"——策略会发生转变:词义成为主要信息来源。

这项新研究通过简化自注意力机制模型(Transformer语言模型的核心组件,如日常使用的ChatGPT、Gemini、Claude等)阐释了这一现象。Transformer是专为处理文本等序列数据设计的神经网络架构,构成许多现代语言模型的支柱。它擅长理解序列内部关系,并通过自注意力机制评估单词间的相对重要性。

"为评估词间关系,"哈佛大学博士后、本研究第一作者崔雨果解释道,"网络可采用两种策略,其一是利用单词位置。"以英语为例,主语通常位于动词之前,而动词又在宾语之前。"玛丽吃苹果"就是这种顺序的简单例证。

"这是网络训练时自发形成的首要策略,"崔解释道,"但我们在研究中发现,若持续训练并提供足够数据,在跨越某个临界点后,策略会突然转变:网络开始依赖词义进行判断。"

"设计本实验时,我们仅想研究网络会采用何种策略组合。但发现令人惊讶:低于阈值时网络完全依赖位置信息,高于阈值时则仅依赖语义信息。"

崔借用物理学概念将这种转变描述为相变。统计物理学通过统计方法研究由大量粒子(如原子或分子)构成系统的集体行为。类似地,作为AI系统基础的神经网络由大量"节点"(或称神经元,类比人脑命名)构成,每个节点执行简单运算并与众多其他节点相连。系统智能正源于这些神经元相互作用的统计现象。

 

因此我们可以将网络行为的突变称为相变,就像水在特定温压条件下从液态转变为气态。

"从理论视角理解这种策略转变机制至关重要,"崔强调道,"虽然我们的网络比日常使用的复杂模型简化许多,但能为理解模型稳定采用特定策略的条件提供线索。这些理论认知未来有望用于提升神经网络的使用效率和安全性。"

崔雨果、Freya Behrens、Florent Krzakala和Lenka Zdeborová的研究论文《点积注意力可解模型中位置学习与语义学习的相变》发表于JSTAT杂志"机器学习2025"特刊,并收录于NeurIPS 2024会议论文集。

Story Source:

Materials provided bySissa Medialab.Note: Content may be edited for style and length.

Journal Reference:

Hugo Cui, Freya Behrens, Florent Krzakala, Lenka Zdeborová.A phase transition between positional and semantic learning in a solvable model of dot-product attention*.Journal of Statistical Mechanics: Theory and Experiment, 2025; 2025 (7): 074001 DOI:10.1088/1742-5468/ade137

排行榜

备案号:京ICP备2023036195号-1

地址:北京市丰台区南三环西路16号2号楼

地址:山东省济南市历城区唐冶绿地汇中心36号楼

电话: 400-635-0567

北前院微信公众号