在发表于科学期刊《自然》的一项新研究中,研究人员展示了这项新技术如何能在一个人试图说话时,瞬时将其大脑活动转化为语音——这有效地创建了一个数字声道。
该系统使患有肌萎缩侧索硬化症(ALS)的研究参与者能够通过计算机与家人实时“交谈”,改变语调并“唱”出简单的旋律。
论文的资深作者、加州大学戴维斯分校神经外科系助理教授Sergey Stavisky表示:“将神经活动转化为文本——这是我们之前的语音脑机接口的工作方式——类似于发短信。与标准辅助技术相比这是一个巨大的进步,但它仍会导致对话延迟。相比之下,这种新的实时语音合成更像语音通话。” Stavisky共同指导加州大学戴维斯分校神经假肢实验室。
Stavisky说:“借助瞬时语音合成,神经假肢使用者将能更充分地参与对话。例如,他们可以打断别人,而别人也不太可能意外打断他们。”
解码脑信号是新技术核心
该男子参加了加州大学戴维斯分校健康中心的BrainGate2临床试验。他通过计算机进行交流的能力得益于一种研究性的脑机接口(BCI)。它由四个通过手术植入大脑负责产生语言区域的微电极阵列组成。
这些设备记录大脑中神经元的活动,并将其发送给计算机,计算机解读这些信号以重建语音。
该研究的第一作者、加州大学戴维斯分校神经假肢实验室项目科学家Maitreyee Wairagkar表示:“实时合成语音的主要障碍在于无法确切知道失去语言能力的人在何时以及如何试图说话。我们的算法将神经活动映射到每个时间点上想要发出的声音。这使得合成语音的细微差别成为可能,并让参与者能够控制其BCI语音的节奏。”
BCI实现瞬时、富有表现力的语音前景广阔
该脑机接口能够将研究参与者的神经信号非常快速地转化为通过扬声器播放的可听语音——延迟仅为四十分之一秒。这种短暂的延迟类似于人说话时听到自己声音的延迟。
该技术还使参与者能够说出新词(系统先前未知的单词)并进行插话。他能够调节其生成的计算机语音的语调来提问或强调句子中的特定单词。
该参与者还通过演唱简单短小的旋律,朝着改变音高的方向迈出了步伐。
他的BCI合成语音通常是可理解的:听众能正确理解近60%的合成词(相比之下,不使用BCI时仅为4%)。
算法助力实时语音
将大脑活动瞬时转化为合成语音的过程得益于先进的人工智能算法。
新系统的算法使用参与者在被要求尝试说出计算机屏幕上显示的句子时收集的数据进行训练。这为研究人员提供了他想要表达内容的信息。
神经活动显示了数百个神经元的放电模式。研究人员将这些模式与参与者当时试图发出的语音对齐。这帮助算法学会了仅从其神经信号中准确重建参与者的声音。
临床试验带来希望
加州大学戴维斯分校神经假肢实验室联合主任、为参与者进行植入手术的神经外科医生David Brandman表示:“我们的声音是构成我们身份的一部分。对于患有神经系统疾病的人来说,失去说话能力是毁灭性的。”
“这项研究的结果为渴望说话却无法做到的人带来了希望。我们展示了一位瘫痪的男子如何能够使用他自己声音的合成版本进行交流。这类技术对于瘫痪患者可能是变革性的。”
Brandman是神经外科系的助理教授,也是BrainGate2临床试验的现场责任首席研究员。
局限性
研究人员指出,尽管研究结果令人鼓舞,但脑到语音神经假肢仍处于早期阶段。一个关键限制是研究仅涉及一名ALS参与者。在更多参与者(包括因其他原因如中风导致语言能力丧失的人)身上复制这些结果至关重要。
BrainGate2试验正在招募参与者。要了解更多研究信息,请访问 braingate.org 或联系 braingate@ucdavis.edu。
注意:研究性设备,受联邦法律限制,仅限于研究用途。
Story Source:
Materialsprovided byUniversity of California - Davis Health.Note: Content may be edited for style and length.
Journal Reference:
Maitreyee Wairagkar, Nicholas S. Card, Tyler Singer-Clark, Xianda Hou, Carrina Iacobacci, Lee M. Miller, Leigh R. Hochberg, David M. Brandman, Sergey D. Stavisky.An instantaneous voice-synthesis neuroprosthesis.Nature, 2025; DOI:10.1038/s41586-025-09127-3
2025-06-22
2025-06-22
2025-06-22
2025-06-22
2025-06-22