脑机接口恢复ALS患者的实时言语能力_北京前沿科学技术研究院

加州大学戴维斯分校团队在神经技术领域取得重大突破，通过实时将思维转化为语音的脑机接口，使一位渐冻人症患者重获说话能力。与以往将神经信号转化为文本的系统不同，该设备能以特定声调、语速甚至旋律合成真实语音，创造近乎自然的对话体验。该系统通过植入物和先进人工智能解析神经信号，使使用者能说出新词汇、提出问题并表达情感。虽然尚处早期阶段，这项突破性技术为因神经系统疾病失语的患者带来了真实希望。

在科学期刊《自然》上发表的一项新研究中，研究人员展示了当一个人试图说话时，这项新技术如何将脑活动即时转化为语音——这实际上创建了一个数字声道。

该系统让患有肌萎缩侧索硬化症 (ALS) 的研究参与者能够通过电脑与家人实时“交谈”、改变语调并“唱”出简单的旋律。

该论文的资深作者、加州大学戴维斯分校神经外科系助理教授Sergey Stavisky表示：“将神经活动转化为文本（这是我们之前的语音脑机接口的工作原理）类似于发短信。与标准的辅助技术相比，这是一项重大改进，但它仍然会导致对话延迟。相比之下，这种新的实时语音合成更像是语音通话。” Stavisky共同指导加州大学戴维斯分校神经假体实验室。

Stavisky说：“有了即时语音合成，神经假体使用者将能更充分地参与对话。例如，他们可以插话，别人也不容易无意中打断他们。”

解码脑信号是新技术核心

这位男性参与者加入了加州大学戴维斯分校健康中心的BrainGate2临床试验。他能够通过电脑进行交流，这得益于一种研究性脑机接口 (BCI)。该接口包含四个微电极阵列，通过手术植入负责产生言语的大脑区域。

这些设备记录大脑中的神经元活动，并将其发送给计算机，计算机解读这些信号以重建语音。

该研究的第一作者、加州大学戴维斯分校神经假体实验室项目科学家Maitreyee Wairagkar说：“实时合成语音的主要障碍是不知道言语丧失者究竟在何时以及如何尝试说话。我们的算法将神经活动实时映射到每个时刻想要发出的声音。这使得合成语音中的细微差别成为可能，并让参与者能够控制其BCI语音的节奏。”

基于BCI的即时、富有表现力的语音展现出前景

脑机接口能够将研究参与者的神经信号转化为通过扬声器播放的可听语音，速度非常快——仅需四十分之一秒。这种短暂的延迟类似于一个人说话时听到自己声音的延迟。

该技术还允许参与者说出新词（系统尚未知晓的词）并进行插话。他能够调节其生成的计算机语音的语调来提出问题或强调句子中的特定词语。

参与者还通过唱简单、简短的旋律，朝着改变音高迈进了一步。

他的BCI合成语音通常清晰可懂：听众能正确理解近60%的合成词语（相比之下，不使用BCI时仅为4%）。

算法助力实时语音生成

将脑活动即时转化为合成语音的过程得益于先进的人工智能算法。

新系统的算法使用参与者在计算机屏幕上看到句子后尝试朗读时收集的数据进行训练。这为研究人员提供了他试图说什么的信息。

神经活动显示了数百个神经元的放电模式。研究人员将这些模式与参与者在该时刻试图产生的语音声音对应起来。这帮助算法学会仅凭其神经信号就准确地重建参与者的声音。

临床试验带来希望

加州大学戴维斯分校神经假体实验室联合主任、为该参与者实施植入手术的神经外科医生David Brandman说：“我们的声音是构成我们身份的一部分。丧失说话能力对患有神经系统疾病的人来说是毁灭性的。”

“这项研究的结果为渴望说话但无法说话的人带来了希望。我们展示了一位瘫痪男子如何能够使用合成版的声音说话。这种技术可能为瘫痪患者带来变革。”

Brandman是神经外科系的助理教授，也是BrainGate2临床试验的现场负责首席研究员。

局限性

研究人员指出，尽管研究结果前景可观，但脑到语音的神经假体仍处于早期阶段。一个关键限制是这项研究仅在一位ALS参与者身上进行。在更多参与者（包括因中风等其他原因导致言语丧失的人）中复制这些结果至关重要。

BrainGate2试验正在招募参与者。要了解有关该研究的更多信息，请访问 braingate.org 或联系 braingate@ucdavis.edu。