通过跨学科的合作与交流,我们能够突破传统思维的边界,开拓新的研究领域。

——院长致词

首页 > 科学研究 > 商业与工业

变形智能扬声器可让用户将房间的不同区域静音

本站发布时间:2024-01-20 16:14:01

在虚拟会议中,很容易阻止人们互相交谈。有人直接静音了。但在大多数情况下,这种能力并不容易转化为记录面对面的聚会。在熙熙攘攘的咖啡馆里,没有任何按钮可以让你旁边的桌子安静下来。

定位和控制声音的能力(例如,将一个人在拥挤的房间中的特定位置隔离)对研究人员提出了挑战,尤其是在没有星巴克视觉提示的情况下。

由华盛顿大学研究人员领导的团队开发了一种可变形的智能扬声器,它利用自行部署的麦克风将房间划分为语音区域并跟踪各个扬声器的位置。在团队深度学习算法的帮助下,该系统可以让用户将某些区域安静或分开同时进行对话,两个相邻的人有相似的声音。就像一个Roombas 每个(直径约一英寸)一样,麦克风会自动从充电站配置,然后返回充电站这允许系统在环境之间移动并自动设置。例如,在会议室会议中,可以部署这样的系统来代替中央麦克风,从而更好地控制室内音频。

该团队于 9 月 21 日在《自然通讯》上发表了研究结果。

“如果我闭上眼睛,一个房间里有 10 个人在说话,我就不知道谁在说什么以及他们在房间里的具体位置。这对人脑来说是非常难以处理的。到目前为止,这对于人类大脑来说也很难处理。共同主要作者、华盛顿大学保罗·G·艾伦计算机科学与工程学院博士生 Malek Itani 说道。

“这是第一次,使用我们所说的机器人‘声学群’,我们能够跟踪多个人在房间里说话的位置,并将他们的讲话分开。”

之前对机器人群的研究需要使用头顶或设备上的摄像头、投影仪或特殊表面。

华盛顿大学团队的系统是第一个仅使用声音来准确分配机器人群的系统。

该团队的原型由七个小型机器人组成,它们分布在不同尺寸的桌子上。

当它们从充电器上移动时,每个机器人都会发出高频声音,就像蝙蝠导航一样,利用该频率和其他传感器来避开障碍物并四处移动而不会从桌子上掉下来。

自动部署使机器人能够以最精确的方式自行定位,与人工设置相比,可以实现更好的声音控制。

机器人彼此之间的距离尽可能远,因为距离越远,就越容易区分和定位说话的人。

当今的消费者智能扬声器具有多个麦克风,但聚集在同一设备上,它们距离太近,无法允许该系统的静音和活动区域。

“如果一个麦克风距离我一英尺,另一个麦克风距离我两英尺,我的声音将首先到达一英尺远的麦克风。如果其他人距离两英尺远的麦克风更近,他们的声音就会到达那里首先,”该研究的联合主要作者、威斯康星大学艾伦学院博士生陈拓超说。

“我们开发了神经网络,使用这些延时信号来区分每个人所说的内容并跟踪他们在空间中的位置。因此,您可以让四个人进行两次对话,隔离四个声音中的任何一个,并在其中找到每个声音一个房间。”

该团队在办公室、客厅和厨房测试了机器人,并以三到五人为一组进行发言。

在所有这些环境中,系统在 90% 的时间内可以识别彼此相距 1.6 英尺(50 厘米)以内的不同声音,而无需事先了解说话者的数量。

该系统能够在平均 1.82 秒内处理三秒的音频——对于实时流媒体来说足够快,但对于视频通话等实时通信来说有点太长了。

研究人员表示,随着技术的进步,声学集群可能会部署在智能家居中,以更好地区分与智能扬声器交谈的人。

例如,这可能只允许坐在沙发上的“活动区域”中的人通过声音控制电视。

研究人员计划最终制造出可以在房间内移动的麦克风机器人,而不是局限于桌子上。

该团队还在研究扬声器是否可以发出允许现实世界静音和活动区域的声音,以便房间不同部分的人可以听到不同的音频。

作者写道,目前的研究是向科幻技术迈出的又一步,例如《变得聪明》和《沙丘》中的“沉默锥”。

当然,任何与虚构的间谍工具相比较的技术都会引发隐私问题。

研究人员承认存在滥用的可能性,因此他们采取了防范措施:麦克风通过声音进行导航,而不是像其他类似系统那样通过机载摄像头进行导航。

这些机器人很容易被看见,并且当它们活动时它们的灯会闪烁。

作为隐私限制,声学集群不像大多数智能扬声器那样在云端处理音频,而是在本地处理所有音频。

研究小组表示,尽管有些人的第一反应可能是监视,但该系统也可以用于相反的用途。

伊塔尼说:“它有可能真正有益于隐私,超出了当前智能扬声器所允许的范围。” “我可以说,‘不要记录我办公桌周围的任何内容’,我们的系统将在我周围 3 英尺处创建一个气泡。这个气泡中的任何内容都不会被记录。或者,如果两组人并排讲话,而一组人正在讲话私人对话,当另一组正在录音时,其中一个对话可以处于静音区域,并且它将保持私人状态。”


来源: Materials provided by University of Washington. Original written by Stefan Milne.
注明: Content may be edited for style and length. Journal Reference: Malek Itani, Tuochao Chen, Takuya Yoshioka, Shyamnath Gollakota. Creating speech zones with self-distributing acoustic swarms. Nature Communications, 2023; 14 (1) DOI: 10.1038/s41467-023-40869-8
排行榜

备案号:京ICP备2023036195号-1

地址:北京市丰台区南三环西路16号2号楼

地址:山东省济南市历城区唐冶绿地汇中心36号楼

电话: 400-635-0567

备案号:京ICP备2023036195号-1

地址:北京市丰台区南三环西路16号2号楼

地址:山东省济南市历城区唐冶绿地汇中心36号楼

电话: 400-635-0567

备案号:京ICP备2023036195号-1

地址:北京市丰台区南三环西路16号2号楼

地址:山东省济南市历城区唐冶绿地汇中心36号楼

电话: 400-635-0567