拉德布大学和乌得勒支大学的研究人员已经成功地将大脑信号转化为听得见的语音。通过植入物和人工智能的结合解码来自大脑的信号,他们能够预测人们想说的话,准确率为92%至100%。他们的发现发表在本月的《神经工程杂志》上
恢复声音
Berezutskaya说:“最终,我们希望将这项技术提供给处于锁定状态、瘫痪且无法交流的患者。”这些人失去了活动肌肉的能力,也就失去了说话的能力。通过开发脑机接口,我们可以分析大脑活动,并再次为他们发声。”
在他们的新论文中,研究人员要求植入临时大脑的非瘫痪患者在测量大脑活动时大声说出一些单词。Berezutskaya:“然后我们能够在大脑活动和言语之间建立直接的映射。我们还使用先进的人工智能模型将大脑活动直接转化为听得见的语音。这意味着我们不仅能够猜测人们在说什么,而且我们可以立即将这些单词转化为可理解的声音。此外,重建后的演讲在语调和说话方式上甚至听起来像原来的演讲者。”
世界各地的研究人员正在研究如何识别大脑模式中的单词和句子。研究人员能够用相对较小的数据集重建可理解的语音,这表明他们的模型可以用有限的数据揭示大脑活动和语音之间的复杂映射。至关重要的是,他们还对志愿者进行了听力测试,以评估合成单词的可识别性。这些测试的积极结果表明,这项技术不仅成功地正确识别了单词,而且还让这些单词像真实的声音一样被听得见和理解
限制
Berezutskaya警告说:“目前,仍有一些限制。”在这些实验中,我们要求参与者大声说出12个单词,这些都是我们试图检测的单词。一般来说,预测单个单词比预测整个句子复杂。在未来,用于人工智能研究的大型语言模型可能是有益的。我们的目标是仅根据大脑活动来预测人们想要说的完整句子和段落。要实现这一目标,我们需要更多的实验、更先进的植入物、更大的数据集和先进的人工智能模型。所有这些过程仍需要数年时间,但看起来我们正朝着正确的方向前进
'For now, there's still a number of limitations,' warns Berezutskaya. 'In these experiments, we asked participants to say twelve words out loud, and those were the words we tried to detect. In general, predicting individual words is less complicated than predicting entire sentences. In the future, large language models that are used in AI research can be beneficial. Our goal is to predict full sentences and paragraphs of what people are trying to say based on their brain activity alone. To get there, we'll need more experiments, more advanced implants, larger datasets and advanced AI models. All these processes will still take a number of years, but it looks like we're heading in the right direction.'