新算法只需观看视频即可发现语言

 6个月前     204  
新算法只需观看视频即可发现语言

文章目录

Mark Hamilton是麻省理工学院电气工程和计算机科学博士生,也是麻省理工大学计算机科学和人工智能实验室(CSAIL)的附属机构,他想用机器来理解动物是如何交流的。为了做到这一点,他首先着手创建一个可以“从头开始”学习人类语言的系统。

“有趣的是,灵感的关键时刻来自电影《企鹅进行曲》。有一个场景,一只企鹅在穿越冰面时摔倒,在起床时发出一声迟来的呻吟。当你看的时候,很明显,这种呻吟代表了一个四个字母的单词。这是我们思考的时刻,也许我们需要使用音频和视频来学习语言。”汉密尔顿说。“有没有办法让算法整天看电视,然后从中找出我们在说什么?”

“我们的模型DenseAV旨在通过预测它所看到的和听到的来学习语言,反之亦然。例如,如果你听到有人说‘在350度烤蛋糕’的声音,你很可能看到的是蛋糕或烤箱。为了在数百万个视频中成功地进行这种音视频匹配游戏,该模型必须了解人们在说什么,”Hamilton说

arXiv预印本服务器上出现了一篇描述这项工作的论文

一旦他们在这个匹配游戏中训练了DenseAV,Hamilton和他的同事们就会观察模型听到声音时寻找的像素。例如,当有人说“狗”时,算法会立即开始在视频流中寻找狗。通过观察算法选择了哪些像素,人们可以发现算法认为一个词的意思

有趣的是,当DenseAV听到狗叫声时,也会发生类似的搜索过程:它在视频流中搜索狗

汉密尔顿说:“这引起了我们的兴趣。我们想看看算法是否知道‘狗’这个词和狗叫之间的区别。”。研究小组通过给DenseAV一个“双侧大脑”来探索这一点。有趣的是,他们发现DenseAV大脑的一侧自然专注于语言,比如“狗”这个词,另一侧专注于吠叫之类的声音。这表明,DenseAV不仅学会了单词的含义和声音的位置,还学会了区分这些类型的跨模态连接,而无需人工干预或任何书面语言知识

应用程序的一个分支是从每天发布到互联网上的大量视频中学习

汉密尔顿说:“我们希望系统能够从大量的视频内容中学习,比如教学视频。”。“另一个令人兴奋的应用是理解新的语言,如海豚或鲸鱼的交流,这些语言没有书面形式的交流。我们希望DenseAV能帮助我们理解这些从一开始就避开了人类翻译工作的语言。最后,我们希望这种方法能用于发现其他信号对之间的模式,如地球发出的地震声和地质。”

团队面临着一个巨大的挑战:在没有任何文本输入的情况下学习语言。他们的目标是从一张白纸上重新发现语言的意义,避免使用预先训练的语言模型。这种方法的灵感来自于孩子们如何通过观察和倾听环境来理解语言

想要了解更多关于脑机接口技术的内容,请关注脑机网,我们将定期发布最新的研究成果和应用案例,让您第一时间了解脑机接口技术的最新进展。

版权声明:Robot 发表于 6个月前,共 1110 字。
转载请注明:新算法只需观看视频即可发现语言 | 脑机网

您可能感兴趣的

暂无评论

暂无评论...