研究人员在人工智能模型中增强周边视觉

外围视觉使人类能够看到不直接在我们视线范围内的形状，尽管细节较少。这种能力扩展了我们的视野，在许多情况下都很有帮助，例如检测到车辆从侧面接近我们的汽车

与人类不同，人工智能没有周边视觉。为计算机视觉模型配备这种能力可以帮助它们更有效地检测接近的危险，或者预测人类驾驶员是否会注意到迎面而来的物体

麻省理工学院的研究人员朝着这个方向迈出了一步，开发了一个图像数据集，使他们能够在机器学习模型中模拟外围视觉。他们发现，用这个数据集训练模型提高了模型检测视觉外围物体的能力，尽管模型的表现仍然比人类差

他们的研究结果还表明，与人类不同，场景中物体的大小和视觉混乱的数量都不会对人工智能的性能产生强烈影响

“这里有一些基本的问题。我们测试了这么多不同的模型，即使我们训练它们，它们也会变得更好一点，但它们并不完全像人类。所以，问题是：这些模型缺少什么？”博士后Vasha DuTell说，他是一篇详细介绍这项研究的论文的合著者

回答这个问题可能有助于研究人员建立机器学习模型，使其更像人类一样看待世界。除了提高驾驶员的安全性，这些模型还可以用于开发更容易让人们观看的显示器

此外，首席作者Anne Harrington MEng’23补充道，对人工智能模型中的周边视觉有更深入的理解可以帮助研究人员更好地预测人类行为

她解释道：“建立外围视觉模型，如果我们能够真正捕捉外围所表现的本质，可以帮助我们理解视觉场景中使我们的眼睛移动以收集更多信息的特征。”

他们的合著者包括电气工程和计算机科学研究生Mark Hamilton；Ayush Tewari，博士后；Simon Stent，丰田研究所的研究经理；资深作者William T.Freeman，Thomas和Gerd Perkins电气工程和计算机科学教授，计算机科学和人工智能实验室成员；以及脑与认知科学系首席研究科学家、CSAIL成员Ruth Rosenholtz。这项研究将在国际学习表征会议（ICLR 2024）上发表

Rosenholtz说：“任何时候，当你让人与机器——汽车、机器人、用户界面——互动时，了解人能看到什么是非常重要的。外围视觉在理解中起着关键作用。”

Simulating peripheral vision

将手臂伸到你面前，将拇指向上放在拇指周围的小区域，你的中央凹可以看到，视网膜中间的小凹陷提供了最清晰的视觉。你能看到的其他一切都在你的视觉外围。当你的视觉皮层远离焦点时，它代表的场景细节和可靠性都会降低

许多现有的人工智能外围视觉建模方法通过模糊图像边缘来表示这种不断恶化的细节，但发生在视神经和视觉皮层的信息丢失要复杂得多

为了获得更准确的方法，麻省理工学院的研究人员从一种用于模拟人类周边视觉的技术开始。这种方法被称为纹理平铺模型，它变换图像来表示人类的视觉信息损失

他们修改了这个模型，使其可以类似地转换图像，但以一种更灵活的方式，不需要事先知道人或人工智能将把眼睛指向哪里

研究人员使用这种改进的技术生成了一个巨大的转换图像数据集，这些图像在某些区域看起来更具纹理，以表示当人类进一步观察外围时发生的细节丢失

然后，他们使用数据集训练了几个计算机视觉模型，并将它们的性能与人类在物体检测任务中的性能进行了比较

“我们必须非常聪明地设置实验，这样我们也可以在机器学习模型中进行测试。我们不想在玩具任务上对模型进行再培训，而这不是他们应该做的，”她说

向人类和模型显示了两对相同的变换图像，只是一张图像的目标对象位于外围。然后，每个参与者都被要求挑选带有目标物体的图像

Peculiar performance

Harrington补充道：“有一件事真的让我们感到惊讶，那就是人们在探测周围物体方面做得多么好。我们浏览了至少10组不同的图像，这些图像太容易了。我们一直需要使用越来越小的物体。”

研究人员发现，用他们的数据集从头开始训练模型可以最大限度地提高性能，提高他们检测和识别物体的能力。使用数据集对模型进行微调，这一过程包括调整预训练的模型，使其能够执行新任务，从而获得较小的性能增益

但在每种情况下，机器都不如人类，而且它们特别不善于检测远处的物体。他们的表现也与人类不同

Harrington说：“这可能表明，模型使用上下文的方式与人类执行这些检测任务的方式不同。模型的策略可能不同。”

研究人员计划继续探索这些差异

The researchers plan to continue exploring these differences, with a goal of finding a model that can predict human performance in the visual periphery. This could enable AI systems that alert drivers to hazards they might not see, for instance. They also hope to inspire other researchers to conduct additional computer vision studies with their publicly available dataset.

"This work is important because it contributes to our understanding that human vision in the periphery should not be considered just impoverished vision due to limits in the number of photoreceptors we have, but rather, a representation that is optimized for us to perform tasks of real-world consequence," says Justin Gardner, an associate professor in the Department of Psychology at Stanford University who was not involved with this work.

"Moreover, the work shows that neural network models, despite their advancement in recent years, are unable to match human performance in this regard, which should lead to more AI research to learn from the neuroscience of human vision. This future research will be aided significantly by the database of images provided by the authors to mimic peripheral human vision."

想要了解更多关于脑机接口技术的内容，请关注脑机网，我们将定期发布最新的研究成果和应用案例，让您第一时间了解脑机接口技术的最新进展。

技术