想象一下,一个咖啡杯放在桌子上。现在,想象一本书遮住了杯子的一部分。作为人类,我们仍然知道咖啡杯是什么,尽管我们不能看到它的全部。但机器人可能会感到困惑
如果物体离得太近,或者空间杂乱,仓库里甚至我们家周围的机器人都很难识别和拾取物体。这是因为机器人缺乏心理学家所说的“物体统一性”,即我们即使看不到所有物体也无法识别物体的能力
华盛顿大学的研究人员开发了一种教授机器人这项技能的方法。这种方法,简称THOR,允许一个低成本的机器人识别杂乱货架上的物体,包括一个芥末瓶、一个品客罐头和一个网球。在最近发表在《IEEE机器人汇刊》上的一篇论文中,该团队证明了THOR的性能优于当前最先进的模型
华盛顿大学新闻联系了资深作者、华盛顿大学工业与系统工程系和机械工程系副教授Ashis Banerjee,了解机器人如何识别物体以及THOR如何工作的详细信息
机器人是如何感知周围环境的
我们通过视觉、声音、嗅觉、味觉和触觉来感知周围的世界。机器人使用一种或多种类型的传感器来感知周围环境。机器人使用标准彩色相机或更复杂的立体或深度相机来“观察”事物。虽然标准相机只是记录周围环境的彩色和纹理图像,但立体和深度相机也像我们的眼睛一样提供物体距离的信息。
然而,传感器本身无法使机器人“感知”周围环境。机器人需要一个类似于人脑视觉皮层的视觉感知系统来处理图像,检测所有物体的位置,估计它们的方向,识别物体可能是什么,并解析上面写的任何文本
为什么机器人很难在杂乱的空间中识别物体
这里有两个主要挑战。首先,可能有大量形状和大小不同的物体。这使得机器人的感知系统很难区分不同的物体类型。其次,当几个对象彼此靠近时,它们会遮挡其他对象的视图。当机器人不能完全看到物体时,它们很难识别物体
在杂乱的空间里,有什么类型的物体特别难以识别吗
这在很大程度上取决于存在的对象。例如,如果存在各种尺寸的物体,识别较小的物体是一项挑战。区分形状相似或相同的物体(如不同种类的球或盒子)也更具挑战性。当机器人从房间的不同有利位置收集图像时,柔软或黏糊糊的物体会改变形状,这也会带来额外的挑战
那么THOR是如何工作的?为什么它比以前解决这个问题的尝试更好
THOR实际上是主要作者Ekta Samani的创意,她在华盛顿大学博士生时期完成了这项研究。THOR的核心是它允许机器人模仿我们人类如何知道部分可见的物体不是破碎的或全新的物体
THOR通过使用场景中对象的形状来创建每个对象的3D表示来实现这一点。从那里开始,它使用拓扑(一个研究对象不同部分之间连接的数学领域)将每个对象分配给一个“最有可能”的对象类。它通过将其三维表示与存储的表示库进行比较来实现这一点
THOR不依赖于使用杂乱房间的图像来训练机器学习模型。它只需要每个不同物体本身的图像。THOR不需要机器人有专门且昂贵的传感器或处理器,它也能很好地与商品相机配合使用
这意味着THOR非常容易构建,更重要的是,它很容易用于具有不同背景、照明条件、物体排列和杂乱程度的全新空间。它也比现有的基于3D形状的识别方法工作得更好,因为它对物体的3D表示更详细,有助于实时识别物体
想要了解更多关于脑机接口技术的内容,请关注脑机网,我们将定期发布最新的研究成果和应用案例,让您第一时间了解脑机接口技术的最新进展。