害怕公开演讲和被熊追赶是一样的吗?扬起眉毛是表示娱乐还是困惑?1995年,科学家兼发明家罗莎琳德·皮卡德在她的书《情感计算》中介绍了计算机开发识别情绪能力的想法。
在过去的几年里,使用人工智能的系统一直在“学习”通过将愤怒、幸福和恐惧等情绪与面部和身体动作、词语和语调联系起来来检测和区分人类情绪。但是,这些系统能够理解区分微笑和假笑的细微差别吗?他们知道微笑可以伴随愤怒吗
Steinhardt助理教授Edward B.Kang等专家警告说,答案是否定的。Kang是2023年ACM公平、问责和透明会议上发表的研究论文《论人工智能语音情感识别的实践和政治》的作者,他写道,语音情感识别(SER)是“一种建立在情感科学脆弱假设基础上的技术,不仅使其在技术上存在缺陷,而且对社会有害。”
为了更好地了解这些缺点及其对呼叫中心、约会应用程序等的影响,《纽约大学新闻》采访了康,讨论了人工智能语音情感识别是如何工作的——而不是
我们需要先问一下我们所说的情绪是什么意思。事实上,对于情感到底意味着什么,还没有达成科学共识。我们指的是个人经历吗?生理反应?一套大脑模式?一种主观的感觉?或者这些的任何组合?最准确的答案是我们并不知道
人工智能系统是如何学习检测情绪的?
情绪可能是一个有用的术语,甚至是一个简单的“日常”术语,但从科学角度来看,它是一个混乱的术语。我们都知道,微笑并不总是意味着我们快乐。长期以来,研究人员一直认为,我们用来指代情绪体验的“恐惧”、“幸福”、“悲伤”、“愤怒”、“惊讶”和“厌恶”等标签是流动的,不可能根据一组有限的特征来确定
问题是,考虑到机器学习的结构,即使所谓的人工智能系统能够“工作”的统计技术,情绪需要被界定和具体定义,其可测量性也必须沿着这些可观察的特征来考虑
对于情绪检测人工智能系统及其基础数据集的构建,传统上涉及雇佣人类演员来表演某些面部表情或发声,这些表情或发声旨在刻板地代表某些情绪标签,例如,为“幸福”微笑或为“愤怒”呐喊。
这些表演成为情绪的代理,从广义上讲,这允许在可观察的特征(如声音的音调和速度)与由“标签”定义的预期“情绪”之间建立统计相关性。可以想象,这导致了对人类最复杂特征之一的讽刺
情绪识别人工智能系统的局限性在于,它们在设计上依赖于我们在数据集中定义为情绪的简化。换句话说,它们只是不太可靠或不准确。其危害在于,它们仍然可以被用作一种情感监视形式
与这些系统相关的限制和危害是什么?有什么好处?
作为我研究的一部分,我研究了语音情感识别在呼叫中心的使用。在这里,呼叫中心运营商会根据他们的声音是否足够悦耳来进行评估。如果他们的评价足够积极,他们可以获得补偿奖金。当然,另一方面,可能是对不遵守SER系统强制执行的情感规范的惩罚
尽管人工智能系统依赖于客观情感定义存在的论点,但训练它们的数据集却显示出相反的情况。这些数据集最终是根据数据集创建者和被雇佣来表现情绪的参与者的信念构建的,这些主观和任意的过程是少数人定义和表现情绪的过程。在这些人工智能系统中,这些对情绪的解释被固化为基本事实
这些系统的好处只存在于那些不受其评估的人。例如,它为管理者提供了一个用于员工评估的额外工具和数据点。尽管该数据点可能不一定是它所代表的,但它为那些使用它来评估他人的人提供了一定程度的控制
除了在呼叫中心的应用之外,人工智能SER和SER相邻的语音分析技术正被提议作为高风险环境的解决方案,如在金融领域进行贷款违约预测,在招聘领域进行候选人成功预测,以及在医疗领域进行心理健康筛查。据我所知,它还没有在其他行业广泛实施,但这也是为什么现在是谈论它的时候了。
目前有哪些技术在使用和实现人工智能语音情感识别?
微软已经承诺从其面部识别技术中删除面部情绪识别功能,原因与我批评SER的原因相同,即对于人工智能辅助的情绪识别是否可以以可靠、准确或一致的方式进行,缺乏科学共识。这使得SER可能成为面部情绪识别的潜在替代品尤其令人担忧
根据我对行业从业者的采访,似乎也有人提议为约会应用程序提供SER,据称这将有助于在个人之间提供更好的匹配
我的个人记录
你对将情感识别融入消费产品有什么建议?
老实说,我个人的建议是根本不要做这件事。在我看来,这充其量是一种用于低风险应用程序(如自我监控应用程序)的选择加入“有趣”功能,如果它被纳入其中,则应明确表示它仅用于娱乐目的。最糟糕的情况是,我认为情绪识别人工智能是一个科学上有争议的话题的技术应用,它被用来为那些对这些系统的开发和使用几乎没有控制权的人做出改变生活的决定。
一旦我们接受了一个有问题的前提,即情绪可以被巧妙地提取到数据中,并且可以利用数据基础设施或我们所说的“人工智能”来可靠、准确和一致地识别情绪,情感监控和在呼叫中心使用SER时检查的补偿后果只是它如何被滥用的开始。
你对使用SER与儿童互动的玩具有什么想法吗?
脑海中浮现的一个应用程序是一款名为Moxie的玩具机器人,它在与儿童的互动中融入了多模式人工智能情感识别。根据其创建者发布的一篇论文,该玩具跟踪的行为指标主要与面部表情和单词选择有关。在这里,尽管从技术上讲,单词选择是通过麦克风通过语音记录的,但它与SER不同,因为单词分析可能首先由语音到文本模型提供动力,该模型将语音转换为文本,然后分析文本,以检查某些单词,如“家人”或“朋友”,是否与他们认为“积极”或“消极”的概念有关
这在该领域通常被称为“情绪分析”,由于类似的原因,这也是一个有点争议的领域:单凭单词并不能始终如一地表示“情绪”。论文指出,该玩具最初是作为一种工具开发的,用于支持被诊断为精神行为发展障碍或MBDD的儿童,但我的理解是,它现在被作为一种更通用的学习伴侣出售,面向所有儿童,支持“整体技能发展”,这当然扩大了莫西的潜在市场。
我的同事Mara Mills称这种为残疾提供资源的现象是向更有利可图的领域迈出的一步,称之为“辅助借口”。正如我在论文中简要叙述的那样,儿童,尤其是那些被诊断患有MBDD的儿童,在历史上一直被指定为情感识别技术最初发展的目标人群和理由。
例如,罗莎琳德·皮卡德1995年的开创性著作《情感计算》中有一章专门介绍了“帮助自闭症患者”。大约十年后,剑桥大学的研究人员还提出了一种“情感助听器”,被描述为一种面部假体,可以帮助患有阿斯伯格综合症的儿童进行社交。据我所知,这项工作中的大部分已经被更广泛的科技行业所接受,现在已经超越了这些“辅助性借口”,而作为其最初发展理由的个人利益是有争议的。我希望研究人员和建设者在开发或不开发这些技术时保持批判性和同情心。
想要了解更多关于脑机接口技术的内容,请关注脑机网,我们将定期发布最新的研究成果和应用案例,让您第一时间了解脑机接口技术的最新进展。