机器学习模型捕捉面部表情的细微变化

时间：2021-11-27 19:58:04来源：

麻省理工学院媒体实验室的研究人员开发了一种机器学习模型，该模型使计算机比人类更自然地解释我们的情绪。该模型可以更好地捕捉微妙的面部表情变化，从而更好地评估情绪。通过使用额外的训练数据，该模型还可以适应具有相同功效的全新人群。

个性化的机器学习模型可以捕捉面部表情的细微变化，从而更好地评估我们的感受。

麻省理工学院媒体实验室的研究人员开发了一种机器学习模型，该模型使计算机比人类更自然地解释我们的情绪。

在“情感计算”这一不断发展的领域中，正在开发机器人和计算机来分析面部表情，解释我们的情绪并做出相应的反应。应用程序包括，例如，监测个体的健康状况，衡量学生对教室的兴趣，帮助诊断某些疾病的征兆以及发展有用的机器人同伴。

然而，一个挑战是，人们表达情感的方式完全不同，这取决于许多因素。在文化，性别和年龄组之间可以看到普遍的差异。但是其他差异甚至更细粒度：一天中的时间，您睡了多长时间，甚至对会话伙伴的熟悉程度都会导致您在给定时刻表达，说出幸福或悲伤的方式发生细微的变化。

人脑本能地捕捉到这些偏差，但是机器却在挣扎。近年来，人们开发了深度学习技术来帮助捕捉细微差别，但它们仍无法尽可能准确地适应不同人群。

媒体实验室的研究人员开发了一种机器学习模型，该模型在捕获这些小的面部表情变化方面优于传统系统，从而可以在训练数千张面孔图像时更好地评估情绪。此外，通过使用一些额外的训练数据，该模型可以适应具有相同功效的全新人群。目的是改进现有的情感计算技术。

“这是监视我们情绪的一种轻松的方式，”媒体实验室研究员，上周在机器学习和数据挖掘会议上发表的描述该模型的论文的合著者Oggi Rudovic说。“如果您想要具有社交智能的机器人，则必须使它们智能化，并自然地响应我们的情绪和情感，更像是人类。”

该论文的共同作者为：第一作者迈克尔·费弗（Michael Feffer），电气工程和计算机科学专业的本科生。媒体艺术与科学教授，情感计算研究小组的创始主任罗莎琳德·皮卡德（Rosalind Picard）。

个性化专家

传统的情感计算模型使用“千篇一律”的概念。他们训练一组描绘各种面部表情的图像，优化特征（例如，微笑时嘴唇如何卷曲），并在整个新图像集中映射这些常规特征优化。

相反，研究人员将一种称为“专家混合”（MoE）的技术与模型个性化技术相结合，该技术帮助从个体中挖掘出更细粒度的面部表情数据。Rudovic说，这是这两种技术首次结合用于情感计算。

在MoE中，许多称为“专家”的神经网络模型都经过训练，专门研究一种单独的处理任务并产生一个输出。研究人员还结合了一个“门控网络”，该网络可以计算出哪个专家可以最好地发现看不见的受试者的情绪的概率。费弗说：“基本上，网络可以分辨出个体，并说，'这是给定图像的正确专家'。”

对于他们的模型，研究人员通过将每位专家与RECOLA数据库中的18个独立视频记录之一进行匹配来个性化MoE，RECOLA数据库是一个在情感聊天应用程序专用的视频聊天平台上进行交谈的公共数据库。他们使用9个主题对模型进行了训练，并在其他9个主题上对其进行了评估，并将所有视频分解为单个帧。

每个专家和门控网络借助残差网络（“ ResNet”）（用于对象分类的神经网络）跟踪每个个体的面部表情。在此过程中，该模型基于效价（愉悦或不愉悦）和唤醒（兴奋）的水平（通常用于编码不同情绪状态的指标）对每个帧评分。另外，六位人类专家根据-1（低水平）到1（高水平）的比例，分别在每个帧上标记了价和唤醒，模型也使用该比例进行训练。

然后，研究人员进行了进一步的模型个性化，他们从受试者的剩余视频的某些帧中输入训练后的模型数据，然后在这些视频中所有看不见的帧上测试模型。结果表明，在新人口中只有5％到10％的数据，该模型在很大程度上优于传统模型，这意味着它在看不见的图像上的价位和唤醒度更接近人类专家的解释。

Rudovic说，这显示了使用很少的数据从人口到人口，或从个体到个体的模型的潜力。“那很关键，”他说。“当您有新人口时，您必须有一种方法来解决数据分布的变化（细微的面部变化）。想象一下一个模型集，该模型可以分析一种文化中需要适应另一种文化的面部表情。如果不考虑这种数据转移，这些模型将表现不佳。但是，如果您只是从某种新文化中取样以适应我们的模型，那么这些模型可以做得更好，尤其是在单身水平上。在这里，可以最好地看出模型个性化的重要性。”

目前，此类情感计算研究可用的数据在皮肤颜色方面还不是很正常，因此研究人员的训练数据非常有限。但是，当这些数据可用时，可以训练该模型以供更多的人口使用。费弗说，下一步是在“更大的数据集和更多的文化背景下”训练模型。

更好的人机交互

研究人员说，另一个目标是训练该模型，以帮助计算机和机器人自动从少量变化的数据中学习，从而更自然地检测出我们的感觉并更好地满足人类需求。

例如，它可以在计算机或移动设备的后台运行，以跟踪用户基于视频的对话，并了解不同情况下面部表情的细微变化。费弗说：“您可以使智能手机应用程序或网站之类的东西能够分辨出人们的感受，并提出应对压力或痛苦以及对生活产生负面影响的其他方法的建议。”

这也可能有助于监测抑郁症或痴呆症，因为人们的面部表情会由于这些状况而发生微妙的变化。“能够被动地监控我们的面部表情，” Rudovic说，“随着时间的流逝，我们可以向用户个性化这些模型，并监控他们每天有多少偏差-偏离面部表情的平均水平-并使用它衡量幸福感和健康状况的指标。”

Rudovic说，一个有希望的应用是人与机器人之间的交互，例如用于个人机器人或用于教育目的的机器人，其中机器人需要适应以评估许多不同人的情绪状态。例如，一种版本已用于帮助机器人更好地解释自闭症儿童的情绪。

贝尔法斯特女王大学心理学名誉教授，情感计算学者罗迪·考伊（Roddy Cowie）说，麻省理工学院的工作“说明了我们在这方面的真实情况”。他说：“我们正在朝着可以从人的脸部照片粗略放置的系统发展，这些人的脸处于从非常积极到非常消极，从非常活跃到非常被动的等级上。”“从直觉上看，一个人给出的情感标志与另一个人给出的标志并不相同，因此从情感上讲，个性化情感识别效果更好。个性化方法反映了另一个有趣的观点，即培训多个“专家”并汇总他们的判断比培训一个超级专家更有效。两者一起构成了令人满意的包装。

纸：混合的个人影响力估计专家