三种用于野外面部表情识别的卷积神经网络模型

上海电力大学的两位研究人员最近开发并评估了野生人脸表情识别(FER)的新神经网络模型。他们的研究发表在Elsevier的Neurocomputing期刊上，提出了三种卷积神经网络(CNN)模型：Light-CNN，双分支CNN和预先训练的CNN。

“由于缺乏关于非正面的信息，野外的FER是计算机视觉中的一个难点，”进行这项研究的研究人员之一钱永生告诉TechXplore。“基于深度卷积神经网络(CNN)的现有自然面部表情识别方法存在一些问题，包括过拟合，高计算复杂度，单一特征和有限样本。”

尽管许多研究人员已经开发了用于FER的CNN方法，但到目前为止，他们中很少有人试图确定哪种类型的网络最适合这一特定任务。意识到文献中的这种差距，永胜和他的同事邵杰为FER开发了三种不同的CNN，并进行了一系列的评估，以确定他们的优势和劣势。

“我们的第一个模型是浅光CNN，它引入了一个深度可分离的模块和剩余的网络模块，通过改变卷积方法来减少网络参数，”永胜说。“第二个是双分支CNN，它结合了全局特征和局部纹理特征，试图获得更丰富的特征并补偿卷积旋转不变性的缺乏。第三个预训练的CNN使用在同一个分布式大型数据库中训练的权重重新培训自己的小型数据库，缩短培训时间，提高识别率。“

研究人员对三种常用于FER的数据集进行了CNN模型的广泛评估：公共CK +，多视图BU-3DEF和FER2013数据集。尽管三种CNN模型在性能上存在差异，但它们都取得了可喜的成果，优于几种最先进的FER方法。

“目前，这三种CNN型号是分开使用的，”永胜解释说。“浅网络更适合嵌入式硬件。预训练的CNN可以获得更好的效果，但需要预先训练的权重。双分支网络不是很有效。当然，也可以尝试使用这三种模式一起。”

在他们的评估中，研究人员观察到，通过组合剩余网络模块和深度可分离模块，就像他们为第一个CNN模型所做的那样，可以减少网络参数。这最终可以解决计算硬件的一些缺点。此外，他们发现预先训练的CNN 模型将大型数据库转移到自己的数据库，因此可以用有限的样本进行训练。

永胜和杰提出的三个针对FER的CNN可以有许多应用，例如，帮助开发能够识别他们正在与之交互的人的面部表情的机器人。研究人员现在计划对他们的模型进行额外调整，以进一步提高他们的表现。

“在我们未来的工作中，我们将尝试添加不同的传统手动功能，加入双分支CNN并改变融合模式，”永胜说。“我们还将使用跨数据库培训网络参数来获得更好的泛化能力，并采用更有效的深度传输学习方法。”