Attention Isn’t All You Need for Emotion Recognition:Domain Features Outperform Transformers on the EAV DatasetAuthors:Anmol GuragainDeep-Dive Summary:论文总结注意力并非情感识别的全部领域特征在 EAV 数据集上优于 Transformer摘要 (Abstract)本研究对使用 EAV 数据集的多模态情感识别进行了系统性研究探讨了复杂的注意力机制是否能提升小规模数据集上的性能。研究实现了三类模型基准 Transformer (M1)、新型分解注意力机制 (M2) 以及改进的 CNN 基准 (M3)。实验结果表明复杂的注意力机制在小数据集上始终表现不佳M2 模型由于过拟合和对预训练特征的破坏其准确率比基准模型低 5 到 13 个百分点。相比之下简单且符合领域特征的修改证明是有效的在音频 CNN 中加入 Delta MFCC 将准确率从61.9 % 61.9\%61.9%提升至65.56 % 65.56\%65.56%(3.66pp)为 EEG 引入频域特征实现了67.62 % 67.62\%67.62%的准确率比论文基准提升 7.62pp。我们的视觉 Transformer 基准 (M1) 通过特定领域的预训练达到了75.30 % 75.30\%75.30%超过了原论文中 ViViT 的结果 (74.5 % 74.5\%74.5%)。这些发现证明对于小规模情感识别领域知识和正确的实现比架构复杂性更重要。2. 相关工作与数据集 (Related Work Dataset)EAV 数据集通过同步记录 42 名参与者在活跃对话中的 EEG、音频和视频信号弥补了传统数据集的不足。EEG 信号采样率为 500 Hz30 通道音频为 16 kHz视频为 30 fps。由于训练数据有限约 280 个样本必须限制模型的复杂性。研究参考了 Davidson 的额叶不对称模型F3 与 F4 通道的差异与情绪正负价相关这为 M2 的 EEG 架构和 M3 的频带功率特征提供了理论基础。4. 实验结果与分析 (Results Analysis)4.1 主要发现如表 1 所示主要结论如下M2 分解注意力失败: 所有 M2 模型均低于基准。复杂的架构在 280 个训练样本下无法有效学习导致严重的过拟合。M3 简单修改获胜: 领域特征显著提升了性能。EEG 频带功率达到了67.62 % 67.62\%67.62%。预训练领域至关重要: 视觉模型中在情感数据上预训练的 M1 表现优于在 ImageNet 上预训练的 M3 CNN。表 1各模型结果对比绿色表示超过原论文基准类别模型EEG音频视觉原论文基准CNN / Transformer60.00% / 53.50%61.90% / 62.70%71.40% / 74.50%M1: 基准Transformer52.68%58.06%75.30%M2: 分解注意力各种 M2 变体48.00% - 58.47%49.46%69.54%M3: CNN 改进频带功率/Delta/Bug修复67.62%65.56%72.68%图 2M3 改进架构图。展示了 EEG 频带功率特征、修复后的视觉 CNN 和加入 Delta 特征的音频 CNN。4.2 失败与成功原因分析M2 失败原因: (1) 额外的注意力层破坏了预训练模型AST/ViT提取的高质量特征(2) 参数量远超数据量过拟合(3) 复杂的归纳偏置需要大数据量支撑。M3 成功原因: (1)领域知识优于学习特征频带功率和额叶不对称性是数十年的神经科学研究结晶有效地过滤了 EEG 中的噪声约 80% 为噪声(2)Bug 修复解决了冗余 Softmax 和无效 SE 比例等实现错误。附录理论背景 (Theoretical Background)A.1 情感模型EAV 数据集基于离散情感理论涉及 5 种类别对应 Russell 的环形情感模型效价 Valence 与唤醒度 ArousalHappiness → ( Valence , Arousal ) \text{Happiness} \rightarrow (\text{Valence}, \text{Arousal})Happiness→(Valence,Arousal)Sadness → ( − Valence , − Arousal ) \text{Sadness} \rightarrow (-\text{Valence}, -\text{Arousal})Sadness→(−Valence,−Arousal)A.2 EEG 处理与额叶不对称性额叶不对称指数 (FAI) 计算公式为F A I ln ( P F 4 α ) − ln ( P F 3 α ) \mathrm{FAI} \ln (P_{F4}^{\alpha}) - \ln (P_{F3}^{\alpha})FAIln(PF4α)−ln(PF3α)其中P α P^{\alpha}Pα代表 Alpha 频带功率。正值 FAI 通常表示正向情绪。A.3 音频 MFCC 提取音频特征提取涉及预加重、分帧加窗、短时傅里叶变换 (STFT) 以及梅尔滤波器组。Delta 特征捕捉动态变化Δ c t ∑ n 1 N n ( c t n − c t − n ) 2 ∑ n 1 N n 2 \Delta c_{t} \frac{\sum_{n 1}^{N}n(c_{t n} - c_{t - n})}{2\sum_{n 1}^{N}n^{2}}Δct2∑n1Nn2∑n1Nn(ctn−ct−n)A.4 视觉 FACS人脸动作编码系统 (FACS) 将表情分解为动作单元 (AU)例如幸福: AU6 (脸颊提升) AU12 (唇角拉紧)愤怒: AU4 (皱眉) AU5 (上睑提升) AU7 (睑收紧)Original Abstract:We present a systematic study of multimodal emotion recognition using the EAV dataset, investigating whether complex attention mechanisms improve performance on small datasets. We implement three model categories: baseline transformers (M1), novel factorized attention mechanisms (M2), and improved CNN baselines (M3). Our experiments show that sophisticated attention mechanisms consistently underperform on small datasets. M2 models achieved 5 to 13 percentage points below baselines due to overfitting and destruction of pretrained features. In contrast, simple domain-appropriate modifications proved effective: adding delta MFCCs to the audio CNN improved accuracy from 61.9% to \textbf{65.56%} (3.66pp), while frequency-domain features for EEG achieved \textbf{67.62%} (7.62pp over the paper baseline). Our vision transformer baseline (M1) reached \textbf{75.30%}, exceeding the paper’s ViViT result (74.5%) through domain-specific pretraining, and vision delta features achieved \textbf{72.68%} (1.28pp over the paper CNN). These findings demonstrate that for small-scale emotion recognition, domain knowledge and proper implementation outperform architectural complexity.PDF Link:2601.22161v1部分平台可能图片显示异常请以我的博客内容为准