中国中文信息学会

当前位置：首页 > 业内新闻

CVPR 2024 | 基于文生图扩散模型的情感图像内容生成

来源：情感计算Affective Computing发布时间：2024-08-02

题目：EmoGen: Emotional Image Content Generation with Text-to-Image Diffusion Models

会议：CVPR 2024

作者：杨景媛、冯嘉伟、黄惠*

单位：深圳大学

项目主页：https://vcc.tech/research/2024/EmoGen

摘要

本工作首次将生成任务引入视觉情感计算领域，提出情感图像内容生成(Emotional Image Content Generation，EICG) 任务，旨在生成语义明确、多元，并能传达指定情感的图像。本工作通过建立映射网络，将情感空间与CLIP空间对齐，通过属性损失和情感置信度的设计，为抽象视觉情感提供了具体语义解释。此外，本工作针对新任务提出了三个新的评价指标；定量结果、可视化实验和用户调查验证了本工作的有效性；在情感概念分解、情感迁移和情感融合上的应用，展示出本工作在情感理解和艺术设计上的巨大潜力。

引言

近年来，扩散模型在图像生成领域上取得了卓越的进展，尤其是在文本生成图像（text-to-image）方向上，用户可以通过手工设计提示词或指定个性化物体，生成超逼真、高质量的图像。现有的文生图扩散模型通常在具体概念（如猫咪，房屋，山脉）的生成上表现出色，但是在表达抽象概念（如开心，愤怒，悲伤）时却遭遇瓶颈。在日常生活中，摄影师和艺术家在创作时，往往希望有情感化的呈现和设计。

我们很自然地想到：计算机能否生成震撼人眼，且触动人心的图像呢？生成情感是一项充满挑战的任务。情感是认知级的概念，而图像是像素级的实体，其中存在难以逾越的情感鸿沟。为了将情感和图像建立联系，现有工作试图通过改变图像的颜色、风格来实现情感迁移，但是效果往往差强人意。有心理学研究表明，视觉情感通常是由图像中的某些具体语义唤起的。

文生图扩散模型大多是借助CLIP空间的共用语义表征来实现的，但是本文发现CLIP空间不能很好地捕捉情感和图像间的关系，由此引入了情感空间，实现同类情感相聚，不同情感远离，并提出映射网络对齐情感空间和CLIP空间，为后续情感的语义化解释提供了保障。

由于情感图像内容生成是一项新任务，本文提出了三个新的评价指标，分别从语义明确性、情感一致性、语义多样性等多角度来评估生成结果。定量结果、可视化实验和用户调查从多个维度验证了本工作的有效性。

技术贡献

本工作主要贡献如下：

 首次提出情感图像内容生成任务，并针对新任务设计三个评价指标；

 引入情感空间，建立与CLIP空间的映射；提出属性损失和情感置信度，确保生成图像的语义多样性和情感一致性；

 定量和定性结果证明了本方法的有效性，展现了在情感理解和艺术创作应用上的潜力。

方法介绍

本方法分为情感表征和情感内容生成两部分，通过两阶段网络训练实现。情感表征旨在将情感标签转换成张量形式的特征表达，以便后续与语义特征建立映射。情感内容生成旨在生成语义明确且与情感鲜明的内容。

图1 网络训练过程，情感表征（一阶段）学习情感空间，情感内容生成（二阶段）将情感空间映射到CLIP空间，旨在生成图像内容具有情感一致性，语义明确性和语义多样性。

情感表征
CLIP空间尽管有强大的语义表征能力，但是并不能很好地刻画情感关系。由此，基于EmoSet数据集中的情感图像和标签，本文结合交叉熵损失训练情感编码器。图像经过情感编码器提取特征后形成了情感空间。好的情感空间应该有以下特点：同类情感特征聚集，不同类情感特征远离。

情感内容生成
为了使生成的情感图片具有明确语义，本文将情感空间映射到CLIP空间。文中使用非线性映射层结合 CLIP 内置的 transformer，将抽象情感和具体语义关联起来，使得扩散模型能够理解情感知识。同时，为了保留 CLIP 原有知识，本文冻结 transformer 和线性映射层的参数，只训练非线性映射层。

所使用的损失函数包含了常用的隐扩散模型损失、针对语义设计的属性损失和针对情感设计的情感置信度。

其中ε是给原图像添加的噪声，是预测噪声的网络，是添加了t时刻噪声的隐特征。

映射后的向量尽管有鲜明的情感色彩，却可能在语义表达上不明确。属性损失的设计理念是利用标签加强对于生成内容的语义引导。具体来说，计算CLIP文本编码器输出的属性特征和映射后的视觉特征之间的余弦相似度，并利用交叉熵损失优化该过程。

情感置信度的设计理念是，EmoSet 中的属性并非都与情感相关。例如，一棵普通的树可能不会唤起强烈情感，但一只怒吼的狮子可能会使人感到恐惧或愤怒。通过实验观察，本文发现属性损失可以保证生成明确的语义内容，而隐扩散模型损失用于维持全局的情感色彩。为平衡整体色彩和局部语义之间的关系，本文使用情感置信度来刻画各属性与各情感的关联程度。本文所使用的损失函数如下：

结果展示

作为第一个视觉情感内容生成的工作，本文选取最相近的个性化文生图扩散模型作为对比方法。图2中展示了3个情感类别上的生成结果，相较对比方法，本文生成了高保真、高质量的图像，且语义明确、多元，能唤起较为强烈的目标情感。

图2 论文方法与现有文生图方法和消融实验的定性比较。

如下表所示，与相关方法对比，本方法在保真度、全局多样性、情感一致性、语义明确度和语义多样性五种指标上取得了最优越的性能。

表1 在五个指标上与现有最好的方法比较

本方法在多个子任务上具有广阔应用前景，其中包括：情感分解、情感迁移和情感融合。

情感分解

基于视觉情感源自内容的假设，本文试图可视化同一情感下的多元语义表达。举例来说，图3中的冲浪板、自行车和运动场，都是可以引发激动情感的物体。这些情感概念表现出了多元和明确的语义，具有唤起强烈情感的能力。通过分解视觉情感，我们不仅能够生成丰富语义的情感图像，还能进一步理解情感唤起的过程。这个结果揭示了情感和语义的紧密联系，这也和前文提到的心理学研究结论遥相呼应。

图3 情感分解，每个情感都能分解成多个语义，且每个语义都有对应的生成图像。

情感迁移

为进一步探索情感创造的可能性，本文将所学情感表征加入到中性物体的语义上，生成了具有情感色彩的、有创造力的图像，展现了本方法在艺术创作上的巨大潜力。

如图4所示，生成图像在保持原有语义的基础上，与表达情感的元素无缝衔接。以开心为例，在不同的语义条件下，本方法可以加入合理且多元的情感内容，如游乐园、野餐、公主、气球和彩灯。

图4 情感迁移，将中性物体和情感表征（开心，恐惧）结合生成图像。

情感融合

图5展示了情感融合时的有趣结果，当融合两个不同情感时，本方法既能保留各情感特有的内容，又能很好地融合两种不同的情感特征。当看到既有趣又可怕的脸时，我们能同时体验到开心和恐惧的情感。这一结果也为情感化的艺术设计提供了新的思路。

图5 情感融合，将两个情感结合生成图像。

总结与展望

正如理查德·费曼所说：“我无法创造，就代表我没有理解”，现有视觉情感计算大多集中在识别和分类问题上，这极大地限制了该领域的发展和深入。情感图像内容生成任务的提出，一方面连接了文本和视觉模态，使自动化的情感创作成为可能；另一方面也加深了对于视觉情感的理解，拓宽了该领域的研究范畴。研究团队希望该工作的提出，可以开拓新的研究领域，启发好的研究思路，鼓励研究者们在图像情感生成、跨模态情感理解等方向不断探索。

上一篇：论文速递丨ACL 2024：交叉领域情感分析

下一篇：论文速递 | TAFFC 基于解耦表示学习和原型学习的跨领域情感分析

返回列表