EmoStyle：情感也能“风格化”？深大VCC带你见证魔法！

EmoStyle 由深圳大学可视计算研究中心黄惠教授课题组独立完成，第一作者为杨景媛助理教授，第二作者为研二硕士生柏梓桓。深圳大学可视计算研究中心（VCC）以计算机图形学、计算机视觉、人机交互、机器学习、具身智能、可视化和可视分析为学科基础，致力前沿探索与跨学科创新。中心主任黄惠为深圳大学讲席教授、计算机学科带头人、计算机与软件学院院长。

论文标题：EmoStyle: Emotion-Driven Image Stylization 论文链接：https://arxiv.org/abs/2512.05478 项目主页：https://vcc.tech/research/2026/EmoStyle 项目代码：https://github.com/JingyuanYY/EmoStyle

很多时候，我们心里攒满了表达的愿望，却因为没有绘画功底、缺乏艺术训练，只能对着相册里平淡的照片发呆。比如，明明想拍下那个午后的惬意，镜头里却只剩下一片苍白的过曝；在过年返工的路上，看着窗外灰蒙蒙的天空，心里正泛起一阵阵 “emo”，那一刻你多希望能在画面里抹上一笔明媚的色彩，去治愈现实的沉闷。

EmoStyle 想做的很简单：你只需要提供一种 “情感”，剩下的创作，它替你完成。

你不用去学怎么调色，用什么笔触，也不用纠结什么艺术流派。你只需要告诉它，现在的你想要一点 “明媚”，或者一点 “怀旧”，它就像一个懂你的小画家，替你点亮脑海里尘封的感受，绘制出一幅幅有温度、有故事的作品。我们相信，每个人都能够把生活过得有创意一点，哪怕只是从给照片换个心情开始。

图像情感风格化（Affective Image Stylization）具有双重目标：

精准且显著地唤起目标情感保持编辑后图像与原图的语义一致性

如下图所示，AIS 融合了风格迁移和 AIM (Affective Image Manipulation) 的优势，弥补了它们之间的差距：它能够在像 AIM 一样唤起情感的同时，像风格迁移一样生成风格化的结果。AIS 主要面对两大关键挑战：（1）训练数据的缺失：现有的数据集无法提供 “内容 - 情感 - 风格化 “的图像三元组用于情感风格化任务；（2）建立情感和风格之间的映射：生成在保持内容一致性同时又富有情感表现力的风格变体，绝非易事。

为解决上述两大挑战，本文的主要贡献如下：

EmoStyle

EmoStyleSet

Emotion-Content Reasoner

Style Quantizer

EmoStyleSet 的构建

鉴于现有数据集的缺失，我们首先利用 UnZipLoRA 将 Artemis 数据集中所涵盖的艺术图像解耦进行内容 LoRA 的学习，并结合 ControlNet 生成对应的真实图像。考虑到艺术图像内容和风格解耦的复杂性，我们对生成的图像施行指标测量和人工筛选的过滤过程，以提升数据集的整体质量。

Emotion-Content Reasoner 的设计

在艺术创作中，风格与内容是紧密交织的，艺术家会自然地调整其风格选择，使其与主题内容和情感意图相契合。AIS的一大关键挑战在于如何选择合适的艺术风格以有效激发目标情感。

为此，我们首先提出了 Emotion-Content Reasoner，旨在根据给定内容图像和目标情感确定最合适的风格。

通过将情感词编码为 one-hot 向量，结合由 SigLIP 编码的图像特征，由 transformer 完成跨模态推理，推导出一种情感和内容感知的风格查询，用于后续的风格选择。

Style Quantizer 的设计

在人类视觉认知中，艺术风格往往认为是离散的类别，而非连续的，例如 Impressionism。因此，我们提出 Style Quantizer，将风格特征离散化为独立的原型，从而实现可解释且可控的风格学习。

在训练过程中，我们通过风格损失，流匹配损失和对齐损失经过两阶段训练共同优化网络：

其中，风格损失侧重于风格相似性，流匹配损失侧重于像素相似性，对齐损失侧重于情感正确性。

实验结果

在对比实验中，我们从风格迁移，图像编辑和 AIM 三种不同任务中选择了对比方法。与其他方法相比，EmoStyle 在情感表达与内容保留之间实现了卓越的平衡，呈现出既美观又富有情感感染力的风格化效果，使其成为情感驱动的艺术风格化创作的有效框架。

在消融实验中，若不使用 Style Quantizer，结果往往更接近真实图像；Emotion Encoder 和 Emotion-Content Reasoner 对情感感知风格化至关重要，移除它们将导致结果情感感染力减弱。通过整合这些关键模块，EmoStyle 能够生成情感真实、艺术性强且内容一致的图像。

同时，我们观察到通过扩大 Scale 能增强情感与风格的表达力，却会损害结构的完整性，由此揭示了情感与内容之间的权衡关系。EmoStyle 有效平衡了这些方面，并且用户可根据个人偏好调整情感强度并精细调节风格化效果。

在定量实验中，我们评估了语义、风格以及情感性三个方面的指标，EmoStyle 在大多数指标上超越了其他对比方法，展现了其在 AIS 任务上的卓越性能。

我们还对情感风格词典进行了部分可视化，每种风格词典都提供多样且美观的风格类别，能有效唤起目标情绪。用户可针对每种情绪进一步选择特定风格，生成符合其偏好的图像。

除了图像风格化之外，EmoStyle 还能扩展到文本到图像的生成，能够根据文本描述创建富有情感表现力的图像。

总结与展望

列夫・托尔斯泰曾言：

Art is not a handicraft, it is the transmission of feelings.

艺术不止匠心之精，更在于情感之美

近年来，我们课题组先后提出了情感计算领域的 Emo 系列研究工作：

EmoSet（ICCV 2023）：首个具有丰富属性标注的大规模视觉情感数据集； EmoGen（CVPR 2024）：首个针对图像情感内容生成的研究； EmoEdit（CVPR 2025）：首个聚焦于图像情感内容编辑的研究； EmoStyle（CVPR 2026）：首个聚焦于图像情感风格化的研究。

我们希望通过这一系列探索，为情感计算（Affective Computing）与生成式人工智能（AIGC）的交叉领域贡献新的思路与方法。未来，我们将持续深耕这一领域，也期待更多志同道合的朋友加入，共同探索「情感」这片蓝海！