EmoStyle 由深圳大学可视计算研究中心黄惠教授课题组独立完成,第一作者为杨景媛助理教授,第二作者为研二硕士生柏梓桓。深圳大学可视计算研究中心(VCC)以计算机图形学、计算机视觉、人机交互、机器学习、具身智能、可视化和可视分析为学科基础,致力前沿探索与跨学科创新。中心主任黄惠为深圳大学讲席教授、计算机学科带头人、计算机与软件学院院长。



很多时候,我们心里攒满了表达的愿望,却因为没有绘画功底、缺乏艺术训练,只能对着相册里平淡的照片发呆。比如,明明想拍下那个午后的惬意,镜头里却只剩下一片苍白的过曝;在过年返工的路上,看着窗外灰蒙蒙的天空,心里正泛起一阵阵 “emo”,那一刻你多希望能在画面里抹上一笔明媚的色彩,去治愈现实的沉闷。

EmoStyle 想做的很简单:你只需要提供一种 “情感”,剩下的创作,它替你完成。

你不用去学怎么调色,用什么笔触,也不用纠结什么艺术流派。你只需要告诉它,现在的你想要一点 “明媚”,或者一点 “怀旧”,它就像一个懂你的小画家,替你点亮脑海里尘封的感受,绘制出一幅幅有温度、有故事的作品。我们相信,每个人都能够把生活过得有创意一点,哪怕只是从给照片换个心情开始。

图像情感风格化(Affective Image Stylization)具有双重目标:

如下图所示,AIS 融合了风格迁移和 AIM (Affective Image Manipulation) 的优势,弥补了它们之间的差距:它能够在像 AIM 一样唤起情感的同时,像风格迁移一样生成风格化的结果。AIS 主要面对两大关键挑战:(1)训练数据的缺失:现有的数据集无法提供 “内容 - 情感 - 风格化 “的图像三元组用于情感风格化任务;(2)建立情感和风格之间的映射:生成在保持内容一致性同时又富有情感表现力的风格变体,绝非易事。



为解决上述两大挑战,本文的主要贡献如下:

EmoStyleSet 的构建



鉴于现有数据集的缺失,我们首先利用 UnZipLoRA 将 Artemis 数据集中所涵盖的艺术图像解耦进行内容 LoRA 的学习,并结合 ControlNet 生成对应的真实图像。考虑到艺术图像内容和风格解耦的复杂性,我们对生成的图像施行指标测量和人工筛选的过滤过程,以提升数据集的整体质量。



Emotion-Content Reasoner 的设计

在艺术创作中,风格与内容是紧密交织的,艺术家会自然地调整其风格选择,使其与主题内容和情感意图相契合。AIS的一大关键挑战在于如何选择合适的艺术风格以有效激发目标情感。

为此,我们首先提出了 Emotion-Content Reasoner,旨在根据给定内容图像和目标情感确定最合适的风格。

通过将情感词编码为 one-hot 向量,结合由 SigLIP 编码的图像特征,由 transformer 完成跨模态推理,推导出一种情感和内容感知的风格查询,用于后续的风格选择。



Style Quantizer 的设计

在人类视觉认知中,艺术风格往往认为是离散的类别,而非连续的,例如 Impressionism。因此,我们提出 Style Quantizer,将风格特征离散化为独立的原型,从而实现可解释且可控的风格学习。





在训练过程中,我们通过风格损失,流匹配损失和对齐损失经过两阶段训练共同优化网络:









其中,风格损失侧重于风格相似性,流匹配损失侧重于像素相似性,对齐损失侧重于情感正确性。

实验结果



在对比实验中,我们从风格迁移,图像编辑和 AIM 三种不同任务中选择了对比方法。与其他方法相比,EmoStyle 在情感表达与内容保留之间实现了卓越的平衡,呈现出既美观又富有情感感染力的风格化效果,使其成为情感驱动的艺术风格化创作的有效框架。



在消融实验中,若不使用 Style Quantizer,结果往往更接近真实图像;Emotion Encoder 和 Emotion-Content Reasoner 对情感感知风格化至关重要,移除它们将导致结果情感感染力减弱。通过整合这些关键模块,EmoStyle 能够生成情感真实、艺术性强且内容一致的图像。



同时,我们观察到通过扩大 Scale 能增强情感与风格的表达力,却会损害结构的完整性,由此揭示了情感与内容之间的权衡关系。EmoStyle 有效平衡了这些方面,并且用户可根据个人偏好调整情感强度并精细调节风格化效果。



在定量实验中,我们评估了语义、风格以及情感性三个方面的指标,EmoStyle 在大多数指标上超越了其他对比方法,展现了其在 AIS 任务上的卓越性能。



我们还对情感风格词典进行了部分可视化,每种风格词典都提供多样且美观的风格类别,能有效唤起目标情绪。用户可针对每种情绪进一步选择特定风格,生成符合其偏好的图像。



除了图像风格化之外,EmoStyle 还能扩展到文本到图像的生成,能够根据文本描述创建富有情感表现力的图像。

总结与展望

列夫・托尔斯泰曾言:

Art is not a handicraft, it is the transmission of feelings.

艺术不止匠心之精,更在于情感之美

近年来,我们课题组先后提出了情感计算领域的 Emo 系列研究工作:

我们希望通过这一系列探索,为情感计算(Affective Computing)与生成式人工智能(AIGC)的交叉领域贡献新的思路与方法。未来,我们将持续深耕这一领域,也期待更多志同道合的朋友加入,共同探索「情感」这片蓝海!