极低成本,复现GPT

内容摘要本文由 NUS ShowLab 主导完成。第一作者宋亦仁为新加坡国立大学 ShowLab@NUS 在读博士生,研究方向是视觉生成和多模态,在 CVPR、SIGGRAPH、NeurIPS 等国际顶级会议上发表多篇研究成果。共同一作刘成为 NU

本文由 NUS ShowLab 主导完成。第一作者宋亦仁为新加坡国立大学 ShowLab@NUS 在读博士生,研究方向是视觉生成和多模态,在 CVPR、SIGGRAPH、NeurIPS 等国际顶级会议上发表多篇研究成果。共同一作刘成为 NUS 重庆研究院四年级本科生,研究方向是视觉生成。项目负责作者为该校校长青年教授寿政。

不久前,GPT-4o 的最新图像风格化与编辑能力横空出世,用吉卜力等风格生成的效果令人惊艳,也让我们清晰看到了开源社区与商业 API 在图像风格化一致性上的巨大差距。

目前,开源扩散模型在 image-to-image 风格迁移中普遍面临一个跷跷板困境:要想增强风格化效果,往往会牺牲细节、结构和语义一致性;而要保持一致性,风格表达则明显退化。

为了解决这一难题,我们提出 OmniConsistency,利用配对数据复现 GPT-4o 的出色风格化一致性,为开源生态注入接近商业级的能力。

论文标题:OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data

项目主页:showlab/OmniConsistency

论文链接:abs/2505.18445

Demo 试用链接:spaces/yiren98/OmniConsistency

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备19001410号-1