MT-Color – 联合哔哩哔哩与上海交通大学开发的可控图像着色系统,提升图像处理的灵活性与效率
MT-Color是什么
MT-Color是上海交通大学联合哔哩哔哩推出的基于扩散模型的可控图像着色框架,基于用户提供的实例感知文本和掩码实现精确的实例级图像着色。框架基于像素级掩码注意力机制防止色彩溢出,用实例掩码和文本引导模块解决色彩绑定错误问题,用多实例采样策略增强实例感知效果。MT-Color构建了GPT-Color数据集,提供高质量的实例级注释,支持更精细的图像着色任务。MT-Color在色彩准确性和视觉质量上优于现有方法,生成的图像更符合人类视觉感知。

MT-Color的主要功能
- 精确的实例级着色:根据用户提供的实例掩码和文本描述,对图像中的不同对象进行精确着色,确保每个对象的颜色与其描述一致。
- 防止色彩溢出:基于像素级掩码注意力机制,有效避免色彩在不同对象之间的错误扩散,保持颜色的边界清晰。
- 高质量的色彩生成:生成的彩色图像色彩丰富、自然,且分辨率高(512×512),细节更清晰。
- 灵活的用户控制:支持用户用文本描述和掩码对图像着色过程进行精细控制,满足不同的着色需求。
- 数据集支持:构建专门的GPT-Color数据集,提供高质量的实例级注释,支持更精细的图像着色任务。
MT-Color的技术原理
- 像素级掩码注意力机制:将ControlNet提取的灰度图像特征与Stable Diffusion的潜在特征通过像素级交叉注意力机制对齐,防止不同实例间的像素信息交换,缓解色彩溢出问题。用分割掩码构建交叉注意力掩码,确保像素信息在不同实例间不会相互干扰。
- 实例掩码和文本引导模块:提取每个实例的掩码和文本表示,与潜在特征基于自注意力机制融合,基于实例掩码形成自注意力掩码,防止实例文本引导其他区域的着色,减少色彩绑定错误。
- 多实例采样策略:在采样过程中,对每个实例区域分别进行采样,将结果融合,进一步增强实例感知的着色效果。
- GPT-Color数据集:基于预训练的视觉语言模型(如GPT-4和BLIP-2)在现有的图像数据集上自动生成高质量的实例级注释,包括细粒度的文本描述和对应的分割掩码,为模型训练提供丰富的训练数据。
MT-Color的项目地址
- arXiv技术论文:https://arxiv.org/pdf/2505.08705
MT-Color的应用场景
- 历史照片修复:为黑白历史照片添加生动色彩,增强观赏性和历史感。
- 影视后期制作:修复和增强黑白或低质量彩色镜头,提升视觉效果。
- 艺术创作:帮助艺术家为黑白草图或插画添加色彩,实现创意。
- 医学图像处理:为医学图像添加色彩,提高诊断价值。
- 教育领域:为教学材料中的黑白图像添加色彩,增强学习体验。
发表评论