基于用户意图的文本到图像模型微调：IntentTuner系统设计与评估

IntentTuner是一个交互式框架，用于将用户意图融入文本到图像生成模型的微调。通过自然语言描述和图像参考，该系统帮助用户明确他们的训练意向，并将其转化为结构化的意图规范，以指导数据增强、模型训练监控和评估。研究发现当前的文本到图像生成模型在满足用户的定制需求上存在局限性，特别是对于风格、服装或肖像特征等细节的控制。IntentTuner通过智能地结合多模态输入，简化了微调过程，并通过意图相关的度量帮助用户监测和评价模型。

问题发现

缺乏对用户意图的有效理解和实现：现有的工具往往没有考虑到用户的细致化需求。
数据增强困难：难以获取与特定意图匹配的高质量训练图像和文本描述。
监控和评估挑战：缺乏直观且针对用户意图的监控和评价机制。

解决方案

通过自然语言和图像输入理解用户意图，并将其转换为结构化的意图规范。
意图导向的数据增强，自动处理数据以反映用户的训练目标。
意图对齐的模型训练监控和评估，使用意图相关的度量进行评估。

结果

实验结果表明，IntentTuner能够帮助用户更高效地微调文本到图像生成模型，达到特定的风格或肖像要求。
通过与现有工具的对比，IntentTuner在用户友好性、灵活性和效果上得到了较高的评价。
用户反馈显示，系统能有效理解和执行用户的意图，并提供直观的监控和评估界面。

简介

香港科技大学的研究团队开发了一个名为IntentTuner的交互式框架。该系统通过理解用户的自然语言描述和图像参考，帮助用户在文本到图像生成模型上进行微调，以满足他们对特定风格、服装或肖像特征等细节的需求。研究发现当前的模型在这些定制需求上表现不足，IntentTuner通过结合多模态输入来解决这一问题，并提供了一种更加直观和有效的监控与评估方式。