Diffusion 模型 Vs. AR 模型; VLM (视觉语言模型) 中引入视觉信息的必要性; SFT(Supervised Fine-Tuning) 训练数据规模和质量

1. Diffusion 模型 Vs. AR 模型: Diffusion 模型在相同算力下是否严格优于 AR 模型? 算力相等,结构不同: 100 次 1B Diffusion 等价于特定结构的 100B 模型前向一次,效果取决于结构适配度。 Diffusion 的优势: Diffusion 模型利用 ODE/SDE 数学性质,对模型规模缩放的影响较大。 AR 模型的优势: AR 模型易于扩展序列长度,符合人类逐步输出的规律。 争议: Diffusion 模型的 100 步存在冗余,单步生成并非不可能。 相关引用: 文章: Score-Based Generative Modeling through Stochastic Differential Equations 2. VLM (视觉语言模型) 中引入视觉信息的必要性 MMMU 数据集: 部分人士认为 MMMU 数据集无需视觉信息,但高质量视觉信息对模型效果提升显著。 模型规模: 现有开源多模态模型规模较小,瓶颈主要在 LLM 端,而非视觉端,导致视觉信息作用不明显。 相关测试: 建议使用 MMMU 完整测试集进行评估,验证集数据量过小,结果不稳定。 3. SFT(Supervised Fine-Tuning) 训练数据规模和质量 数据规模: 早期观点认为 SFT 数据需少而精,但近期研究表明百万级数据量能带来更好效果。 质量控制: 数据量增多时,如何控制数据质量和分布成为难题。 Llama 3: Llama 3 在 SFT 阶段使用了大量开源数据和人工标注数据。 4....

July 5, 2024 · 2 min · 251 words · Me