SFT | Llamafia tech review

1. Diffusion 模型 Vs. AR 模型： Diffusion 模型在相同算力下是否严格优于 AR 模型？算力相等，结构不同: 100 次 1B Diffusion 等价于特定结构的 100B 模型前向一次，效果取决于结构适配度。 Diffusion 的优势: Diffusion 模型利用 ODE/SDE 数学性质，对模型规模缩放的影响较大。 AR 模型的优势: AR 模型易于扩展序列长度，符合人类逐步输出的规律。争议: Diffusion 模型的 100 步存在冗余，单步生成并非不可能。相关引用：文章: Score-Based Generative Modeling through Stochastic Differential Equations 2. VLM (视觉语言模型) 中引入视觉信息的必要性 MMMU 数据集: 部分人士认为 MMMU 数据集无需视觉信息，但高质量视觉信息对模型效果提升显著。模型规模: 现有开源多模态模型规模较小，瓶颈主要在 LLM 端，而非视觉端，导致视觉信息作用不明显。相关测试: 建议使用 MMMU 完整测试集进行评估，验证集数据量过小，结果不稳定。 3. SFT(Supervised Fine-Tuning) 训练数据规模和质量数据规模: 早期观点认为 SFT 数据需少而精，但近期研究表明百万级数据量能带来更好效果。质量控制: 数据量增多时，如何控制数据质量和分布成为难题。 Llama 3: Llama 3 在 SFT 阶段使用了大量开源数据和人工标注数据。 4....