Diffusion 模型 Vs. AR 模型; VLM (视觉语言模型) 中引入视觉信息的必要性; SFT(Supervised Fine-Tuning) 训练数据规模和质量

July 5, 2024 · 2 min · 251 words · Me

Table of Contents

1. Diffusion 模型 Vs. AR 模型： Diffusion 模型在相同算力下是否严格优于 AR 模型？

算力相等，结构不同: 100 次 1B Diffusion 等价于特定结构的 100B 模型前向一次，效果取决于结构适配度。
Diffusion 的优势: Diffusion 模型利用 ODE/SDE 数学性质，对模型规模缩放的影响较大。
AR 模型的优势: AR 模型易于扩展序列长度，符合人类逐步输出的规律。
争议: Diffusion 模型的 100 步存在冗余，单步生成并非不可能。
相关引用：
- 文章: Score-Based Generative Modeling through Stochastic Differential Equations

2. VLM (视觉语言模型) 中引入视觉信息的必要性

MMMU 数据集: 部分人士认为 MMMU 数据集无需视觉信息，但高质量视觉信息对模型效果提升显著。
模型规模: 现有开源多模态模型规模较小，瓶颈主要在 LLM 端，而非视觉端，导致视觉信息作用不明显。
相关测试: 建议使用 MMMU 完整测试集进行评估，验证集数据量过小，结果不稳定。

3. SFT(Supervised Fine-Tuning) 训练数据规模和质量

数据规模: 早期观点认为 SFT 数据需少而精，但近期研究表明百万级数据量能带来更好效果。
质量控制: 数据量增多时，如何控制数据质量和分布成为难题。
Llama 3: Llama 3 在 SFT 阶段使用了大量开源数据和人工标注数据。

4. SFT 训练阶段的评估指标

Loss 下降: SFT 阶段每个 Epoch 的 Loss 都在下降，仅凭 Loss 下降难以评估模型效果。
评测成本: 使用评测榜单数据评估每个 Checkpoint 成本高昂。
替代指标: 缺乏有效的 SFT 阶段评估指标。

5. RLHF(Reinforcement Learning from Human Feedback) 的未来方向

抽象问题: RLHF 的未来发展方向是什么？
相关讨论: 知乎文章 RLHF 的上界是什么引发讨论。

6. 代码生成模型 Code Llama

规模: Code Llama 项目团队仅有 12 人，规模较小。
验证方法: 使用 pass-list-eval 验证 non-inter-procedural pass 的正确性，可以考虑使用 translation validation 进行验证。
相关链接: https://github.com/AliveToolkit/alive2

7. 开源模型的价值

代码价值: 是否应该将代码实现视为开源模型价值的一部分？
信息提炼: 论文本身是否已经足够"实在"，将最有价值的部分提炼出来？
观点: 开源与不开源都有其合理性，取决于具体情况。

8. LLM 推理系统 Mooncake

开源: 月之暗面开源 Kimi 底层推理系统方案 Mooncake。
特性: 以 KVCache 为中心的分布式架构。
相关链接: https://github.com/kvcache-ai/Mooncake

9. 多图理解

多图长文档理解: 现有模型在多图长文档理解方面能力较差，无法准确识别图像数量。
图像中信息的感知: 模型对图像中插入信息的感知能力不足。
数据有效性: 图文交错数据对提升图文交错文档的理解能力效果不明显。
相关项目: MM-NIAH 多模态大海捞针 Benchmark。

10. 检测文本是否是代码的工具

Guesslang: 已停止维护，与 TensorFlow 不兼容。
Doc2x: 商业模型，效果较好，提供 API 和免费额度。

争议点：

模型参数量级与能力的关系: 模型参数量级是否与能力直接相关？视觉模型参数量级较小是否因为视觉信息量更少？
在线 vs 离线奖励模型训练: 在线训练效果上限更高但需要更多数据，重要性采样能否替代在线训练？
开源模型的定义: 开源模型是否应该包括训练数据和训练过程？

Quick Points：

Nexa AI 和 MIT-IBM Watson AI Lab 合作推出 Octo-planner，用于解决复杂任务的 AI Agent Workflow，在手机场景下实现了 97% 的成功率。
DeepMind 利用 AlphaGo 中的 MCTS 算法训练 PRM for math，相关论文：https://arxiv.org/abs/2406.06592
OpenAI 推出 CriticGPT 项目，利用 GPT-4 查找 GPT-4 错误。
Google 发布 Gemma2，包含 9B 和 27B 两个版本。
Meta 发布 Kimi 底层推理系统方案 Mooncake。
Apple 发布机器学习平台 AXLearn。
Nvidia 发布 SFT 数据集 Daring-Anteater。
BAAI 发布 SFT 数据集 Infinity-Instruct。
Huggingface 上部分模型存在问题，例如 Gemma2-27B-it。
ChatGPT/Claude/Kimi 仍然可以套出系统提示词。