1. Diffusion 模型 Vs. AR 模型: Diffusion 模型在相同算力下是否严格优于 AR 模型?#
- 算力相等,结构不同: 100 次 1B Diffusion 等价于特定结构的 100B 模型前向一次,效果取决于结构适配度。
- Diffusion 的优势: Diffusion 模型利用 ODE/SDE 数学性质,对模型规模缩放的影响较大。
- AR 模型的优势: AR 模型易于扩展序列长度,符合人类逐步输出的规律。
- 争议: Diffusion 模型的 100 步存在冗余,单步生成并非不可能。
- 相关引用:
2. VLM (视觉语言模型) 中引入视觉信息的必要性#
- MMMU 数据集: 部分人士认为 MMMU 数据集无需视觉信息,但高质量视觉信息对模型效果提升显著。
- 模型规模: 现有开源多模态模型规模较小,瓶颈主要在 LLM 端,而非视觉端,导致视觉信息作用不明显。
- 相关测试: 建议使用 MMMU 完整测试集进行评估,验证集数据量过小,结果不稳定。
3. SFT(Supervised Fine-Tuning) 训练数据规模和质量#
- 数据规模: 早期观点认为 SFT 数据需少而精,但近期研究表明百万级数据量能带来更好效果。
- 质量控制: 数据量增多时,如何控制数据质量和分布成为难题。
- Llama 3: Llama 3 在 SFT 阶段使用了大量开源数据和人工标注数据。
4. SFT 训练阶段的评估指标#
- Loss 下降: SFT 阶段每个 Epoch 的 Loss 都在下降,仅凭 Loss 下降难以评估模型效果。
- 评测成本: 使用评测榜单数据评估每个 Checkpoint 成本高昂。
- 替代指标: 缺乏有效的 SFT 阶段评估指标。
5. RLHF(Reinforcement Learning from Human Feedback) 的未来方向#
6. 代码生成模型 Code Llama#
7. 开源模型的价值#
- 代码价值: 是否应该将代码实现视为开源模型价值的一部分?
- 信息提炼: 论文本身是否已经足够"实在",将最有价值的部分提炼出来?
- 观点: 开源与不开源都有其合理性,取决于具体情况。
8. LLM 推理系统 Mooncake#
9. 多图理解#
- 多图长文档理解: 现有模型在多图长文档理解方面能力较差,无法准确识别图像数量。
- 图像中信息的感知: 模型对图像中插入信息的感知能力不足。
- 数据有效性: 图文交错数据对提升图文交错文档的理解能力效果不明显。
- 相关项目: MM-NIAH 多模态大海捞针 Benchmark。
10. 检测文本是否是代码的工具#
- Guesslang: 已停止维护,与 TensorFlow 不兼容。
- Doc2x: 商业模型,效果较好,提供 API 和免费额度。
争议点:#
- 模型参数量级与能力的关系: 模型参数量级是否与能力直接相关?视觉模型参数量级较小是否因为视觉信息量更少?
- 在线 vs 离线奖励模型训练: 在线训练效果上限更高但需要更多数据,重要性采样能否替代在线训练?
- 开源模型的定义: 开源模型是否应该包括训练数据和训练过程?
Quick Points:#
- Nexa AI 和 MIT-IBM Watson AI Lab 合作推出 Octo-planner,用于解决复杂任务的 AI Agent Workflow,在手机场景下实现了 97% 的成功率。
- DeepMind 利用 AlphaGo 中的 MCTS 算法训练 PRM for math,相关论文:https://arxiv.org/abs/2406.06592
- OpenAI 推出 CriticGPT 项目,利用 GPT-4 查找 GPT-4 错误。
- Google 发布 Gemma2,包含 9B 和 27B 两个版本。
- Meta 发布 Kimi 底层推理系统方案 Mooncake。
- Apple 发布机器学习平台 AXLearn。
- Nvidia 发布 SFT 数据集 Daring-Anteater。
- BAAI 发布 SFT 数据集 Infinity-Instruct。
- Huggingface 上部分模型存在问题,例如 Gemma2-27B-it。
- ChatGPT/Claude/Kimi 仍然可以套出系统提示词。