RAG | Llamafia tech review

1. Adam 优化器在多卡训练中的通信问题问题: Adam 优化器状态的卡间通信问题观点: 当 GPU 数量足够多时，Adam 优化器的状态信息并不会成为通信瓶颈，因为模型参数在每张卡上占的比例很低，且状态更新是 element-wise 的，无需卡间通信。结论: 减少优化器自身显存的工作，只在少卡场景才有价值，Adam-mini 在多卡场景下对显存的减少有限相关引用: 论文: Adam-mini 2. LLM 角色指令增强的理论分析问题: 寻找 LLM 中角色指令增强模型 (例如：你是一个优秀的软件工程师) 在专业方面能力的理论分析论文讨论: 群友认为很难形式化，现有的论文都只有实验结果，缺乏理论分析和假设相关工作: 论文: Toolformer: Language Models Can Teach Themselves to Use Tools 博客: Want to predict, explain & control the output of GPT-4? Then… 3. MCTS 在 RAG 中的应用问题: MCTS除了在强化学习中用于构建 CoT 数据，在 RAG 方向有没有什么实践方向: 有论文提到了使用 MCTS 优化检索，但具体细节未找到 4. Step-DPO: 用少量数据提升 LLM 数学推理能力方法: Step-DPO 通过仅使用 10K 数据和几百步训练，就能显著提升 LLM 的数学推理能力结果: 在 Qwen2-7B-Instruct 上，Step-DPO 将 MATH 数据集上的 0-shot CoT 准确率从 53....