Adam 优化器在多卡训练中的通信问题; LLM 角色指令增强的理论分析; MCTS 在 RAG 中的应用

1. Adam 优化器在多卡训练中的通信问题 问题: Adam 优化器状态的卡间通信问题 观点: 当 GPU 数量足够多时,Adam 优化器的状态信息并不会成为通信瓶颈,因为模型参数在每张卡上占的比例很低,且状态更新是 element-wise 的,无需卡间通信。 结论: 减少优化器自身显存的工作,只在少卡场景才有价值,Adam-mini 在多卡场景下对显存的减少有限 相关引用: 论文: Adam-mini 2. LLM 角色指令增强的理论分析 问题: 寻找 LLM 中角色指令增强模型 (例如:你是一个优秀的软件工程师) 在专业方面能力的理论分析论文 讨论: 群友认为很难形式化,现有的论文都只有实验结果,缺乏理论分析和假设 相关工作: 论文: Toolformer: Language Models Can Teach Themselves to Use Tools 博客: Want to predict, explain & control the output of GPT-4? Then… 3. MCTS 在 RAG 中的应用 问题: MCTS除了在强化学习中用于构建 CoT 数据,在 RAG 方向有没有什么实践 方向: 有论文提到了使用 MCTS 优化检索,但具体细节未找到 4. Step-DPO: 用少量数据提升 LLM 数学推理能力 方法: Step-DPO 通过仅使用 10K 数据和几百步训练,就能显著提升 LLM 的数学推理能力 结果: 在 Qwen2-7B-Instruct 上,Step-DPO 将 MATH 数据集上的 0-shot CoT 准确率从 53....

July 10, 2024 · 2 min · 261 words · Me