Adam 优化器在多卡训练中的通信问题; LLM 角色指令增强的理论分析; MCTS 在 RAG 中的应用

1. Adam 优化器在多卡训练中的通信问题

问题: Adam 优化器状态的卡间通信问题
观点: 当 GPU 数量足够多时，Adam 优化器的状态信息并不会成为通信瓶颈，因为模型参数在每张卡上占的比例很低，且状态更新是 element-wise 的，无需卡间通信。
结论: 减少优化器自身显存的工作，只在少卡场景才有价值，Adam-mini 在多卡场景下对显存的减少有限
相关引用:
- 论文: Adam-mini

问题: 寻找 LLM 中角色指令增强模型 (例如：你是一个优秀的软件工程师) 在专业方面能力的理论分析论文
讨论: 群友认为很难形式化，现有的论文都只有实验结果，缺乏理论分析和假设
相关工作:
- 论文: Toolformer: Language Models Can Teach Themselves to Use Tools
- 博客: Want to predict, explain & control the output of GPT-4? Then…

方法: Step-DPO 通过仅使用 10K 数据和几百步训练，就能显著提升 LLM 的数学推理能力
结果: 在 Qwen2-7B-Instruct 上，Step-DPO 将 MATH 数据集上的 0-shot CoT 准确率从 53.0% 提升至 58.6%；在 Qwen2-72B-Instruct 上，准确率从 59.7% 提升到 70.8%，超过了 GPT-4-1106、Gemini-1.5-Pro 和 Claude-3-Opus 等模型
相关引用:
- 代码: https://github.com/dvlab-research/Step-DPO
- Demo: http://103.170.5.190:7870/
- 数据: https://huggingface.co/datasets/xinlai/Math-Step-DPO-10K
- 模型: https://github.com/dvlab-research/Step-DPO?tab=readme-ov-file#models

问题: 实际应用中，为什么大家不使用 greedy decoding，或者说 greedy decoding 是最优策略吗
观点: greedy decoding 容易出现重复生成的问题，尤其在代码生成等场景下
改进: 可以使用 preference optimization 的思路来降低 greedy decoding 的重复生成问题
相关工作:
- 文章: CLICK: Controllable Text Generation with Sequence Likelihood Contrastive Learning
- 博客: Seq2Seq重复解码现象的理论分析尝试

问题: 随着模型规模的扩大，Exposure Bias 问题是否依然存在
观点:
- 一种可能是随着表征能力增强和泛化能力提升，Exposure Bias 的影响变小
- 另一种可能是 Autoregressive 模型本身就是真实分布的一致估计量，随着数据量的增多，模型能够收敛到真实分布，从而消除 Exposure Bias
- PPO 等强化学习算法可以缓解 Exposure Bias 问题

经验:
- 凌晨 2 点（中国时间）提交论文更容易排在前面
- 论文排名靠前能够获得更高的曝光率，但影响力最终取决于论文本身的价值
- 大 V 转发能够显著提升论文的曝光率