DPO | Llamafia tech review

Paper & Discussion: DPO vs RLHF? DPO：Direct Preference Optimization RMB-PO：Reward-Model-Based Policy Optimization A1: DPO替代RLHF可造成多一倍的性能损失，用dpo泛化能力会较rlhf弱得明显,Li.etc 表示因为DPO 偷懒了，用empirical data distribution 替代了真实的distribution， A2: 可以看看statistical rejection sampling，有类似结论,gap没有在optimal policy采样，也没有reward model做泛化，不能explicit知道在optimal policy下generate samples谁好谁坏. A3: 还是RL的经典的state distribution shift问题 A4: 搞个10次rej sampling + DPO估计也能打平 A5: PPO就是调参有挑战 A6: offline distribution跟optimal policy distribution的domain shift，Xiong, etc ”Gibbs Sampling from Human Feedback“ 论文的Sec 6有详细讨论DPO和RSO。 A7: DPO的训练方式还是会存在training-test gap，即训练时teacher-forcing的方式与实际测试有差异。这点就不如基于PPO的RLHF。 Paper: FUDAN NLP loraMoE loraMoE 推荐理由：通过修改了原始的MoE策略来适配多任务lora训练，在参数量基本不变的情况下显著改善了知识遗忘和multi task能力，对资源需求也很友好 Paper：Weight subcloning: direct initialization of transformers using larger pretrained ones Weight subcloning link...