Paper & Discussion: DPO vs RLHF?

Paper & Discussion: DPO vs RLHF? DPO:Direct Preference Optimization RMB-PO:Reward-Model-Based Policy Optimization A1: DPO替代RLHF可造成多一倍的性能损失,用dpo泛化能力会较rlhf弱得明显,Li.etc 表示 因为DPO 偷懒了,用empirical data distribution 替代了真实的distribution, A2: 可以看看statistical rejection sampling,有类似结论,gap没有在optimal policy采样,也没有reward model做泛化,不能explicit知道在optimal policy下generate samples谁好谁坏. A3: 还是RL的经典的state distribution shift问题 A4: 搞个10次rej sampling + DPO估计也能打平 A5: PPO就是调参有挑战 A6: offline distribution跟optimal policy distribution的domain shift,Xiong, etc ”Gibbs Sampling from Human Feedback“ 论文的Sec 6有详细讨论DPO和RSO。 A7: DPO的训练方式还是会存在training-test gap,即训练时teacher-forcing的方式与实际测试有差异。这点就不如基于PPO的RLHF。 Paper: FUDAN NLP loraMoE loraMoE 推荐理由:通过修改了原始的MoE策略来适配多任务lora训练,在参数量基本不变的情况下显著改善了知识遗忘和multi task能力,对资源需求也很友好 Paper:Weight subcloning: direct initialization of transformers using larger pretrained ones Weight subcloning link...

December 20, 2023 · 2 min · 371 words · Me