大模型缺陷

大模型缺陷: 文章:Berglund, Lukas, et al. “The Reversal Curse: LLMs trained on” A is B" fail to learn" B is A"." arXiv preprint arXiv:2309.12288(2023). 观察到的大模型缺陷如下:让模型在 A is B 数据上训练时,并不能使得模型泛化到 B is A。主要体现到的形式有两种:对于模型进行微调的时候,如果训练 A is B,那么再提问 B is ? 则成功率较低。对于已有模型进行测试时,发现其对于 (A, relation, B) 这样知识的掌握程度具有不对称性。 研究员一: 目前认为A is B不能让A的embedding靠近B的embedding,就像1 + 1 = 他会输出2,但 2 = 应该不会输出1 + 1。不过在大模型下怎么能让Q1和Q2学习语义等价,也就是embedding相似呢? 研究员二:entailment is not similarity,这也是 retrieval 的一个重要问题。 研究员三:模型有足够冗余就不需要embedding接近。embedding接近更适合retrieval和classification;当然我们也可以说generation其实就是multi-label classification over the vocab;reverse curse是正常的; 研究员四:semantics上reverse curse是正常呀,比如finetune“A是B的小孩”,然后你问”B的小孩是谁”,那可能是A也可能是C呀(因为可能不只一个孩子) ;因为人类也不是完全双向的。...

December 17, 2023 · 2 min · 298 words · Me