数字计算 | Llamafia tech review

数字切开验证&&数字计算 Q: 请问什么工作实验验证过，把数字按 digit 切开再做数学？ A: https://arxiv.org/pdf/2310.02989.pdf, 这个工作有做过讨论, single-digit tokenization 对算数应当是有帮助的 A1: 还有这个工作 https://arxiv.org/pdf/2305.14201.pdf 比对了不同的 tokenizer 研究员1：MathGLM 的计算做得很好，做数学就应该这么做，一切的恐惧来源于压缩得不够；研究员2：gpt4v把一张图上的table parse成markdown然后bold每个column最大的数；但是它甚至连bold max这个事都做不好，最后还是会让他把table parse进py然后用py去做这事（主要是取决于用户会不会信任model做加减法（im not） if not 感觉最后无论如何用户也会让model去调python，对于llm里出来的任何number都不是非常正确（毕竟复杂问题人类也都是要用计算器了）研究员3：合理的，只要让LLM deeply integrate w/ PL其实就行类似于那种 scratch pad，可以在生成的过程中生成py call on the fly进行计算啥；目前认为没有必要真的教会模型复杂算数，模型只要会写code做这事就行。就像人类想做多位数计算可能是可以算对，但计算器按两下就行了没必要自己算。目前认为code表述的计算过程会比直接给一个计算结果的number更verify一些：只要code看起来没问题用户就能更trust它的结果研究员4：Gpt4v 目前认为是混了ocr table的数据，最近的测试发现4v 细粒度的table ocr 能力还是独一档，开源模型基本做不了。研究员5：解析几何是 2024 年数学 reasoning 需要重点攻破的对象 Instruction following 能力 Q: instruction following 的能力，特别是 follow 比较复杂的 instruction，这种能力经验上更多是要求基础模型本身呢，还是 instruction 的数据更占大头? 研究员1：base 模型决定了能 follow 多么复杂的 instruction，对于比较弱的 base 模型，反而需要简单指令...