数字切开验证&&数字计算

数字切开验证&&数字计算 Q: 请问什么工作实验验证过,把数字按 digit 切开再做数学? A: https://arxiv.org/pdf/2310.02989.pdf, 这个工作有做过讨论, single-digit tokenization 对算数应当是有帮助的 A1: 还有这个工作 https://arxiv.org/pdf/2305.14201.pdf 比对了不同的 tokenizer 研究员1:MathGLM 的计算做得很好,做数学就应该这么做,一切的恐惧来源于压缩得不够; 研究员2:gpt4v把一张图上的table parse成markdown然后bold每个column最大的数;但是它甚至连bold max这个事都做不好, 最后还是会让他把table parse进py然后用py去做这事( 主要是取决于用户会不会信任model做加减法(im not) if not 感觉最后无论如何用户也会让model去调python, 对于llm里出来的任何number都不是非常正确( 毕竟复杂问题 人类也都是要用计算器了) 研究员3:合理的,只要让LLM deeply integrate w/ PL其实就行 类似于那种 scratch pad,可以在生成的过程中生成py call on the fly进行计算啥;目前认为没有必要真的教会模型复杂算数,模型只要会写code做这事就行。就像人类想做多位数计算可能是可以算对,但计算器按两下就行了没必要自己算。目前认为code表述的计算过程会比直接给一个计算结果的number更verify一些:只要code看起来没问题 用户就能更trust它的结果 研究员4:Gpt4v 目前认为是混了ocr table的数据,最近的测试发现4v 细粒度的table ocr 能力还是独一档,开源模型基本做不了。 研究员5:解析几何是 2024 年数学 reasoning 需要重点攻破的对象 Instruction following 能力 Q: instruction following 的能力,特别是 follow 比较复杂的 instruction,这种能力经验上更多是要求基础模型本身呢,还是 instruction 的数据更占大头? 研究员1:base 模型决定了能 follow 多么复杂的 instruction, 对于比较弱的 base 模型,反而需要简单指令...

December 3, 2023 · 3 min · 443 words · Me