Compression Theory for Large Language Models

October 28, 2023 · 1 min · 175 words · Me

Table of Contents

Compression Theory for Large Language Models

Compression theory 或许是目前为止 LLM 最底层的理论，它的核心论点是只要压缩下一个 token 就可以通向 AGI；此理论被 OpenAI / DeepMind / Moonshot 等一线机构的研究者们深入讨论，具体的资料包括但不限于：

DeepMind Jake Rae, Compression for AGI
OpenAI Ilya Sutskever, An observation on generalization
DeepMind Deletang et. al. Language Modeling Is Compression
Moonshot 周昕宇, 压缩下一个 token 通向超过人类的智能

Preliminary: Arithmetic coding

Arithmetic coding 是一种无损编码数据的算法，它依赖一个概率模型
概率模型对数据的 likelihood 越高，arithmetic coding 压缩率越高

Language modeling as lossless compression

语言模型对数据并不是有损压缩，而是无损
语言模型通过对数据做 arithmetic coding 来压缩数据
gzip 的压缩率是 32%，200K 大小的 Transformer 有 30%，Chinchilla 7B 有 10.2%，70B 有 8.3%，参考 Language Modeling Is Compression 这篇论文

The more you compress, the more likely to get generative process

考虑随机数压缩，如果 Alice 用一个随机数生成器生成 400B 随机数，gzip 压缩到 30% 也有 100多 B
但是如果 Alice 只存随机数生成算法和种子，则只需要几十 k
Generative process 和 data 的区别
- Generative process 是一个随机过程，是生成数据的算法
- data 是从算法中生成出来的数据
模型可以从数据中学会生成数据的算法
- 参考 Learning Transformer Programs 这篇文章，可以从模型权重中逆编译出生成数据的算法
Intelligence is a side product
- 优化目标是压缩，得到的是智能

Why intelligence has to be a side product: Goodhart’s law

过度优化在 pretrain, SFT, RL 三个阶段普遍存在
- Pretrain: 过拟合 C-Eval 这样的 Benchmark 并不体现模型能力
- SFT: 过拟合 GSM8K 这样的 benchmark 并不增加模型数学
- RLHF: 对一个固定的 reward model ，过度优化之后模型行为会很奇怪，参考 Scaling Laws for Reward Model Overoptimization 以及 John Schulman 的 ICML Talk