AI 模型的竞争维度变了:有人在拼参数,有人在把参数压成 1 和 -1
7.75GB 的图像生成模型,被压到 0.93GB。
不是蒸馏,不是剪枝,是把权重直接砍成 {-1, +1} 两个数。
PrismML 上周发布的 Bonsai Image 4B,让一个原本需要 16GB 内存的 FLUX.2 图像模型,在 iPhone 上 9.4 秒出图。这件事的意义,远不止"手机能画图了"。
一个反直觉的事实
先说一个行业里不太有人明讲的事:过去两年,AI 模型的竞争基本是在同一个维度上卷——谁的参数多、谁的数据大、谁的算力猛。从 7B 到 70B 到 405B,路线几乎一模一样。
但有一条暗线一直存在:能不能用更少的 bit 表达同样的智能?
微软 2024 年发了 BitNet,提出 1.58-bit 三值权重 {-1, 0, +1},学术圈炸了。但论文归论文,没人真正拿它做产品。
直到 PrismML。
这家从 Caltech 实验室走出来的公司,今年 3 月刚从隐身模式出来,拿了 Vinod Khosla 的投资,第一个产品就是 1-bit 语言模型(8B 参数只占 1.15GB)。Bonsai Image 4B 是他们的第二步棋——把 1-bit 量化从语言模型搬到了图像生成模型上。
这很重要。 因为图像模型对精度比语言模型更敏感。一个 1-bit 的 LLM 说话磕巴一点你还能接受,但一张图颜色偏了、结构崩了,肉眼一秒就能看出来。
它到底做了什么
简单说:把 FLUX.2 Klein 4B 的扩散 transformer 权重,从 16 位浮点数压成了 1-bit 二值 {-1, +1}。
两个版本:
| 变体 | Transformer 体积 | 压缩比 | 画质保留 |
|---|---|---|---|
| 1-bit Bonsai Image 4B | 0.93 GB | 8.3× | ~88% |
| Ternary Bonsai Image 4B | 1.21 GB | 6.4× | ~95% |
| FLUX.2 Klein 4B(原版) | 7.75 GB | 1× | 100% |
加上文本编码器和 VAE,Apple Silicon 上完整部署包只要 3.42GB——原版需要将近 16GB。
1-bit 版等效 1.125 bit/权重,Ternary 版等效 1.71 bit/权重,多了一个 0 状态,表达能力更强。
PrismML 在三个 benchmark 上做了评测(GenEval 物体组合、HPSv3 人类偏好、DPG-Bench 密集 prompt 跟随),Ternary 版总评保留了原版 95% 的质量。
"不仔细看,区别不大"——这句话不是营销话术,是 benchmark 说的。
但我更关心的是另一个数字
1.5GB 活跃内存,9.4 秒出一张 512×512 的图。
这意味着什么?
意味着 iPhone 17 Pro Max 能跑。不是演示视频里的"能跑",是真的打开 App 输入 prompt 9 秒出图的那种。PrismML 甚至做了个 iOS App 叫 Bonsai Studio,App Store 直接下载。
unwire.hk 用 iPhone Air 实测了一波:连续出图十多张,机身只是微温,完全没过热。但中文支持堪忧——繁体中文字全变成了伪中文乱码。安全过滤也有,涉及敏感内容直接拒绝生成。
还有个 WebGPU demo——浏览器打开,输入 prompt,本地出图。不用注册,不用 API key,数据全程不离开你的设备。
这才是 1-bit 量化真正改变的东西:不是让图像生成便宜了一点,是让"本地生图"从不可能变成了可能。
为什么"本地"这件事值得单独拿出来说
用 Midjourney 生成一张图,改三次 prompt,每次等 30 秒,三次就是一分半。用 DALL·E,每次调 API 有延迟,还按 token 计费。
图像生成天然是迭代的事。你不会只出一张——你会改 prompt、换 seed、调参数、对比效果。在云端,每一次迭代都有延迟和成本。在本地,这个循环变成了秒级反馈,成本为零。
PrismML 在公告里写了段话,我觉得一语中的:
"Cloud APIs will continue to be the right choice for many products. But cloud-only generation imposes certain product constraints: every prompt is a remote request, every iteration carries marginal serving cost, and every interaction adds round-trip latency."
翻译过来:云端 API 有它的位置,但如果你每改一次 prompt 都要等服务器、都要算钱,创作的节奏就被打断了。
三步跑起来
不想听道理想动手的,直接上:
git clone https://github.com/PrismML-Eng/Bonsai-image-demo.git
cd Bonsai-image-demo
./setup.sh
setup 脚本自动拉模型权重——macOS 用 MLX 格式,Linux/Windows 用 Gemlite 格式。
下载模型版本:
# 推荐 ternary 版(画质更好)
./scripts/download_model.sh
# 要最小的 1-bit 版
./scripts/download_model.sh binary
生成一张图:
./scripts/generate.sh -p "An icy bonsai tree in a rainy forest, photo realistic." --size 1024x1024 --seed 9909
或者一键启动 Web 工作室(FastAPI + Next.js):
./scripts/serve.sh
# 浏览器打开 localhost:3000
Windows 用户注意:驱动版本要够新,4GB 以下显存的卡建议降到 512×512。不想部署的话,HuggingFace 有个 WebGPU demo,打开浏览器直接跑。
竞争维度真的变了
Hacker News 上这篇讨论拿了 464 分、201 条评论。有位老哥说了句话让我印象很深:
"I actually can't wait for the future where I upgrade hardware in order to upgrade my ai as an alternative to an expensive subscription."
靠升级硬件来升级 AI,而不是付越来越贵的订阅费。 这可能是 1-bit 量化最激进的商业含义。
PrismML 把这叫"智能密度"(Intelligence Density)——不拼参数量,拼每 bit 的智能产出。1-bit Bonsai 8B 只占 1.15GB,跑在 iPhone 上 40 tokens/s,benchmark 跟 14 倍大的模型打得有来有回。图像模型也是同一个思路。
当 0.93GB 的模型能在手机上出图,当 1.15GB 的语言模型能跟 16GB 的模型对标,"参数量"还是衡量模型能力的唯一标准吗?
也许很快,我们会开始用另一个维度比较模型:同样的事,你能用多少 bit 做到?
GitHub: github.com/PrismML-Eng/Bonsai-image-demo
WebGPU 体验: huggingface.co/spaces/webml-community/bonsai-image-webgpu
PrismML 官方公告: prismml.com/news/bonsai-image-4b
暂无评论。