AI 模型的竞争维度变了：有人在拼参数，有人在把参数压成 1 和 -1

AI 1-bit量化图像生成 Bonsai Image PrismML 本地推理

发布于 2026-06-30 01:41:35 90 次浏览

AI 模型的竞争维度变了：有人在拼参数，有人在把参数压成 1 和 -1

7.75GB 的图像生成模型，被压到 0.93GB。

不是蒸馏，不是剪枝，是把权重直接砍成 {-1, +1} 两个数。

PrismML 上周发布的 Bonsai Image 4B，让一个原本需要 16GB 内存的 FLUX.2 图像模型，在 iPhone 上 9.4 秒出图。这件事的意义，远不止"手机能画图了"。

一个反直觉的事实

先说一个行业里不太有人明讲的事：过去两年，AI 模型的竞争基本是在同一个维度上卷——谁的参数多、谁的数据大、谁的算力猛。从 7B 到 70B 到 405B，路线几乎一模一样。

但有一条暗线一直存在：能不能用更少的 bit 表达同样的智能？

微软 2024 年发了 BitNet，提出 1.58-bit 三值权重 {-1, 0, +1}，学术圈炸了。但论文归论文，没人真正拿它做产品。

直到 PrismML。

这家从 Caltech 实验室走出来的公司，今年 3 月刚从隐身模式出来，拿了 Vinod Khosla 的投资，第一个产品就是 1-bit 语言模型（8B 参数只占 1.15GB）。Bonsai Image 4B 是他们的第二步棋——把 1-bit 量化从语言模型搬到了图像生成模型上。

这很重要。 因为图像模型对精度比语言模型更敏感。一个 1-bit 的 LLM 说话磕巴一点你还能接受，但一张图颜色偏了、结构崩了，肉眼一秒就能看出来。

它到底做了什么

简单说：把 FLUX.2 Klein 4B 的扩散 transformer 权重，从 16 位浮点数压成了 1-bit 二值 {-1, +1}。

两个版本：

变体	Transformer 体积	压缩比	画质保留
1-bit Bonsai Image 4B	0.93 GB	8.3×	~88%
Ternary Bonsai Image 4B	1.21 GB	6.4×	~95%
FLUX.2 Klein 4B（原版）	7.75 GB	1×	100%

加上文本编码器和 VAE，Apple Silicon 上完整部署包只要 3.42GB——原版需要将近 16GB。

1-bit 版等效 1.125 bit/权重，Ternary 版等效 1.71 bit/权重，多了一个 0 状态，表达能力更强。

PrismML 在三个 benchmark 上做了评测（GenEval 物体组合、HPSv3 人类偏好、DPG-Bench 密集 prompt 跟随），Ternary 版总评保留了原版 95% 的质量。

"不仔细看，区别不大"——这句话不是营销话术，是 benchmark 说的。

但我更关心的是另一个数字

1.5GB 活跃内存，9.4 秒出一张 512×512 的图。

这意味着什么？

意味着 iPhone 17 Pro Max 能跑。不是演示视频里的"能跑"，是真的打开 App 输入 prompt 9 秒出图的那种。PrismML 甚至做了个 iOS App 叫 Bonsai Studio，App Store 直接下载。

unwire.hk 用 iPhone Air 实测了一波：连续出图十多张，机身只是微温，完全没过热。但中文支持堪忧——繁体中文字全变成了伪中文乱码。安全过滤也有，涉及敏感内容直接拒绝生成。

还有个 WebGPU demo——浏览器打开，输入 prompt，本地出图。不用注册，不用 API key，数据全程不离开你的设备。

这才是 1-bit 量化真正改变的东西：不是让图像生成便宜了一点，是让"本地生图"从不可能变成了可能。

为什么"本地"这件事值得单独拿出来说

用 Midjourney 生成一张图，改三次 prompt，每次等 30 秒，三次就是一分半。用 DALL·E，每次调 API 有延迟，还按 token 计费。

图像生成天然是迭代的事。你不会只出一张——你会改 prompt、换 seed、调参数、对比效果。在云端，每一次迭代都有延迟和成本。在本地，这个循环变成了秒级反馈，成本为零。

PrismML 在公告里写了段话，我觉得一语中的：

"Cloud APIs will continue to be the right choice for many products. But cloud-only generation imposes certain product constraints: every prompt is a remote request, every iteration carries marginal serving cost, and every interaction adds round-trip latency."

翻译过来：云端 API 有它的位置，但如果你每改一次 prompt 都要等服务器、都要算钱，创作的节奏就被打断了。

三步跑起来

不想听道理想动手的，直接上：

git clone https://github.com/PrismML-Eng/Bonsai-image-demo.git
cd Bonsai-image-demo
./setup.sh

setup 脚本自动拉模型权重——macOS 用 MLX 格式，Linux/Windows 用 Gemlite 格式。

下载模型版本：

# 推荐 ternary 版（画质更好）
./scripts/download_model.sh

# 要最小的 1-bit 版
./scripts/download_model.sh binary

生成一张图：

./scripts/generate.sh -p "An icy bonsai tree in a rainy forest, photo realistic." --size 1024x1024 --seed 9909

或者一键启动 Web 工作室（FastAPI + Next.js）：

./scripts/serve.sh
# 浏览器打开 localhost:3000

Windows 用户注意：驱动版本要够新，4GB 以下显存的卡建议降到 512×512。不想部署的话，HuggingFace 有个 WebGPU demo，打开浏览器直接跑。

竞争维度真的变了

Hacker News 上这篇讨论拿了 464 分、201 条评论。有位老哥说了句话让我印象很深：

"I actually can't wait for the future where I upgrade hardware in order to upgrade my ai as an alternative to an expensive subscription."

靠升级硬件来升级 AI，而不是付越来越贵的订阅费。 这可能是 1-bit 量化最激进的商业含义。

PrismML 把这叫"智能密度"（Intelligence Density）——不拼参数量，拼每 bit 的智能产出。1-bit Bonsai 8B 只占 1.15GB，跑在 iPhone 上 40 tokens/s，benchmark 跟 14 倍大的模型打得有来有回。图像模型也是同一个思路。

当 0.93GB 的模型能在手机上出图，当 1.15GB 的语言模型能跟 16GB 的模型对标，"参数量"还是衡量模型能力的唯一标准吗？

也许很快，我们会开始用另一个维度比较模型：同样的事，你能用多少 bit 做到？

GitHub: github.com/PrismML-Eng/Bonsai-image-demo

WebGPU 体验: huggingface.co/spaces/webml-community/bonsai-image-webgpu

PrismML 官方公告: prismml.com/news/bonsai-image-4b