一个不到1GB的AI生图模型,把8GB的活干了
7.75GB 的模型压到 0.93GB,画质掉了 12%。
但换来的是——你的手机能跑了。
PrismML 刚放出 Bonsai Image 4B,干了一件很多人觉得不可能的事:把 FLUX.2 Klein 4B 这个 7.75GB 的图像生成模型的权重,全部压成只有 -1 和 +1 两个数。
你没看错,整个神经网络的参数,从浮点数变成了两个符号。
压缩完的模型,iPhone 17 Pro Max 上 9.4 秒出一张 512×512 的图。Mac M4 Pro 上 6 秒。甚至浏览器里也能跑——打开 HuggingFace 的 WebGPU demo,不用注册、不用 API key,输入 prompt 直接出图。
Apache 2.0 开源,免费。
权重只剩两个值,凭什么还能画?
先搞清楚它干了什么,再判断是不是噱头。
普通的扩散模型(比如 FLUX.2),每个权重用 FP16 存储——16 位浮点数,每个参数占 2 字节。Bonsai Image 的做法是:不重新训练,直接把已有模型的权重做极限量化。
具体来说,transformer 层的权重被映射到 {-1, +1}(1-bit 版)或 {-1, 0, +1}(ternary 版),再配一组 FP16 的缩放因子来弥补精度损失。
相当于把一幅高清照片变成了一幅像素画——信息确实丢了,但轮廓和神韵还在。
两个版本的数据对比:
| 版本 | 体积 | 压了多少 | 画质剩多少 |
|---|---|---|---|
| 1-bit 版 | 0.93 GB | 8.3 倍 | 约 88% |
| Ternary 版 | 1.21 GB | 6.4 倍 | 约 95% |
| 原版 FLUX.2 | 7.75 GB | — | 100% |
加上文本编码器和 VAE,Apple Silicon 上完整跑起来,1-bit 版只需要 3.42GB 内存——原版 FLUX.2 要将近 16GB。
三组专业评测(GenEval 测物体组合、HPSv3 测人类偏好、DPG-Bench 测 prompt 跟随度),ternary 版分别保留了原版的 88%、95%、99.8%。综合下来,95% 的画质保留率。
1-bit 版等效 1.125 bit/权重,ternary 版 1.71 bit/权重。多一个 0 的状态,表达能力就跳了一个档。
说人话:不把两张图放一起对比,你基本看不出差别。
怎么用?比你想的简单
Bonsai Image 的 GitHub 仓库给了完整的一键脚本,macOS、Linux、Windows 都支持,Windows 甚至不需要 WSL2。
装环境:
macOS / Linux:
git clone https://github.com/PrismML-Eng/Bonsai-image-demo.git
cd Bonsai-image-demo
./setup.sh
Windows(PowerShell):
Set-ExecutionPolicy -Scope CurrentUser RemoteSigned
.\setup.ps1
setup 脚本会自动拉模型权重——macOS 用 MLX 格式,Linux/Windows 用 Gemlite 格式。
下模型:
# 推荐 ternary 版,画质更好
./scripts/download_model.sh
# 追求极致小巧选 1-bit 版
./scripts/download_model.sh binary
跑起来:
一键启动 Web 工作室(FastAPI + Next.js 前端):
./scripts/serve.sh
# 浏览器打开 localhost:3000
或者命令行直接生成:
./scripts/generate.sh -p "A crystalline dragon perched on a snowy peak, cinematic lighting." --size 1024x1024 --seed 42
默认出 512×512 快速预览,1024×1024 出成品,尺寸要求是 32 的倍数。
Windows 用户注意:NVIDIA 驱动版本要够新,装好 vcredist。4GB 以下显存的卡跑 1024×1024 可能爆显存,降到 512×512 就行。
懒得上手?HuggingFace 有 WebGPU 浏览器版,打开网页就能跑,全程本地推理。iOS 用户还可以直接下 Bonsai Studio App。
这件事的真正意义
手机跑、浏览器跑、老显卡跑——这些当然很酷。但 Bonsai Image 4B 真正改变的是图像生成的经济模型。
以前:生图 = 云端 API。每次调用都要花钱,每次迭代都要等延迟,每次出图都要过网络。批量生成?得租 A100。
现在:本地推理,边际成本为零。改一个 prompt 不用等队列,换一个 seed 不用算钱,调一次参数不用看账单。
图像生成天然是迭代式的工作——你不会只出一张图就完事。你会反复调 prompt、换 seed、对比效果。**本地推理把"改一次等一次"变成了"改一次秒一次"**,创作节奏完全不同。
PrismML 在公告里有一段话说得很到位:
"Cloud APIs will continue to be the right choice for many products. But cloud-only generation imposes certain product constraints: every prompt is a remote request, every iteration carries marginal serving cost, and every interaction adds round-trip latency."
翻译过来就是:云端 API 有它的场景,但如果你每次生图都要——发请求、等响应、付钱——这个创作循环就被打断了。本地推理让你随便试,试错成本为零。
图像生成的"穷人版 GPT 时刻"
很多人觉得 1-bit 量化是学术圈的玩具——精度损失太大,不可能真的用。
Bonsai Image 4B 证明了:够用就行。
88% 的画质保留,换来 8.3 倍的体积压缩。从"必须大显存 GPU"到"手机浏览器能跑",这不是量变,这是质变。
想想语言模型的路:GPT-4 满血版很强,但真正改变世界的是那些被量化到 4-bit、2-bit,跑在消费级硬件上的小模型。图像生成正在走同一条路。
Apache 2.0 开源。9.4 秒、1.5GB 内存、手机端。这不是在发论文,是在发产品。
图像生成的门槛,已经被踩到底了。
参考链接:
PrismML 官方公告:https://prismml.com/news/bonsai-image-4b
WebGPU 浏览器 Demo:https://huggingface.co/spaces/webml-community/bonsai-image-webgpu
GitHub:https://github.com/PrismML-Eng/Bonsai-image-demo
想试试更多 AI 工具?
🔧 OpenModel — AI 模型聚合平台,一站式体验
🚀 Stepfun 阶跃星辰 — 国产大模型,长文本能力强
🤖 Agnes AI — 1M 上下文 + 4K 生图 + 视频全免费,API:apihub.agnes-ai.com/v1
觉得这篇文章有用?转发给还在等 API 队列的朋友。
暂无评论。