无需API,手机电脑都能生图了——1-bit扩散模型把7.75GB压到0.93GB
7.75GB 的图像生成模型,你手机跑不了。
0.93GB 的,跑得了。
PrismML 刚发布的 Bonsai Image 4B,把 FLUX.2 Klein 4B 的扩散 transformer 权重从 16 位浮点数压成了 {-1, +1} 两个值——体积缩了 8.3 倍,画质还保留了 88%。
iPhone 17 Pro Max 上 9.4 秒出图。Mac M4 Pro 上 6 秒。浏览器打开 HuggingFace demo,不用注册不用 API key,直接本地推理。
Apache 2.0 开源,免费。
这不是"小了一点",这是从"必须大显存GPU"到"手机能跑"的质变。
1-bit 量化到底干了什么
先说结论:它没有重新训练模型,而是把已有模型的权重做了极限压缩。
FLUX.2 Klein 4B 的 transformer 权重原本用 FP16(16位浮点数)存储,每个权重占 2 字节。Bonsai Image 4B 把这些权重量化成只有 {-1, +1} 两个值(binary 版)或 {-1, 0, +1} 三个值(ternary 版),再配上一组 FP16 的缩放因子来补偿精度损失。
两个版本对比:
| 变体 | Transformer 大小 | 压缩比 | 画质保留 |
|---|---|---|---|
| 1-bit Bonsai Image 4B | 0.93 GB | 8.3× | ~88% |
| Ternary Bonsai Image 4B | 1.21 GB | 6.4× | ~95% |
| FLUX.2 Klein 4B(原版) | 7.75 GB | 1× | 100% |
加上文本编码器和 VAE,Apple Silicon 上完整部署包 1-bit 版只要 3.42GB——原版 FLUX.2 需要将近 16GB。
1-bit 版等效 1.125 bit/权重,ternary 版 1.71 bit/权重。多一个 0 状态,表达能力就上了一个台阶,画质也更接近原版。
PrismML 在三个 benchmark 上做了评测——GenEval(物体组合和属性绑定)、HPSv3(人类偏好和美学质量)、DPG-Bench(密集 prompt 跟随)。Ternary 版三个评测分别保留了 FLUX.2 的 88%、95%、99.8%,总评 95% 的质量保留率。
说白了:不仔细对比,区别不大。
三步跑起来
Bonsai Image 的 GitHub demo 支持 macOS、Linux、Windows,不用 WSL2。
第一步:克隆并安装。
macOS / Linux:
git clone https://github.com/PrismML-Eng/Bonsai-image-demo.git
cd Bonsai-image-demo
./setup.sh
Windows(PowerShell):
Set-ExecutionPolicy -Scope CurrentUser RemoteSigned
.\setup.ps1
setup 脚本会自动拉模型权重——macOS 用 MLX 格式,Linux/Windows 用 Gemlite 格式。
第二步:选模型版本。
# 推荐 ternary 版(画质更好)
./scripts/download_model.sh
# 要最小的 1-bit 版
./scripts/download_model.sh binary
第三步:启动。
一键启动 Web 工作室(FastAPI + Next.js):
./scripts/serve.sh
# 浏览器打开 localhost:3000
或者命令行直接生成:
./scripts/generate.sh -p "An icy bonsai tree in a rainy forest, photo realistic." --size 1024x1024 --seed 9909
默认 512×512 快速预览,1024×1024 出成品。尺寸必须是 32 的倍数。
Windows 注意:NVIDIA 驱动版本要够新,装好 vcredist。1024×1024 在显存小于 4GB 的卡上可能 OOM,降到 512×512 就行。
不想自己部署?HuggingFace 上有 WebGPU demo,浏览器打开直接跑,全程本地推理。iPhone 用户还能下 Bonsai Studio App。
三个场景,三个质变
📱 手机端本地生图。
之前 FLUX.2 Klein 4B 在 iPhone 上根本跑不了——内存不够。Bonsai Image 1-bit 版跑 512×512 只需要 1.5GB 活跃内存,9.4 秒出图。PrismML 还出了 iOS App Bonsai Studio,直接在 iPhone 上体验。
🌐 浏览器 WebGPU 生图。
打开 HuggingFace demo 网页,输入 prompt,浏览器本地出图。不用注册、不用 API key、不用等队列。数据全程在本地,不会上传到任何服务器。
🖥️ 低成本服务端部署。
以前批量生图可能需要多张 A100。现在一张普通消费级显卡甚至 CUDA 核显就能跑。部署成本断崖式下降。
图像生成是天然迭代的——你不会只出一张图,你会改 prompt、换 seed、对比效果。本地推理让这个循环从"等服务器"变成了"秒级反馈",创作体验根本不同。
PrismML 在公告里写了一段话,我觉得是理解这个模型价值的关键:
"Cloud APIs will continue to be the right choice for many products. But cloud-only generation imposes certain product constraints: every prompt is a remote request, every iteration carries marginal serving cost, and every interaction adds round-trip latency."
翻译一下:云端 API 有它的位置,但如果你每改一次 prompt 都要等服务器、都要算钱、都要等延迟,创作的节奏就被打断了。本地推理让你可以随便试,成本为零。
Bonsai Image 4B 真正适合的是"我想自己跑图像生成,但不想买 A100 也不想等 API 队列"的人。 画质从 100% 到 88% 的代价,换来从"跑不了"到"秒出图"的跨越——这笔账,怎么算都值。
图像生成的"DeepSeek 时刻"
看到 Bonsai Image 4B 的第一反应,我想起了 DeepSeek。
不是技术上类似,是范式上类似。
DeepSeek 证明了语言模型可以用更少的算力做到接近 GPT-4 的水平。Bonsai Image 在图像生成领域做了类似的事:证明了一个被压到 1GB 以内的扩散模型,画质可以接近一个 7.75GB 的完整模型。
而且跟 DeepSeek 一样,Apache 2.0 开源。
1-bit 扩散模型这件事,学术圈讨论了很久,但真正以产品级质量放出来的,Bonsai Image 4B 是第一个。9.4 秒、1.5GB 内存、手机端——这些数字放在一起,不是在发论文,是在发产品。
图像生成正在从"云端特权"变成"本地标配"。
参考链接:
PrismML 官方公告:https://prismml.com/news/bonsai-image-4b
WebGPU 浏览器 Demo:https://huggingface.co/spaces/webml-community/bonsai-image-webgpu
GitHub:https://github.com/PrismML-Eng/Bonsai-image-demo
觉得有用?转发给你那个还在等 API 队列的朋友。
暂无评论。