无需API，手机电脑都能生图了——1-bit扩散模型把7.75GB压到0.93GB

AI生图 1-bit量化 Bonsai Image 本地推理开源模型

发布于 2026-06-29 09:38:55 7 次浏览

无需API，手机电脑都能生图了——1-bit扩散模型把7.75GB压到0.93GB

7.75GB 的图像生成模型，你手机跑不了。

0.93GB 的，跑得了。

PrismML 刚发布的 Bonsai Image 4B，把 FLUX.2 Klein 4B 的扩散 transformer 权重从 16 位浮点数压成了 {-1, +1} 两个值——体积缩了 8.3 倍，画质还保留了 88%。

iPhone 17 Pro Max 上 9.4 秒出图。Mac M4 Pro 上 6 秒。浏览器打开 HuggingFace demo，不用注册不用 API key，直接本地推理。

Apache 2.0 开源，免费。

这不是"小了一点"，这是从"必须大显存GPU"到"手机能跑"的质变。

1-bit 量化到底干了什么

先说结论：它没有重新训练模型，而是把已有模型的权重做了极限压缩。

FLUX.2 Klein 4B 的 transformer 权重原本用 FP16（16位浮点数）存储，每个权重占 2 字节。Bonsai Image 4B 把这些权重量化成只有 {-1, +1} 两个值（binary 版）或 {-1, 0, +1} 三个值（ternary 版），再配上一组 FP16 的缩放因子来补偿精度损失。

两个版本对比：

变体	Transformer 大小	压缩比	画质保留
1-bit Bonsai Image 4B	0.93 GB	8.3×	~88%
Ternary Bonsai Image 4B	1.21 GB	6.4×	~95%
FLUX.2 Klein 4B（原版）	7.75 GB	1×	100%

加上文本编码器和 VAE，Apple Silicon 上完整部署包 1-bit 版只要 3.42GB——原版 FLUX.2 需要将近 16GB。

1-bit 版等效 1.125 bit/权重，ternary 版 1.71 bit/权重。多一个 0 状态，表达能力就上了一个台阶，画质也更接近原版。

PrismML 在三个 benchmark 上做了评测——GenEval（物体组合和属性绑定）、HPSv3（人类偏好和美学质量）、DPG-Bench（密集 prompt 跟随）。Ternary 版三个评测分别保留了 FLUX.2 的 88%、95%、99.8%，总评 95% 的质量保留率。

说白了：不仔细对比，区别不大。

三步跑起来

Bonsai Image 的 GitHub demo 支持 macOS、Linux、Windows，不用 WSL2。

第一步：克隆并安装。

macOS / Linux：

git clone https://github.com/PrismML-Eng/Bonsai-image-demo.git
cd Bonsai-image-demo
./setup.sh

Windows（PowerShell）：

Set-ExecutionPolicy -Scope CurrentUser RemoteSigned
.\setup.ps1

setup 脚本会自动拉模型权重——macOS 用 MLX 格式，Linux/Windows 用 Gemlite 格式。

第二步：选模型版本。

# 推荐 ternary 版（画质更好）
./scripts/download_model.sh

# 要最小的 1-bit 版
./scripts/download_model.sh binary

第三步：启动。

一键启动 Web 工作室（FastAPI + Next.js）：

./scripts/serve.sh
# 浏览器打开 localhost:3000

或者命令行直接生成：

./scripts/generate.sh -p "An icy bonsai tree in a rainy forest, photo realistic." --size 1024x1024 --seed 9909

默认 512×512 快速预览，1024×1024 出成品。尺寸必须是 32 的倍数。

Windows 注意：NVIDIA 驱动版本要够新，装好 vcredist。1024×1024 在显存小于 4GB 的卡上可能 OOM，降到 512×512 就行。

不想自己部署？HuggingFace 上有 WebGPU demo，浏览器打开直接跑，全程本地推理。iPhone 用户还能下 Bonsai Studio App。

三个场景，三个质变

📱 手机端本地生图。

之前 FLUX.2 Klein 4B 在 iPhone 上根本跑不了——内存不够。Bonsai Image 1-bit 版跑 512×512 只需要 1.5GB 活跃内存，9.4 秒出图。PrismML 还出了 iOS App Bonsai Studio，直接在 iPhone 上体验。

🌐 浏览器 WebGPU 生图。

打开 HuggingFace demo 网页，输入 prompt，浏览器本地出图。不用注册、不用 API key、不用等队列。数据全程在本地，不会上传到任何服务器。

🖥️ 低成本服务端部署。

以前批量生图可能需要多张 A100。现在一张普通消费级显卡甚至 CUDA 核显就能跑。部署成本断崖式下降。

图像生成是天然迭代的——你不会只出一张图，你会改 prompt、换 seed、对比效果。本地推理让这个循环从"等服务器"变成了"秒级反馈"，创作体验根本不同。

PrismML 在公告里写了一段话，我觉得是理解这个模型价值的关键：

"Cloud APIs will continue to be the right choice for many products. But cloud-only generation imposes certain product constraints: every prompt is a remote request, every iteration carries marginal serving cost, and every interaction adds round-trip latency."

翻译一下：云端 API 有它的位置，但如果你每改一次 prompt 都要等服务器、都要算钱、都要等延迟，创作的节奏就被打断了。本地推理让你可以随便试，成本为零。

Bonsai Image 4B 真正适合的是"我想自己跑图像生成，但不想买 A100 也不想等 API 队列"的人。 画质从 100% 到 88% 的代价，换来从"跑不了"到"秒出图"的跨越——这笔账，怎么算都值。

图像生成的"DeepSeek 时刻"

看到 Bonsai Image 4B 的第一反应，我想起了 DeepSeek。

不是技术上类似，是范式上类似。

DeepSeek 证明了语言模型可以用更少的算力做到接近 GPT-4 的水平。Bonsai Image 在图像生成领域做了类似的事：证明了一个被压到 1GB 以内的扩散模型，画质可以接近一个 7.75GB 的完整模型。

而且跟 DeepSeek 一样，Apache 2.0 开源。

1-bit 扩散模型这件事，学术圈讨论了很久，但真正以产品级质量放出来的，Bonsai Image 4B 是第一个。9.4 秒、1.5GB 内存、手机端——这些数字放在一起，不是在发论文，是在发产品。

图像生成正在从"云端特权"变成"本地标配"。

参考链接：

PrismML 官方公告：https://prismml.com/news/bonsai-image-4b

WebGPU 浏览器 Demo：https://huggingface.co/spaces/webml-community/bonsai-image-webgpu

GitHub：https://github.com/PrismML-Eng/Bonsai-image-demo

觉得有用？转发给你那个还在等 API 队列的朋友。

无需API，手机电脑都能生图了——1-bit扩散模型把7.75GB压到0.93GB

1-bit 量化到底干了什么

三步跑起来

三个场景，三个质变

图像生成的"DeepSeek 时刻"

评论