一个不到1GB的AI生图模型,把8GB的活干了

一个不到1GB的AI生图模型,把8GB的活干了

7.75GB 的模型压到 0.93GB,画质掉了 12%。

但换来的是——你的手机能跑了。

PrismML 刚放出 Bonsai Image 4B,干了一件很多人觉得不可能的事:把 FLUX.2 Klein 4B 这个 7.75GB 的图像生成模型的权重,全部压成只有 -1 和 +1 两个数。

你没看错,整个神经网络的参数,从浮点数变成了两个符号。

压缩完的模型,iPhone 17 Pro Max 上 9.4 秒出一张 512×512 的图。Mac M4 Pro 上 6 秒。甚至浏览器里也能跑——打开 HuggingFace 的 WebGPU demo,不用注册、不用 API key,输入 prompt 直接出图。

Apache 2.0 开源,免费。

权重只剩两个值,凭什么还能画?

先搞清楚它干了什么,再判断是不是噱头。

普通的扩散模型(比如 FLUX.2),每个权重用 FP16 存储——16 位浮点数,每个参数占 2 字节。Bonsai Image 的做法是:不重新训练,直接把已有模型的权重做极限量化

具体来说,transformer 层的权重被映射到 {-1, +1}(1-bit 版)或 {-1, 0, +1}(ternary 版),再配一组 FP16 的缩放因子来弥补精度损失。

相当于把一幅高清照片变成了一幅像素画——信息确实丢了,但轮廓和神韵还在。

两个版本的数据对比:

版本 体积 压了多少 画质剩多少
1-bit 版 0.93 GB 8.3 倍 约 88%
Ternary 版 1.21 GB 6.4 倍 约 95%
原版 FLUX.2 7.75 GB 100%

加上文本编码器和 VAE,Apple Silicon 上完整跑起来,1-bit 版只需要 3.42GB 内存——原版 FLUX.2 要将近 16GB。

三组专业评测(GenEval 测物体组合、HPSv3 测人类偏好、DPG-Bench 测 prompt 跟随度),ternary 版分别保留了原版的 88%、95%、99.8%。综合下来,95% 的画质保留率

1-bit 版等效 1.125 bit/权重,ternary 版 1.71 bit/权重。多一个 0 的状态,表达能力就跳了一个档。

说人话:不把两张图放一起对比,你基本看不出差别。

怎么用?比你想的简单

Bonsai Image 的 GitHub 仓库给了完整的一键脚本,macOS、Linux、Windows 都支持,Windows 甚至不需要 WSL2。

装环境:

macOS / Linux:

git clone https://github.com/PrismML-Eng/Bonsai-image-demo.git
cd Bonsai-image-demo
./setup.sh

Windows(PowerShell):

Set-ExecutionPolicy -Scope CurrentUser RemoteSigned
.\setup.ps1

setup 脚本会自动拉模型权重——macOS 用 MLX 格式,Linux/Windows 用 Gemlite 格式。

下模型:

# 推荐 ternary 版,画质更好
./scripts/download_model.sh

# 追求极致小巧选 1-bit 版
./scripts/download_model.sh binary

跑起来:

一键启动 Web 工作室(FastAPI + Next.js 前端):

./scripts/serve.sh
# 浏览器打开 localhost:3000

或者命令行直接生成:

./scripts/generate.sh -p "A crystalline dragon perched on a snowy peak, cinematic lighting." --size 1024x1024 --seed 42

默认出 512×512 快速预览,1024×1024 出成品,尺寸要求是 32 的倍数。

Windows 用户注意:NVIDIA 驱动版本要够新,装好 vcredist。4GB 以下显存的卡跑 1024×1024 可能爆显存,降到 512×512 就行。

懒得上手?HuggingFace 有 WebGPU 浏览器版,打开网页就能跑,全程本地推理。iOS 用户还可以直接下 Bonsai Studio App。

这件事的真正意义

手机跑、浏览器跑、老显卡跑——这些当然很酷。但 Bonsai Image 4B 真正改变的是图像生成的经济模型。

以前:生图 = 云端 API。每次调用都要花钱,每次迭代都要等延迟,每次出图都要过网络。批量生成?得租 A100。

现在:本地推理,边际成本为零。改一个 prompt 不用等队列,换一个 seed 不用算钱,调一次参数不用看账单。

图像生成天然是迭代式的工作——你不会只出一张图就完事。你会反复调 prompt、换 seed、对比效果。**本地推理把"改一次等一次"变成了"改一次秒一次"**,创作节奏完全不同。

PrismML 在公告里有一段话说得很到位:

"Cloud APIs will continue to be the right choice for many products. But cloud-only generation imposes certain product constraints: every prompt is a remote request, every iteration carries marginal serving cost, and every interaction adds round-trip latency."

翻译过来就是:云端 API 有它的场景,但如果你每次生图都要——发请求、等响应、付钱——这个创作循环就被打断了。本地推理让你随便试,试错成本为零。

图像生成的"穷人版 GPT 时刻"

很多人觉得 1-bit 量化是学术圈的玩具——精度损失太大,不可能真的用。

Bonsai Image 4B 证明了:够用就行

88% 的画质保留,换来 8.3 倍的体积压缩。从"必须大显存 GPU"到"手机浏览器能跑",这不是量变,这是质变。

想想语言模型的路:GPT-4 满血版很强,但真正改变世界的是那些被量化到 4-bit、2-bit,跑在消费级硬件上的小模型。图像生成正在走同一条路。

Apache 2.0 开源。9.4 秒、1.5GB 内存、手机端。这不是在发论文,是在发产品。

图像生成的门槛,已经被踩到底了。


参考链接:

PrismML 官方公告:https://prismml.com/news/bonsai-image-4b

WebGPU 浏览器 Demo:https://huggingface.co/spaces/webml-community/bonsai-image-webgpu

GitHub:https://github.com/PrismML-Eng/Bonsai-image-demo


想试试更多 AI 工具?

🔧 OpenModel — AI 模型聚合平台,一站式体验

🚀 Stepfun 阶跃星辰 — 国产大模型,长文本能力强

🤖 Agnes AI — 1M 上下文 + 4K 生图 + 视频全免费,API:apihub.agnes-ai.com/v1


觉得这篇文章有用?转发给还在等 API 队列的朋友。

评论

暂无评论。

登录后可发表评论。