AI 模型的竞争维度变了:有人在拼参数,有人在把参数压成 1 和 -1

AI 模型的竞争维度变了:有人在拼参数,有人在把参数压成 1 和 -1

7.75GB 的图像生成模型,被压到 0.93GB。

不是蒸馏,不是剪枝,是把权重直接砍成 {-1, +1} 两个数。

PrismML 上周发布的 Bonsai Image 4B,让一个原本需要 16GB 内存的 FLUX.2 图像模型,在 iPhone 上 9.4 秒出图。这件事的意义,远不止"手机能画图了"。


一个反直觉的事实

先说一个行业里不太有人明讲的事:过去两年,AI 模型的竞争基本是在同一个维度上卷——谁的参数多、谁的数据大、谁的算力猛。从 7B 到 70B 到 405B,路线几乎一模一样。

但有一条暗线一直存在:能不能用更少的 bit 表达同样的智能?

微软 2024 年发了 BitNet,提出 1.58-bit 三值权重 {-1, 0, +1},学术圈炸了。但论文归论文,没人真正拿它做产品。

直到 PrismML。

这家从 Caltech 实验室走出来的公司,今年 3 月刚从隐身模式出来,拿了 Vinod Khosla 的投资,第一个产品就是 1-bit 语言模型(8B 参数只占 1.15GB)。Bonsai Image 4B 是他们的第二步棋——把 1-bit 量化从语言模型搬到了图像生成模型上。

这很重要。 因为图像模型对精度比语言模型更敏感。一个 1-bit 的 LLM 说话磕巴一点你还能接受,但一张图颜色偏了、结构崩了,肉眼一秒就能看出来。

它到底做了什么

简单说:把 FLUX.2 Klein 4B 的扩散 transformer 权重,从 16 位浮点数压成了 1-bit 二值 {-1, +1}。

两个版本:

变体 Transformer 体积 压缩比 画质保留
1-bit Bonsai Image 4B 0.93 GB 8.3× ~88%
Ternary Bonsai Image 4B 1.21 GB 6.4× ~95%
FLUX.2 Klein 4B(原版) 7.75 GB 100%

加上文本编码器和 VAE,Apple Silicon 上完整部署包只要 3.42GB——原版需要将近 16GB。

1-bit 版等效 1.125 bit/权重,Ternary 版等效 1.71 bit/权重,多了一个 0 状态,表达能力更强。

PrismML 在三个 benchmark 上做了评测(GenEval 物体组合、HPSv3 人类偏好、DPG-Bench 密集 prompt 跟随),Ternary 版总评保留了原版 95% 的质量

"不仔细看,区别不大"——这句话不是营销话术,是 benchmark 说的。

但我更关心的是另一个数字

1.5GB 活跃内存,9.4 秒出一张 512×512 的图。

这意味着什么?

意味着 iPhone 17 Pro Max 能跑。不是演示视频里的"能跑",是真的打开 App 输入 prompt 9 秒出图的那种。PrismML 甚至做了个 iOS App 叫 Bonsai Studio,App Store 直接下载。

unwire.hk 用 iPhone Air 实测了一波:连续出图十多张,机身只是微温,完全没过热。但中文支持堪忧——繁体中文字全变成了伪中文乱码。安全过滤也有,涉及敏感内容直接拒绝生成。

还有个 WebGPU demo——浏览器打开,输入 prompt,本地出图。不用注册,不用 API key,数据全程不离开你的设备。

这才是 1-bit 量化真正改变的东西:不是让图像生成便宜了一点,是让"本地生图"从不可能变成了可能。

为什么"本地"这件事值得单独拿出来说

用 Midjourney 生成一张图,改三次 prompt,每次等 30 秒,三次就是一分半。用 DALL·E,每次调 API 有延迟,还按 token 计费。

图像生成天然是迭代的事。你不会只出一张——你会改 prompt、换 seed、调参数、对比效果。在云端,每一次迭代都有延迟和成本。在本地,这个循环变成了秒级反馈,成本为零。

PrismML 在公告里写了段话,我觉得一语中的:

"Cloud APIs will continue to be the right choice for many products. But cloud-only generation imposes certain product constraints: every prompt is a remote request, every iteration carries marginal serving cost, and every interaction adds round-trip latency."

翻译过来:云端 API 有它的位置,但如果你每改一次 prompt 都要等服务器、都要算钱,创作的节奏就被打断了。

三步跑起来

不想听道理想动手的,直接上:

git clone https://github.com/PrismML-Eng/Bonsai-image-demo.git
cd Bonsai-image-demo
./setup.sh

setup 脚本自动拉模型权重——macOS 用 MLX 格式,Linux/Windows 用 Gemlite 格式。

下载模型版本:

# 推荐 ternary 版(画质更好)
./scripts/download_model.sh

# 要最小的 1-bit 版
./scripts/download_model.sh binary

生成一张图:

./scripts/generate.sh -p "An icy bonsai tree in a rainy forest, photo realistic." --size 1024x1024 --seed 9909

或者一键启动 Web 工作室(FastAPI + Next.js):

./scripts/serve.sh
# 浏览器打开 localhost:3000

Windows 用户注意:驱动版本要够新,4GB 以下显存的卡建议降到 512×512。不想部署的话,HuggingFace 有个 WebGPU demo,打开浏览器直接跑。

竞争维度真的变了

Hacker News 上这篇讨论拿了 464 分、201 条评论。有位老哥说了句话让我印象很深:

"I actually can't wait for the future where I upgrade hardware in order to upgrade my ai as an alternative to an expensive subscription."

靠升级硬件来升级 AI,而不是付越来越贵的订阅费。 这可能是 1-bit 量化最激进的商业含义。

PrismML 把这叫"智能密度"(Intelligence Density)——不拼参数量,拼每 bit 的智能产出。1-bit Bonsai 8B 只占 1.15GB,跑在 iPhone 上 40 tokens/s,benchmark 跟 14 倍大的模型打得有来有回。图像模型也是同一个思路。

当 0.93GB 的模型能在手机上出图,当 1.15GB 的语言模型能跟 16GB 的模型对标,"参数量"还是衡量模型能力的唯一标准吗?

也许很快,我们会开始用另一个维度比较模型:同样的事,你能用多少 bit 做到?


GitHub: github.com/PrismML-Eng/Bonsai-image-demo

WebGPU 体验: huggingface.co/spaces/webml-community/bonsai-image-webgpu

PrismML 官方公告: prismml.com/news/bonsai-image-4b

评论

暂无评论。

登录后可发表评论。