BitNet - 微软如何让神经网络在普通处理器上运行

BitNet Model on Hugging Face

为什么这很重要

想象一下，你可以在笔记本电脑上运行一个 1000 亿参数的语言模型——不需要强大的 GPU，在普通 CPU 上就能达到 5-7 tokens/秒的速度（大致相当于人类阅读速度）。听起来像科幻小说？微软研究院团队用 BitNet 让这一切成为可能——这是一个用于 1.58 位语言模型推理的框架。

BitNet.cpp 是微软官方实现的 1 位 LLM（如 BitNet b1.58）运行方案。该项目提供：

顺便说一下，该项目基于 llama.cpp，但针对量化模型的工作进行了关键改进。

在 ARM 处理器（如 Apple M2）上，加速比达到 5.07 倍；在 x86 上则高达 6.17 倍。模型越大，收益越明显。

能耗降低：

1000 亿参数的模型可以在单个 CPU 上以舒适的速度运行。

BitNet 使用：

有趣的是，尽管进行了激进的量化，该方法仍能保持模型质量（无损）。

你现在就可以体验 BitNet：在线演示

git clone --recursive https://github.com/microsoft/BitNet.git
cd BitNet

conda create -n bitnet-cpp python=3.9
conda activate bitnet-cpp
pip install -r requirements.txt

huggingface-cli download microsoft/BitNet-b1.58-2B-4T-gguf --local-dir models/BitNet-b1.58-2B-4T

python run_inference.py -m models/BitNet-b1.58-2B-4T/ggml-model-i2_s.gguf -p "You are a helpful assistant" -cnv

BitNet 支持：

完整列表请参阅仓库。

BitNet 的特点： ✅ LLM 效率的突破 ✅ 在本地运行大型模型的能力 ✅ 开源且活跃开发中

该项目特别适合：

现在的主要问题是——你打算如何在项目中使用这项技术？