MiniCPM-o 2.6部署教程

输入“/”快速插入内容

MiniCPM-o 2.6部署教程

用户309

用户2839

用户6987

2025年6月23日修改

建议配合GitHub文档一起使用：https://github.com/OpenBMB/MiniCPM-o

部署环境要求

模型

设备

资源

操作系统

推理支持

简介

下载地址

MiniCPM-o 2.6

GPU

18 G

Linux/Windows

vllm

transformers

最新版本，实现了在端侧上对视觉、语音和多模态直播的 GPT-4o 级性能。​

MiniCPM-o 2.6 gguf

CPU

全平台

llama.cpp

gguf 版本，更低的内存占用和更高的推理效率。

MiniCPM-o 2.6 int4(gptq量化)

GPU

Linux/Windows

transformers/auto_gptq

gptq int4量化版，更低显存占用,但是由于反量化，速度可能下降。​

由于推理过程中会占用一部分显存。在部署时，非量化版本建议保留20G以上显存，量化版本保留12G以上显存。​

1.
Web Demo本地部署（含Windows）​

由于Apple Silicon不支持GPTQ算子，无法运行int4量化版本，16G内存以下Mac用户请移步llama.cpp教程.

Windows系统请参考MiniCPM-o 2.6 本地部署记录，Windows+RTX3060全部跑通！，以下主要采用linux系统.

conda环境部署（有conda可跳过）

a.
选好路径，下载Miniconda​

代码块

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

b.
同目录下安装conda​

代码块

bash /root/autodl-tmp/ls/Miniconda3-latest-Linux-x86_64.sh

c.
安装过程中所有选择输入yes​

d.
激活conda环境​

代码块

conda init​
source activate​

e.
创建专属的minicpmo环境​

代码块

conda create -n minicpmo python==3.10

安装MiniCPM-o依赖环境

a.
激活你的conda环境​

代码块

conda activate minicpmo

b.
下载 MiniCPM-o 2.6 代码​

代码块

git clone https://github.com/OpenBMB/MiniCPM-o.git

c.
安装python依赖包​

代码块

cd MiniCPM-o​
pip install -r requirements_o2.6.txt​

启动模型服务

a.
如果是可以访问huggingface,那可以直接运行以下命令：​

代码块

python web_demos/minicpm-o_2.6/model_server.py

如果想使用本地模型，或者无法访问huggingface

i.
首先从魔搭下载MiniCPM-O模型，需要安装git-lfs​

代码块

git clone https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-2_6

ii.
启动模型，以下红色路径改为您的模型path：​

代码块

python web_demos/minicpm-o_2.6/model_server.py --model /root/autodl-tmp/model/MiniCPM-o-2_6​

iii.

如果您服务器显存低于20G且大于等于12G，推荐使用gptq量化的int4模型。

1.
首先下载gptq int4模型​

代码块

git clone https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-2_6-int4

2.
下载并安装我们fork的gptq代码：​

代码块

git clone https://github.com/OpenBMB/AutoGPTQ.git && cd AutoGPTQ​
git checkout minicpmo​
​
# install AutoGPTQ​
pip install -vvv --no-build-isolation -e .​

MiniCPM-o 2.6部署教程​

MiniCPM-o 2.6部署教程