两女女百合互慰av赤裸无遮挡

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

MiniMax M2.1 量化版来了

发布日期:2026-01-04 12:30 点击次数:73 你的位置:两女女百合互慰av赤裸无遮挡 > 新闻 >

人人好,我是 Ai 学习的老章

MiniMax M2.1 大模子文献终于来了

我看官方部署文档,天然模子文献唯一 230GB,然则若是念念要守旧更高高低文达到理念念遵守,所需显存已经蛮高的:模子权重 220GB+ 每百万 Tokons 高低文需要 240GB 显存。

以下为保举建立,实质需求请笔据业务场景调理:

• 96G x4 GPU:支握 40 万 token 的总高低文。

• 141G x8 GPU:支握长达 300 万 token 的总高低文。(官方文档原文写的 144GB,maybe 笔误)

部署剧本(需要 nightly 版块的 vllm):

uv venv

source .venv/bin/activate

uv pip install -U vllm --extra-index-url https://wheels.vllm.ai/nightly

SAFETENSORS_FAST_GPU=1 vllm serve \

MiniMaxAI/MiniMax-M2.1 --trust-remote-code \

--tensor-parallel-size 4 \

--enable-auto-tool-choice --tool-call-parser minimax_m2 \

--reasoning-parser minimax_m2_append_think

保举几个主流且肃穆的量化版吧,腹地跑起来本钱低好多

Unsloth

当先登场的是 大模子量化界翘楚:unsloth

从 1-bit 到 16-bit 皆有,llama.cpp 滥觞,过失是慢

https://huggingface.co/unsloth/MiniMax-M2.1-GGUF

QuantTrio/MiniMax-M2.1-AWQ

GPU 用户 激烈保举这个,模子文献 125GB,不错 vLLM 启动,版块 0.13 即可

https://huggingface.co/QuantTrio/MiniMax-M2.1-AWQ

启动剧本:

export VLLM_USE_DEEP_GEMM=0

export VLLM_USE_FLASHINFER_MOE_FP16=1

export VLLM_USE_FLASHINFER_SAMPLER=0

export OMP_NUM_THREADS=4

vllm serve \

__YOUR_PATH__/QuantTrio/MiniMax-M2.1-AWQ \

--served-model-name MY_MODEL \

--swap-space 16 \

--max-num-seqs 32 \

--max-model-len 32768 \

--gpu-memory-utilization 0.9 \

--tensor-parallel-size 8 \

--enable-expert-parallel \

--enable-auto-tool-choice \

--tool-call-parser minimax_m2 \

--reasoning-parser minimax_m2_append_think \

--trust-remote-code \

--host 0.0.0.0 \

--port 8000

mlx

土豪苹果用户必选天然是 MLX

https://huggingface.co/mlx-community/models?search=m2.1

比拟受迎接的 4bit 版块,文献 129GB

启动剧本:

#装置:pip install mlx-lm

from mlx_lm import load, generate

model, tokenizer = load("mlx-community/MiniMax-M2.1-4bit")

prompt = "hello"

if tokenizer.chat_template is not None:

messages = [{"role": "user", "content": prompt}]

prompt = tokenizer.apply_chat_template(

messages, add_generation_prompt=True

)

response = generate(model, tokenizer, prompt=prompt, verbose=True)

热点资讯

推荐资讯

最新资讯