两女女百合互慰av赤裸无遮挡

人人好，我是 Ai 学习的老章

MiniMax M2.1 大模子文献终于来了

我看官方部署文档，天然模子文献唯一 230GB，然则若是念念要守旧更高高低文达到理念念遵守，所需显存已经蛮高的：模子权重 220GB+ 每百万 Tokons 高低文需要 240GB 显存。

以下为保举建立，实质需求请笔据业务场景调理：

• 96G x4 GPU：支握 40 万 token 的总高低文。

• 141G x8 GPU：支握长达 300 万 token 的总高低文。（官方文档原文写的 144GB，maybe 笔误）

部署剧本（需要 nightly 版块的 vllm）：

uv venv

source .venv/bin/activate

uv pip install -U vllm --extra-index-url https://wheels.vllm.ai/nightly

SAFETENSORS_FAST_GPU=1 vllm serve \

MiniMaxAI/MiniMax-M2.1 --trust-remote-code \

--tensor-parallel-size 4 \

--enable-auto-tool-choice --tool-call-parser minimax_m2 \

--reasoning-parser minimax_m2_append_think

保举几个主流且肃穆的量化版吧，腹地跑起来本钱低好多

Unsloth

当先登场的是大模子量化界翘楚：unsloth

从 1-bit 到 16-bit 皆有，llama.cpp 滥觞，过失是慢

https://huggingface.co/unsloth/MiniMax-M2.1-GGUF

QuantTrio/MiniMax-M2.1-AWQ

GPU 用户激烈保举这个，模子文献 125GB，不错 vLLM 启动，版块 0.13 即可

https://huggingface.co/QuantTrio/MiniMax-M2.1-AWQ

启动剧本：

export VLLM_USE_DEEP_GEMM=0

export VLLM_USE_FLASHINFER_MOE_FP16=1

export VLLM_USE_FLASHINFER_SAMPLER=0

export OMP_NUM_THREADS=4

vllm serve \

__YOUR_PATH__/QuantTrio/MiniMax-M2.1-AWQ \

--served-model-name MY_MODEL \

--swap-space 16 \

--max-num-seqs 32 \

--max-model-len 32768 \

--gpu-memory-utilization 0.9 \

--tensor-parallel-size 8 \

--enable-expert-parallel \

--enable-auto-tool-choice \

--tool-call-parser minimax_m2 \

--reasoning-parser minimax_m2_append_think \

--trust-remote-code \

--host 0.0.0.0 \

--port 8000

mlx

土豪苹果用户必选天然是 MLX

https://huggingface.co/mlx-community/models?search=m2.1

比拟受迎接的 4bit 版块，文献 129GB

启动剧本：

#装置：pip install mlx-lm

from mlx_lm import load, generate

model, tokenizer = load("mlx-community/MiniMax-M2.1-4bit")

prompt = "hello"

if tokenizer.chat_template is not None:

messages = [{"role": "user", "content": prompt}]

prompt = tokenizer.apply_chat_template(

messages, add_generation_prompt=True

)

response = generate(model, tokenizer, prompt=prompt, verbose=True)

两女女百合互慰av赤裸无遮挡

两女女百合互慰av赤裸无遮挡

让建站和SEO变得简单

MiniMax M2.1 量化版来了

热点资讯

推荐资讯

最新资讯