@@ -24,15 +24,23 @@ ______________________________________________________________________
2424## 最新进展 🎉
2525
2626<details open >
27- <summary ><b >2025</b ></summary >
27+ <summary ><b >2026</b ></summary >
28+
29+ - \[ 2026/02\] 支持 [ vllm-project/llm-compressor] ( https://github.com/vllm-project/llm-compressor ) 4bit 对称和非对称量化。 具体操作指南详见[ 此处] ( ./docs/zh_cn/quantization/llm_compressor.md )
30+
2831</details >
2932
33+ <details close >
34+ <summary ><b >2025</b ></summary >
35+
3036- 【2025年9月】TurboMind 引擎支持 MXFP4,适用于 NVIDIA V100 及以上 GPU。在 H800 上推理 openai gpt-oss 模型,性能可达 vLLM 的 1.5倍!
3137- 【2025年6月】深度优化 FP8 MoE 模型推理
3238- 【2025年6月】集成[ DLSlime] ( https://github.com/DeepLink-org/DLSlime ) 和[ Mooncake] ( https://github.com/kvcache-ai/Mooncake ) ,实现DeepSeek PD分离部署,向两个团队表示诚挚的感谢!
3339- 【2025年4月】集成deepseek-ai组件FlashMLA、DeepGemm、DeepEP、MicroBatch、eplb等,提升DeepSeek推理性能
3440- 【2025年1月】新增对DeepSeek V3及R1的支持
3541
42+ </details >
43+
3644<details close >
3745<summary ><b >2024</b ></summary >
3846
@@ -176,6 +184,7 @@ LMDeploy TurboMind 引擎拥有卓越的推理能力,在各种规模的模型
176184 <li >InternVL3.5 (1B-241BA28B)</li >
177185 <li >Intern-S1 (241B)</li >
178186 <li >Intern-S1-mini (8.3B)</li >
187+ <li >Intern-S1-Pro (1TB)</li >
179188 <li >Mono-InternVL (2B)</li >
180189 <li >ChemVLM (8B-26B)</li >
181190 <li >CogVLM-Chat (17B)</li >
@@ -217,7 +226,7 @@ pip install lmdeploy
217226若使用 GeForce RTX 50 系列显卡,请安装基于 ** CUDA 12.8** 编译的 LMDeploy 预编译包。
218227
219228``` shell
220- export LMDEPLOY_VERSION=0.11.1
229+ export LMDEPLOY_VERSION=0.12.0
221230export PYTHON_VERSION=310
222231pip install https://github.com/InternLM/lmdeploy/releases/download/v${LMDEPLOY_VERSION} /lmdeploy-${LMDEPLOY_VERSION} +cu128-cp${PYTHON_VERSION} -cp${PYTHON_VERSION} -manylinux2014_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu128
223232```
0 commit comments