Tag: vLLM

[AI] vLLM 部署地端模型系統訊息記錄 A100

2025 年八月釋出的 GPT-OSS-20B 是普遍地端採用的模型,一釋出的時候就有 128K 的 max-model-len,2026 年四月 Google Gemma-4 上下文大小更可以到兩倍,本篇因為工作需要,需要嘗試使用 Gemma-4 模型,因此順便記錄不同地端 (GPT-OSS-20B, Gemma-4) LLM 模型在 Nvidia A100 上配合不同參數的系統訊息,藉此讓自己理解不同 LLM Model 與配合 A100 產生的差異,提供一個低成本的解決方案。

詳細內容

[LLM] Spark + Local vLLM Server

前陣子接收到 Nvidia 分享的這篇 Blog, Accelerate Deep Learning and LLM Inference with Apache Spark in the Cloud,開啟了檸檬爸在結合 Spark 與 Deep Learning/LLM 的想像,配合一些之前實作過 vLLM 的經驗,本篇紀錄利用 Spark + Local vLLM Server 達成加速批次推論的目的過程中遇到的種種坑。

詳細內容