Tag: vLLM

[AI] vLLM 部署地端模型系統訊息記錄 A100

Posted on 2026-04-182026-04-19 by 檸檬爸

2025 年八月釋出的 GPT-OSS-20B 是普遍地端採用的模型，一釋出的時候就有 128K 的 max-model-len，2026 年四月 Google Gemma-4 上下文大小更可以到兩倍，本篇因為工作需要，需要嘗試使用 Gemma-4 模型，因此順便記錄不同地端 (GPT-OSS-20B, Gemma-4) LLM 模型在 Nvidia A100 上配合不同參數的系統訊息，藉此讓自己理解不同 LLM Model 與配合 A100 產生的差異，提供一個低成本的解決方案。

詳細內容

[LLM] Spark + Local vLLM Server

Posted on 2025-12-272025-12-27 by 檸檬爸

前陣子接收到 Nvidia 分享的這篇 Blog， Accelerate Deep Learning and LLM Inference with Apache Spark in the Cloud，開啟了檸檬爸在結合 Spark 與 Deep Learning/LLM 的想像，配合一些之前實作過 vLLM 的經驗，本篇紀錄利用 Spark + Local vLLM Server 達成加速批次推論的目的過程中遇到的種種坑。

詳細內容

Tag: vLLM

[AI] vLLM 部署地端模型系統訊息記錄 A100

[LLM] Spark + Local vLLM Server

Most Viewed Posts

Categories

Recent Posts

Archives

Facebook Page Widget

Contact Us

檸檬媽

檸檬爸