在跨區租用 M4跑批推理要在PyTorch MPS與MLX間定錨,並處理統一記憶體尖峰與佇列逾時。本文附參數化對照表、四類場景 H2、落地步驟與內鏈/sitemap要點。延伸:Ollama 批佇列、統一記憶體矩陣、跨區延遲與買租。首頁、方案、購買、說明免登入。
痛點拆解(編號)
- 生態鎖定:MPS 與 MLX 算子覆蓋不同,選錯主幹拉長上線。
- 記憶體尖峰:權重、啟用、KV 共享統一記憶體,B 一加大易擠壓互動任務。
- 逾時誤判:RTT 與 SSH 讓逾時混雜連線與計算;見DLQ 摘要文。
參數化決策對照表(記號與建議區間)
記號:B 批大小、T 序列長、H 系統保留比例、τ 逾時、RTT 往返延遲。請以實測為準。
| 決策維度 | 符號 | PyTorch MPS 建議 | MLX 建議 | 觀測/備註 |
|---|---|---|---|---|
| 後端選型 | — | torch 生態、動態除錯 | mlx 工具鏈、Apple 範式 | 分 Worker,忌同程序雙載 |
| 批與上下文 | B,T | B 自一起加倍試探;長 T 先降 B | 同左;注意首次編譯尖峰 | 互動/批次分佇列 |
| 記憶體餘量 | H | 預留約百分之十五至二十五 | 同左 | 看壓力與交換 |
| 逾時與降級 | τ | 互動緊、批次鬆;τ 扣 RTT | 同左 | 軟逾時縮批/降精度;硬逾時進 DLQ |
| 區域 | RTT | 資料與控制台近使用者 | 同左 | 高頻小請求最怕跨洋 |
MPS 與 MLX 適用場景
MPS適合既有 torch 管線與除錯需求,熱點須驗證是否真走 GPU。MLX適合願意採其 API 的專案。兩者宜分 Worker,勿在同一長連線內反覆切換造成載入尖峰。
批大小與記憶體峰值
峰值由權重、B/T 啟用與框架快取組成;先單樣本再加倍找膝點。與他類作業並存時參考Blender 統一記憶體文保留餘量。
佇列逾時與降級
連線與計算逾時分欄;批次用多層 τ:軟逾時縮批/降精度,硬逾時進 DLQ。重試有界+抖動,見Ollama 批佇列。
區域節點延遲考量
日韓港新/美西差在 RTT:小請求輪詢吃虧,長批次較吃吞吐。資料與控制台宜近使用者;買租試算見跨區延遲文。
落地步驟(不少於五步)
- 固定版本,跑單樣本基線與分位。
- 依表選 MPS 或 MLX 主後端,次路徑另 Worker。
- 互動/批次分佇列與 τ,τ 扣 RTT。
- 階梯調 B、T,觸警戒即縮批或降精度。
- 內鏈自檢並更新 frontend/tw/blog/sitemap.xml(下節)。
可引用資訊(不少於三條)
- H:預留約百分之十五至二十五再調 B。
- B:自一起,穩定後加倍或階梯加一。
- τ:互動/批次分層,長尾保留縮批再入隊。
內鏈與 Sitemap 說明
內鏈僅指向已存在頁面或錨點。Sitemap:把 https://maccompute.com/tw/blog/articles/2026-remote-mac-m4-pytorch-mps-mlx-inference-matrix.html 寫入 frontend/tw/blog/sitemap.xml;可跑 python3 scripts/generate-sitemap.py 同步根索引。slug:2026-remote-mac-m4-pytorch-mps-mlx-inference-matrix.html。
常見問題
算力檔位先看記憶體膝點再談並行。算子不支援查文件或改寫熱點。與 LLM 並跑分開限額,見 Ollama 文。