跨區租用 M4跑 WhisperKit/Core ML 語音批轉寫時,並行路數、批長、精度與統一記憶體、NVMe IO共同決定穩定性。下文以決策表+sysctl/活動監視器參考閾值+Wq/Wc(不宣稱固定倍速)。延伸:《Core ML 批量編譯與批推理》、《ONNX CoreML EP 批推理》、《佇列與 DLQ》。方案、購買、說明免登入。
前提與邊界
解碼、分塊與 Core ML 推理共用統一記憶體;遠端請分開控制面等待(排程、RTT)與裝置計算。物件儲存拉檔至本機 staging 時,磁碟讀取佇列易與並行推理互損;單一總逾時難以歸因。同節點若有 mlmodelc 編譯,請錯峰或分目錄(見《Core ML 批量》)。
決策對照表(並行、批長、精度、記憶體層、IO、逾時)
Wq=排程/IO 等待;Wc=單次執行(含預熱)。表內為起點,請以 p95/OOM 迭代。
| 情境輪廓 | 並行路數 | 批長 × 精度(起點) | 16GB/24GB | 磁碟 IO(內建 NVMe) | Wq/Wc |
|---|---|---|---|---|---|
| 線上低延遲、短音檔 | 1;必要時讀寫分離第二個只讀會話 | 小批、fp16 或量化;寧可排隊勿盲目加寬批長 | 16GB:預留約 10~15% 記憶體餘裕再驗收;24GB:可略增批長階梯 | staging 與輸出分樹狀目錄;避免與系統日誌同碟互搶 | Wq 中(等節點)/Wc 含首次推理 |
| 離線 backlog、長音訊 | 16GB:1~2;24GB:2~3(需量測+信號量) | 批長階梯上調;精度可從 int8/量化再拉到 fp16 | 16GB 優先縮批長或降精度;24GB 才放大並行 | 讀取飽和時先限並行與讀合併,再談加 CPU | Wq 短(避免堆積)/Wc≈p95×2+暖機 |
| 多租戶/共用節點 | 每租戶 1 起;全域信號量+上限 | 租戶別批長上限;超額進深佇列或拒絕 | 與鄰近工作共用統一記憶體時偏保守 | 租戶別 scratch;大量寫入時監看讀寫延遲尾端 | Wq 長+明確降級/Wc 對齊 SLA |
不宣稱固定加速比。ANE/GPU 佔用與語言/取樣率高度影響尾端延遲;請以相同語料庫記錄 p95/p99 與記憶體階梯,再調整表內欄位。費率請以 方案/定價 與購買頁為準。
可執行 sysctl 與活動監視器參考閾值
Shell 取基線後對照活動監視器;以下為參考,非 SLA。
# 終端機:記憶體大小、CPU 核心、交換分區(租用工單可附於排錯包)
sysctl hw.memsize
sysctl hw.ncpu
sysctl hw.perflevel0.physicalcpu
sysctl vm.swapusage
- vm.swapusage 持續上升→先縮並行/批長,再降精度。
- 記憶體壓力黃區以上數分鐘→暫停加開會話。
- CPU 相關行程長時 >85% 且尾端變差→檢解碼緒與 Core ML 互搶。
- 磁碟佇列飽和→縮短 Wq、降並行 fetch。
佇列逾時與降級
Wq/Wc 分欄記錄。降級:縮批長→降精度→限並行→DLQ 有界重試(見《佇列與 DLQ》)。資料與推理同區優先。
套餐、節點頁與說明
小結
對照表定欄位,sysctl/活動監視器對尖峰,再選區域與租期。雙線並存時擇一主線;細節見《ONNX CoreML EP》。