2026 年跨區租用遠端 Mac M4:WhisperKit/Core ML 語音批轉寫並行會話、統一記憶體與佇列逾時決策矩陣

2026 年 4 月 16 日 · 約 6 分鐘 · MacCompute 技術團隊 · 架構與成本

跨區租用 M4WhisperKit/Core ML 語音批轉寫時,並行路數批長精度統一記憶體NVMe IO共同決定穩定性。下文以決策表sysctl/活動監視器參考閾值WqWc(不宣稱固定倍速)。延伸:《Core ML 批量編譯與批推理》、《ONNX CoreML EP 批推理》、《佇列與 DLQ》。方案購買說明免登入。

前提與邊界

解碼、分塊與 Core ML 推理共用統一記憶體;遠端請分開控制面等待(排程、RTT)與裝置計算。物件儲存拉檔至本機 staging 時,磁碟讀取佇列易與並行推理互損;單一總逾時難以歸因。同節點若有 mlmodelc 編譯,請錯峰或分目錄(見《Core ML 批量》)。

決策對照表(並行、批長、精度、記憶體層、IO、逾時)

Wq=排程/IO 等待;Wc=單次執行(含預熱)。表內為起點,請以 p95/OOM 迭代。

情境輪廓 並行路數 批長 × 精度(起點) 16GB/24GB 磁碟 IO(內建 NVMe) WqWc
線上低延遲、短音檔 1;必要時讀寫分離第二個只讀會話 小批、fp16 或量化;寧可排隊勿盲目加寬批長 16GB:預留約 10~15% 記憶體餘裕再驗收;24GB:可略增批長階梯 staging 與輸出分樹狀目錄;避免與系統日誌同碟互搶 Wq 中(等節點)/Wc 含首次推理
離線 backlog、長音訊 16GB:1~2;24GB:2~3(需量測+信號量) 批長階梯上調;精度可從 int8/量化再拉到 fp16 16GB 優先縮批長或降精度;24GB 才放大並行 讀取飽和時先限並行與讀合併,再談加 CPU Wq 短(避免堆積)/Wc≈p95×2+暖機
多租戶/共用節點 每租戶 1 起;全域信號量+上限 租戶別批長上限;超額進深佇列或拒絕 與鄰近工作共用統一記憶體時偏保守 租戶別 scratch;大量寫入時監看讀寫延遲尾端 Wq 長+明確降級/Wc 對齊 SLA

不宣稱固定加速比。ANE/GPU 佔用與語言/取樣率高度影響尾端延遲;請以相同語料庫記錄 p95/p99 與記憶體階梯,再調整表內欄位。費率請以 方案/定價 與購買頁為準。

可執行 sysctl 與活動監視器參考閾值

Shell 取基線後對照活動監視器;以下為參考,非 SLA。

# 終端機:記憶體大小、CPU 核心、交換分區(租用工單可附於排錯包)
sysctl hw.memsize
sysctl hw.ncpu
sysctl hw.perflevel0.physicalcpu
sysctl vm.swapusage
  • vm.swapusage 持續上升→先縮並行/批長,再降精度。
  • 記憶體壓力黃區以上數分鐘→暫停加開會話。
  • CPU 相關行程長時 >85% 且尾端變差→檢解碼緒與 Core ML 互搶。
  • 磁碟佇列飽和→縮短 Wq、降並行 fetch。

佇列逾時與降級

WqWc 分欄記錄。降級:縮批長→降精度→限並行→DLQ 有界重試(見《佇列與 DLQ》)。資料與推理同區優先。

套餐、節點頁與說明

重載寧可較大記憶體+限並行。選型:定價購買(例 新加坡香港)、說明中心

小結

對照表定欄位,sysctl/活動監視器對尖峰,再選區域與租期。雙線並存時擇一主線;細節見《ONNX CoreML EP》。

租用 M4 算力