2026 年跨區租用遠端 Mac M4：WhisperKit／Core ML 語音批轉寫並行會話、統一記憶體與佇列逾時決策矩陣

跨區租用 M4跑 WhisperKit／Core ML 語音批轉寫時，並行路數、批長、精度與統一記憶體、NVMe IO共同決定穩定性。下文以決策表＋sysctl／活動監視器參考閾值＋W_q／W_c（不宣稱固定倍速）。延伸：《Core ML 批量編譯與批推理》、《ONNX CoreML EP 批推理》、《佇列與 DLQ》。方案、購買、說明免登入。

前提與邊界

解碼、分塊與 Core ML 推理共用統一記憶體；遠端請分開控制面等待（排程、RTT）與裝置計算。物件儲存拉檔至本機 staging 時，磁碟讀取佇列易與並行推理互損；單一總逾時難以歸因。同節點若有 mlmodelc 編譯，請錯峰或分目錄（見《Core ML 批量》）。

決策對照表（並行、批長、精度、記憶體層、IO、逾時）

W_q＝排程／IO 等待；W_c＝單次執行（含預熱）。表內為起點，請以 p95／OOM 迭代。

情境輪廓	並行路數	批長 × 精度（起點）	16GB／24GB	磁碟 IO（內建 NVMe）	W_q／W_c
線上低延遲、短音檔	1；必要時讀寫分離第二個只讀會話	小批、fp16 或量化；寧可排隊勿盲目加寬批長	16GB：預留約 10～15% 記憶體餘裕再驗收；24GB：可略增批長階梯	staging 與輸出分樹狀目錄；避免與系統日誌同碟互搶	W_q 中（等節點）／W_c 含首次推理
離線 backlog、長音訊	16GB：1～2；24GB：2～3（需量測＋信號量）	批長階梯上調；精度可從 int8／量化再拉到 fp16	16GB 優先縮批長或降精度；24GB 才放大並行	讀取飽和時先限並行與讀合併，再談加 CPU	W_q 短（避免堆積）／W_c≈p95×2＋暖機
多租戶／共用節點	每租戶 1 起；全域信號量＋上限	租戶別批長上限；超額進深佇列或拒絕	與鄰近工作共用統一記憶體時偏保守	租戶別 scratch；大量寫入時監看讀寫延遲尾端	W_q 長＋明確降級／W_c 對齊 SLA

不宣稱固定加速比。ANE／GPU 佔用與語言／取樣率高度影響尾端延遲；請以相同語料庫記錄 p95／p99 與記憶體階梯，再調整表內欄位。費率請以方案／定價與購買頁為準。

可執行 sysctl 與活動監視器參考閾值

Shell 取基線後對照活動監視器；以下為參考，非 SLA。

# 終端機：記憶體大小、CPU 核心、交換分區（租用工單可附於排錯包）
sysctl hw.memsize
sysctl hw.ncpu
sysctl hw.perflevel0.physicalcpu
sysctl vm.swapusage

vm.swapusage 持續上升→先縮並行／批長，再降精度。
記憶體壓力黃區以上數分鐘→暫停加開會話。
CPU 相關行程長時 >85% 且尾端變差→檢解碼緒與 Core ML 互搶。
磁碟佇列飽和→縮短 W_q、降並行 fetch。

佇列逾時與降級

W_q／W_c 分欄記錄。降級：縮批長→降精度→限並行→DLQ 有界重試（見《佇列與 DLQ》）。資料與推理同區優先。

套餐、節點頁與說明

重載寧可較大記憶體＋限並行。選型：定價、購買（例新加坡、香港）、說明中心。

小結

對照表定欄位，sysctl／活動監視器對尖峰，再選區域與租期。雙線並存時擇一主線；細節見《ONNX CoreML EP》。