CoreML EP 與原生 Core ML 管線要怎麼分工？

若已在 CI 產出 mlmodelc 並以原生 API 推理，與 ONNX 路徑擇一為主線較易觀測。混合時請錯峰編譯與大批次，並分開日誌與快取目錄，避免統一記憶體與磁碟同時尖峰。

線程數是不是越大越好？

不一定。intra／inter 與 OMP、Accelerate 線程若相乘過大，常造成過訂閱與延遲尾端變差。請以階梯實測 p95／p99，並保留互動與系統開銷餘量。

跨區時佇列逾時要怎麼設？

將分配工作者前的等待上限與單次 Run 的計算上限分開；控制面跨區時等待可較短並允許換節點，計算側則依首次圖優化與批次暖機放寬。資料面盡量與節點同區以降低 RTT 對等待預算的侵蝕。

2026 年跨區租用遠端 Mac M4：ONNX Runtime CoreML EP 批推理工作階段、線程數與統一記憶體佇列逾時決策矩陣

在跨區租用 Mac mini M4上以 ONNX Runtime 的 CoreML EP 跑批推理工作階段時，線程、統一記憶體尖峰與佇列逾時共同決定穩定性。下文以對照表收斂 Session 數、批次、I／O 與 W_q／W_c，並附可 export 的環境變數與保守併發建議（不宣稱固定加速比；請以模型與 ORT 版本量測為準）。延伸：《Core ML mlmodelc 與批推理矩陣》、《跨區延遲與買租成本》、《MPS／MLX 批推理矩陣》。公開頁免登入：首頁、方案、購買、說明中心。

前提與邊界

CoreML EP 將子圖交給 Apple 堆疊，行為隨 macOS、ORT 與模型而變；首次載入與圖優化常拉長尾延遲。遠端請分開觀測SSH／API 等待與裝置計算，並為統一記憶體保留系統餘量。下表為出發點，請以自家 p95／p99 迭代。

決策對照表（工作階段、線程、批次、I／O、逾時、成本提示）

符號：W_q 為取得推理工作槽前的等待逾時；W_c 為單次 run() 的計算逾時（含首次優化與暖機餘裕）。成本欄為定性提示。

情境輪廓	活躍 InferenceSession 數	線程（intra／inter 起點）	批次 B	I／O（內建 NVMe）	W_q／W_c	日租／月租提示（定性）
夜間離線批次（模型已固定）	16GB：1～2；24GB：2～3（需量測）	intra 2～4、inter 1 起；與 OMP 對齊	階梯上調；觀測交換子是否退回 CPU	權重與中繼分目錄；避免與系統日誌同碟競爭	W_q 短／W_c≈p95×2＋暖機	日租適合尖峰試跑
線上低延遲＋小批	常駐 1；必要時讀寫分離第二個只讀 Session	intra 1～2、inter 1；尾端優先	小 B；寧可排隊也不要大尾延遲	快取唯讀；寫入最小化	W_q 中／W_c 含首次推理	月租較易維持基線
多租戶／共用節點	每租戶 1；全域 Session 池＋信號量	保守線程；禁止每請求新建 Session	租戶別上限；超額進深佇列或拒絕	租戶別 scratch；外接碟可選	W_q 長＋明確降級／W_c 對齊 SLA	隔離良好時月費有時反而更省

不宣稱固定加速比。ANE／GPU 佔用與子圖覆蓋率高度依模型而定；請以相同輸入分佈記錄延遲與記憶體階梯，再調整表內欄位。費率請以方案／定價與購買頁為準。

可執行環境變數（shell 範例）

下列變數可在啟動推理行程前於 bash／zsh 匯出；請依實際相依（OpenMP、Accelerate）與 ORT 組建驗證。CoreML EP 專屬選項多在 API 的 SessionOptions／provider options，請併查官方文件。

# 與 SessionOptions.intra_op_num_threads 對齊，避免 CPU 後端過訂閱
export OMP_NUM_THREADS=<INTRAthreads>
export VECLIB_MAXIMUM_THREADS=<INTRAthreads>

# 日誌等級（名稱或 0～4 整數；若程式已指定則以 API 為準）
export ORT_LOG_LEVEL=<VERBOSE|WARNING|3>

OMP_NUM_THREADS：與 intra_op_num_threads 一致或取其子集，避免與多行程相乘爆炸。
VECLIB_MAXIMUM_THREADS：限制 Accelerate／vecLib 路徑並行，常用於 CPU 子圖或前後處理。
ORT_LOG_LEVEL：除錯短開、上線關；詳見官方 Logging 文件。

併發建議清單（保守、可掃讀）

維持長生命週期 InferenceSession 並池化；避免高 QPS 下頻繁建立／銷毀。
活躍 Session ≤ 穩定並行；信號量隔離首次推理與批次尖峰。
線程階梯調整：inter 先固定 1，再調 intra；每步記錄 p95／p99 與記憶體。
與 coremlcompiler 或大量 I／O 錯峰，降低統一記憶體與 NVMe 同時飽和。

佇列逾時與降級

跨區控制面會吃掉 W_q：排程器「等節點」與 ORT 計時請分欄。降級可縮 B、延後非關鍵批次，或死信＋有界重試。資料盡量與推理同區以降低 RTT。

如何依區域選節點與套餐

資料與控制台宜與使用者或資料來源同區或鄰區；批推理較重時寧可較大記憶體檔位並限縮並發，避免 16GB 硬疊多 Session。尖峰驗證用日租，穩定後再月租。於購買／租用依新港日韓美西等節點選套餐，並以方案／定價對齊預算；連線見說明中心。

常見問題

為何首次推理特別慢？ 可能含圖讀取、編譯與快取建立；請把首次樣本與穩態樣本分開統計，並在 W_c 留餘裕。

需要外接 SSD 嗎？ 非必要；若權重與日誌量大，外接暫存可降低內建碟寫入競合，但請避免多租戶同時掃同一外接碟。

小結

先用對照表固定工作階段數、線程、批次與雙重逾時，再以環境變數對齊 CPU 後端與數學函式庫線程，最後依區域與租期選節點。公開頁面可從首頁進入；下單前建議比對方案與購買上的區域與套餐說明。