ノード上で mlmodelc コンパイルを同時にいくつまで回してよいですか。

ユニファイドメモリとコンパイラの作業セットが競合します。16GB は主に 1 本を主軸にし補助のみ重ね、24GB はセマフォやクォータで 2 本までを限定的に検討します。ディスク I/O がボトルネックなら同時数を下げた方が総スループットに有利なことが多いです。

批推論キューのタイムアウトはどう分割しますか。

ワーカー割り当て前の待ち上限と、MLModel の予測ループにかける計算上限を分離してください。初回推論前のウォームアップやグラフ特化がある場合は計算側に余裕を持たせ、別ノードへの載せ替えが可能なら待ちは短めでも構いません。

外付け SSD は必須ですか。

必須ではありませんが、大量の mlpackage ステージング・mlmodelc 出力・ログを内蔵から分離すると APFS の書き込み競合やクォータ警告を減らしやすくなります。使用時は同時コンパイルと同時バッチ I/O を同一ディスクに集中させないでください。

2026年跨区域レンタルリモート Mac M4：Core ML mlmodelc バッチコンパイル、批推論セッションとユニファイドメモリ・キュー・タイムアウト意思決定マトリクス

Mac mini M4 を レンタル して Core ML を回すと、mlmodelc 同時コンパイル・批推論・ユニファイドメモリ・I/O が重なります。対照表と コマンド PLH。ホーム・算力選定・購入。

前提：検証・mlmodelc・批推論

ANE 確認は実機が最短。リージョンはデータ面と揃え、算力選定と同じ読み。CI は coremlcompiler→mlmodelc、同時ジョブ・ロック・DLQ。ランタイムは MLModel＋バッチ、B がレバー。MPS・MLX 稿の二重タイムアウトを流用。データセット稿とパス整合。

意思決定対照表（同時コンパイル・バッチ・I/O・外付け・キュー・費用）

出発点。モデル・解像度・OS でスイープ補正。

プロファイル	同時コンパイル数	バッチ（B）	I/O（内蔵 NVMe）	外付けディスク	キュー・タイムアウト（待ち／計算）	日額／月額レンタル費用の目安（定性）
夜間 CI `mlmodelc` ファーム	16GB: 1（＋薄いキュー）／24GB: 1〜2（セマフォ）	推論バッチよりコンパイルキュー深さがレバー	順書き・中間；同時 2 超は競合	出力・ログを外付けへ	W_q 短／W_c≈p95×2+α	日額向き（スパイク）
オンライン批推論（ウォームモデル）	0〜1（デプロ直後のみ）	中〜大；ANE／GPU はモデルプロファイル次第	読み・プリフェッチ；バッチ間ウォーム	任意；大キャッシュは外付け RO	W_q 中／W_c にウォーム余裕	月額・固定が単純
マルチテナント共有ノード	≤1（グローバルロック推奨）	テナント別小バッチ＋同時実行キャップ	I/O 競合；公平スケジュ	テナント別スクラッチ	W_q 長＋降格／W_c＝SLA	分割時月中〜高；分離が安いことも

費用は定性。料金・TCO 稿で確認。

実行可能なコマンド・パラメータ・プレースホルダ

プレースホルダを環境に合わせて置換。

コンパイル例（macOS 向け mlmodelc）

xcrun coremlcompiler compile \
  "<PATH_INPUT.mlpackage|PATH_INPUT.mlmodel>" \
  "<PATH_OUTPUT_DIR>" \
  --platform macos \
  --deployment-target "<MACOS_MIN_VERSION>"

coremltools（Python）のバージョン固定例

python3 -m pip install "coremltools==VER_PLACEHOLDER"

MLModelConfiguration の compute units はステージングのみで比較。詳細は Apple ドキュメント参照。

キュー・タイムアウトと降格

待ちと計算のタイムアウトを分離。降格は B 縮小→小モデル→部分結果＋DLQ。多リージョンはデータをノードローカル、制御のみ遠隔が RTT 有利。

FAQ

Git に mlmodelc？ 基本はアーティファクト保管、リポは仕様とハッシュ。

CLI のみ？ CLT＋コンパイラ構成が要。ヘルプでイメージ確認。

まとめ

表で同時性・B・ディスク・タイムアウトを固定し、算力選定と購入・レンタルでリージョンを揃える。