Mieter von Rechenleistung, die Stable Diffusion Img2Img mit Core ML in Hongkong, Singapur, Japan, Südkorea oder an der US-Westküste chargieren, stoßen alle auf dieselbe Decke: vereinigter Speicher hält Gewichte, Graphen, Ihre Warteschlange und heiße Compile-Verzeichnisse gemeinsam. Dieser Leitfaden liefert eine Entscheidungsmatrix, ausführbare Parameter und Tiefgang über Core ML Kompilierung, ORT Core ML, getrennte Timeouts sowie Regions-TCO. Öffentlich ohne Login: Preise, Kaufen, Hilfe.
Drei Schmerzpunkte auf gemietetem M4
- Kompilier-Spikes wirken wie niedriger Durchsatz. Erstlauf-Core ML-Builds und mlmodelc-Caches teilen sich vereinigten Speicher mit Tensoren; eine zweite Sitzung vor warmen Caches hebt p95 oft stärker als der Mittelwert.
- Eine Timeout-Wanduhr vermischt Fehler. Wartezeit plus Diffusion in einem Limit labelt WAN-Staging fälschlich als Modellfehler und hämmert den Festplatten-Cache durch Retries.
- Objektspeicher als Scratch. Frames pro Kachel über TLS ziehen bindet CPU in Krypto während Batchinferenz idle scheint—NVMe-Präfixe fixieren, bevor Sie Hosts skalieren.
Entscheidungsmatrix Img2Img Core ML
Zeilen sind Betriebsprofile; Batchgröße, Sitzungen, Festplatten-Cache und getrennte Timeouts Wq (Warteschlange) versus Wc (Compute) stimmen Sie mit den folgenden H2-Abschnitten ab. Nach macOS-, Xcode- oder Checkpoint-Wechsel neu profilieren.
| Profil | Batchinferenz-Form | Gleichzeitige Sitzungen | Festplatten-Cache | Timeouts Wq / Wc |
|---|---|---|---|---|
| Nacht-Bulk Img2Img | Batch bis Resident-Bytes knicken; feste Auflösungsleitern | 16 GB eine Spur; 24 GB zwei wenn Swap flach | Lokales mlmodelc und Kachelpräfix; kalte Bundles vom Host archivieren | Weit Wq; Wc deckt Compile plus Diffusion-p95 |
| Low-Latency-API | Batch eins bis zwei; Schritte pinnen | Zweite Spur nur mit Semaphor; 24 GB wenn Compile und Serve koexistieren | Warm-Deploy-Cache; kalte Bundles auf sekundäres Volume verdrängen | Enges Wq; moderates Wc; Compile separat messen |
| Multimandanten-Mietsegment | Batch- und Auflösungsdeckel je Mandant | Konten-Parallelitätsdeckel; Warteschlangentiefe exportieren | Je Mandant TMPDIR auf APFS |
Batch kürzen bevor Wc geweitet wird |
Keine universellen Bilder-pro-Sekunde-Versprechen. ANE- versus GPU-Routing hängt von Ops, Präzision und Build ab—Tabellen sind Leitplanken, keine SLA.
Modellkonvertierung und Batchgröße
UNet und VAE nach mlprogram oder unterstütztem mlpackage bringen; Converter-Version an Checkpoint anheften. Batchinferenz steigern bis vereinigter Speicher oder Planner-Warnungen knicken; bei langen Schwänzen zuerst Schritte senken, nicht blind den Batch erhöhen.
Hybridlaufzeiten: Core ML Kompilierung und ORT-Core-ML-Matrix konsistent halten.
SKU-Leitplanken: 16 GB versus 24 GB
| Speicherstufe | Batch-Leiter | Zweite Sitzung | Sicherheitshinweis |
|---|---|---|---|
| 16 GB M4 | Eine stabile Lane; Batch binär suchen bis Resident kippt | Nur nach dokumentiertem Warmcompile und flachem Swap | Home-Volume nicht als einziger Scratch |
| 24 GB M4 | Zwei Lanes möglich wenn zehn Minuten stabil | Zweite Spur für API oder zweites Checkpoint | Mehr RAM ersetzt keine WAN-Disziplin |
Obergrenze gleichzeitiger Sitzungen
Jeder Warteschlangen-Worker hält Graphen und Dekodestatus gemeinsam. Zweite Spur erst wenn vm.swapusage flach bleibt und Speicherdruck über zwei Durchläufe verschwindet. Wie bei WhisperKit: Wq für Warten, Wc für reine Diffusion trennen.
Knotenwahl: Hongkong, Singapur, Japan, Südkorea, US-West
Gewichts-Bucket co-lokalisieren: Tokio / Seoul für Nordostasien; Singapur / Hongkong für SEA oder Greater-Bay-Storage; US-West für pazifische Artefakte. Einen TLS-Zug zuvor benchmarken, bevor Standard-Warteschlangen-Timeouts gelten.
Regionspakete: Hongkong, Singapur, Japan, Südkorea, USA West, Gesamt Kaufen; zuerst Preise vergleichen.
Kosten
Stundenmiete zuzüglich Egress, Kaltkompilierzeit und Retries aus kollabierten Timeouts. M4 mit Storage co-lokalisieren, bevor Sie Batchinferenz ohne Festplatten-Cache-Regeln erhöhen. Nach Metro-Wechsel Regions-TCO neu lesen—RTT ist kein RAM.
Ausführbare Parameter
In Bootstrap oder LaunchAgent einfügen; Werte sind Triage-Bänder, keine Garantien.
# Vereinigter Speicher und Swap (nur lesen)
sysctl -n hw.memsize
sysctl -n hw.perflevel0.physicalcpu
sysctl vm.swapusage
# Core ML Scratch und Decode-Temp weg vom vollen Home
export TMPDIR="/Users/shared/scratch/coreml-sd/$JOB_ID"
mkdir -p "$TMPDIR"
# Beispiel-Knöpfe—pro Matrixzeile tunen
export SD_MAX_BATCH=2
export SD_MAX_CONCURRENT_SESSIONS=1
export SD_WQ_SEC=120
export SD_WC_SEC=900
Runbook: fünf Schritte vor zusätzlichen Hosts
- Checkpoint, Converter, macOS-Digest im Hostdatensatz pinnen.
- Einmal warm kompilieren; Kaltstart im Dashboard labeln.
- Batch binär suchen bei fester Auflösung bis p95 oder Swap tickt.
- Warteschlange versus Diffusion metrisch trennen; getrennt alerten.
- Nach Regionswechsel neu profilieren; Latenz ersetzt keinen Speicher.
Messgrößen zum Zitieren
- Resident Bytes je Spur gegen
hw.memsizefür 16- versus 24-GB-SKUs. - Anteil Jobs nahe Wc rollierend für Quantisierungs- oder IO-Drift.
- NVMe-Lese-MB/s versus GPU-Auslastung um Cache-Misses vor Parallelitätssteigerung zu sehen.
FAQ
Externe SSD? Nur Archiv; heiße Core ML-Artefakte auf internem NVMe.
Weniger RTT behebt OOM? Nein—Placement hilft Staging, nicht vereinigter Speicher.
Fazit
Stable Diffusion Img2Img auf gemietetem M4 braucht Konvertierungsdisziplin, Sitzungsdeckel, Metro-Wahl und Kosten, die Festplatten-Cache plus WAN einbeziehen—nicht nur Parallelität in der Überschrift. Slug: 2026-rent-remote-mac-m4-stable-diffusion-coreml-batch-unified-memory.html.
Matrix anwenden, sysctl und getrennte Timeouts einbinden, dann Kaufen und Preise öffnen—ohne Login bis Checkout.