💻 算力租用者在港新日韩或美西跑 Stable Diffusion 图生图(Core ML)时,权重、mlmodelc、解码态与队列共享统一内存与内置 NVMe。本文给决策矩阵、四个选型小节与可执行参数。姊妹篇:《Core ML 批编译与推理》《ORT CoreML EP》《WhisperKit 双超时》《区域与批成本》。套餐、购买租用、帮助免登录。
痛点与边界
1)首跑编译像慢吞吐。Core ML 构图与缓存与张量同池争统一内存,暖机前开第二路常恶化批推理尾延迟。
2)单一总超时。排队与扩散步同墙钟易误判跨区拉包,重试刷磁盘缓存。
3)对象存储当暂存。每帧 TLS 解密占 CPU,先规范队列与本地前缀再加机。
场景决策矩阵(定性)
按画像调批大小、会话、磁盘缓存与 Wq/Wc;换 checkpoint 或系统小版本后复测。
| 画像 | 批推理形态 | 并发会话 | 磁盘缓存策略 | Wq / Wc |
|---|---|---|---|---|
| 夜间大批量图生图 | 固定分辨率上探批至常驻拐点 | 十六吉字节一路;二十四吉字节二路需交换平坦 | 热产物与瓦片在 APFS;冷包归档出站 | Wq 宽;Wc 盖编译加扩散 p95 |
| 低延迟 API | 批一至二锁步数 | 二路信号量;编译共机优先二十四吉字节 | 暖部署缓存;冷模迁次级盘 | Wq 紧;Wc 适中并拆编译指标 |
| 多租户切片 | 租户批与分辨率硬顶 | 租户并发帽导出队列深度 | 租户 TMPDIR 隔离 |
先缩批再宽 Wc |
不承诺固定张每秒。ANE 与 GPU 路由视算子与精度;表为护栏非 SLA。
模型转换与批大小
UNet 与 VAE 用受支持 mlprogram 或 mlpackage,转换器与 checkpoint 指纹入账。抬批至统一内存或规划器拐点;尾炸先减步数或分辨率再动批。混合栈见《Core ML 批编译与推理》《ORT CoreML EP》。
并发会话上限
每路持图与解码态;仅当 vm.swapusage 与压力十分钟平稳再加二路。编排拆 Wq 与 Wc,对齐《WhisperKit 双超时》。
节点选择(港新日韩美西)
成本
小时租加出站与冷编译同账;超时塌缩重试放大磁盘缓存写。未规范热前缀就加批推理路数,性价比常不如先共置桶与机。搬迁后重读《区域与批成本》。
可执行参数(示例)
启动脚本可粘贴;数值为分档 triage,需用真实 checkpoint 复测。
# 统一内存与交换只读探针
sysctl -n hw.memsize
sysctl -n hw.perflevel0.physicalcpu
sysctl vm.swapusage
# Core ML 与解码临时目录避开拥挤主目录
export TMPDIR="/Users/shared/scratch/coreml-sd/${JOB_ID:-default}"
mkdir -p "$TMPDIR"
# 与矩阵行对齐的可调旋钮
export SD_MAX_BATCH=2
export SD_MAX_CONCURRENT_SESSIONS=1
export SD_WQ_SEC=120
export SD_WC_SEC=900
落地五步(加机前)
- 锚定 checkpoint、转换器 digest、系统小版本标签。
- 暖编译并区分冷启动与稳态。
- 二分探批至 p95 或交换抬头。
- 拆指标:Wq 槽位上游,Wc 扩散与 IO。
- 迁区复测:低 RTT 不加统一内存带宽。
可引用清单
- 常驻相对
hw.memsize占比定十六吉字节与二十四吉字节档。 - 贴近 Wc 的任务占比察量化与磁盘缓存漂移。
- NVMe 读速与 GPU 利用率错位时先疑缓存未命中。
常见问题
外置固态?宜归档;热 Core ML 仍内置前缀。
降延迟治 OOM?否;只改善拉包与队列形态。
小结
SD 图生图租 M4 要转换批纪律、会话帽、桶机共置与磁盘缓存加出站的成本账。slug 2026-rent-remote-mac-m4-stable-diffusion-coreml-batch-unified-memory.html。
转化租用:套餐 对档,分区域购买;首连 帮助 与《SSH 与 VNC 首次连接清单》;更多 手记与指南。