💻 跨区域租用 Mac mini M4做批推理,瓶颈常在统一内存与队列双超时。下文给算力档位、金属性能着色器后端与MLX分工、微批与并发峰值、降级与死信、区域数据面,以及可代入符号的参数表。入口:首页、套餐、帮助。🚀 痛点速记:①激活与多会话拖垮尾延迟;②等待与计算混超时;③跨境搬权重吃光首包前时间。
算力选型与内存档位
MPS 与 MLX 适用场景
金属后端:火炬产线、第三方算子、调试习惯一致。MLX:导出链路在苹果生态、批形状稳、循环要轻。同机旁路大模型见《本地模型批推理》。
| 维度 | 火炬金属后端 | MLX |
|---|---|---|
| 团队 | 现成火炬人力 | 会导出精简图 |
| 循环 | 加载器范式多 | 轻循环直连 |
| 占用 | 常驻偏大 | 较省仍要纪律 |
批大小与内存峰值
微批与序列推高激活;键值缓存与多会话重复权重共享一池。预热后单调加微批,记常驻与尾延迟。并行用队列深度与上限,少开多解释器赌调度。
队列超时与降级
拆排队等待与单批计算上限;配缩小微批、缩短上下文、换小模型、可重试令牌阶梯并接死信。《死信与退避》可映射 Worker。机侧拉取优于跨洲交互壳。
区域节点延迟考量
同档机内算力相近;差异在制品与控制面往返。节点与对象存储同区;买租节奏见《区域与成本矩阵》。
五步落地验证
- 冻结镜像小版本记基线。
- 单会话扫微批序列找拐点。
- 写双超时加降级接死信。
- 权重日志同区测首包时长。
- 一周压测再定月租档位。
参数化对照矩阵
符号换实测数,升级或换区整表重算。
| 旋钮 | 符 | 十六吉字节 | 二十四吉字节 | 策略 |
|---|---|---|---|---|
| 微批 | 批 | 常驻约十一到十二吉内 | 并行前约十八到二十吉内 | 稳态后加 |
| 会话 | 会 | 一单主加薄监管 | 一至二各带上限 | 深队列代扇出 |
| 等待 | 等 | 交互分级通宵更长 | 同左随编排 | 可换机则短 |
| 计算 | 算 | 两倍九五分位加编译余量 | 大微批加长僵死防护 | 勿与等待混 |
| 重试 | 重 | 三次退避抖动 | 上传抖可三五次 | 禁无限循环 |
| 栈 | 栈 | 有火炬用金属否则 MLX | 略宽批或会 | 按版本固化 |
内链与站点地图说明
收录:手记元数据在 blog.json;抓取在 blog/sitemap.xml 与根站点地图,建议跑仓库 generate-sitemap。译文未上勿乱写 hreflang。
常见问题
混跑两栈? 分会话分预算,无显存硬隔离。算子全吗? 租用上实测子图。区域错? 先搬数据再调微批。