리전 옆 엠포 임대에서 온엔엑스 코어엠엘 이피 배치 점수 시 세션·스레드·배치·솔리드 입력 출력·대기·계산 타임아웃 분리 표. 과장 없음. 엠피에스·엠엘엑스·엠엘모델씨. 공개 가격·구매.
세 가지 한계
- 세션 난립. 계획·가중치·캐시가 통합 메모리 신경 산출물이 솔리드와 겹치면 꼬리 지연.
- 스레드 이중. 런타임·오픈엠피·가속이 코어를 겹치면 백분위 악화.
- 단일 타이머. 적체·계산 묶으면 재시도가 캐시 흔듦 라벨 소실.
매트릭스
| 프로필 | 세션 | 스레드 | 배치 | 솔리드 입력 출력 | 대기 대 계산 | 일 월 |
|---|---|---|---|---|---|---|
| 상시 예열 | 십육 하나 이십사 둘 엄격 | 내부 이에서 사 외부 일 | 배치 올리다 구십오 꺾이면 내림 | 선읽기 한 번 복제 병렬 자제 | 대기 짧게 계산 여유 | 월 평탄 |
| 씨아이 버스트 | 해시당 하나 바뀔 때만 | 외부 일 고정 | 중간 배치 안정 | 루프 전 로컬 스테이징 | 대기 타이트 계산 넓게는 프로파일 | 일 스파이크 |
| 공유 테넌트 | 패밀리 세마포 | 스레드 적게 공정 | 작은 배치 입장 | 스크래치 분리 | 둘 지표화 먼저 디그레이션 | 중간 월 |
고정 배속 없음. 연산자·정밀도·신경 대 그래픽 라우팅에 따라 달라 임대 이미지에서 재측정하세요.
환경·체크리스트
유닛·셸·씨아이 엔트리에 두고 프로파일 후 조정 보수 기본.
# 맥 워커 셸 — 프로파일 후 조정
export OMP_NUM_THREADS="${OMP_NUM_THREADS:-2}"
export OMP_WAIT_POLICY="${OMP_WAIT_POLICY:-PASSIVE}"
export VECLIB_MAXIMUM_THREADS="${VECLIB_MAXIMUM_THREADS:-2}"
export ORT_LOG_SEVERITY_LEVEL="${ORT_LOG_SEVERITY_LEVEL:-3}"
파이썬 세션 옵션으로 스레드 고정.
import onnxruntime as ort
so = ort.SessionOptions()
so.intra_op_num_threads = 2
so.inter_op_num_threads = 1
코어엠엘 옵션 바꾸면 배포마다 제공자 문자열 로그 마이너에도 경로 변동.
- 배치 전 따뜻한 세션 캡.
- 오픈엠피 한 팀 코어 분할.
- 세션·해시·제공자·벽시계 로그.
- 과부하 시 배치 축소·한계 조정 후 노드 확장.
런북 다섯 단계
- 휠·이피 빌드 고정 잠금·다이제스트 기록.
- 한 번 예열 구간 오십·구십오 재기 콜드는 약속 밖으로.
- 배치 이분 탐색 분산이나 메모리 꺾이면 중단.
- 대기·계산 한계 분리 적체와 느린 이피 따로 알림.
- 리전 옮기면 재벤치 지연 감소가 코어 증가는 아님.
지표 신호
- 세션당 상주와 컴파일 피크.
- 항목당 벽시계 배치 시간 나누기 배치 크기.
- 십분 창 계산 한계 근접 배치 비율.
리전·패키지
질답
정리
임대 엠포 코어엠엘 이피는 세션 재사용 스레드 상한 배치 통합 메모리 이중 타임아웃이 축입니다. 오픈엠피·벡립·세션 옵션 고정 후 리전 바뀔 때마다 재벤치. 2026-remote-mac-m4-onnxruntime-coreml-batch-inference-matrix.html