2026년 크로스 리전 임대 원격 맥 엠포 온엔엑스 런타임 코어엠엘 실행 제공자 배치 추론 세션 스레드 수 통합 메모리 큐 타임아웃 의사결정 매트릭스

2026년 4월 14일 · 약 9분 · MacCompute 기술팀 · 가이드

리전 옆 엠포 임대에서 온엔엑스 코어엠엘 이피 배치 점수 시 세션·스레드·배치·솔리드 입력 출력·대기·계산 타임아웃 분리 표. 과장 없음. 엠피에스·엠엘엑스·엠엘모델씨. 공개 가격·구매.

세 가지 한계

  1. 세션 난립. 계획·가중치·캐시가 통합 메모리 신경 산출물이 솔리드와 겹치면 꼬리 지연.
  2. 스레드 이중. 런타임·오픈엠피·가속이 코어를 겹치면 백분위 악화.
  3. 단일 타이머. 적체·계산 묶으면 재시도가 캐시 흔듦 라벨 소실.

매트릭스

행은 가드레일. 배치·세션을 메모리·디스크에 대고 스윕. 비용은 정성 가격·구매 임대 비교 병행.

프로필 세션 스레드 배치 솔리드 입력 출력 대기 대 계산 일 월
상시 예열 십육 하나 이십사 둘 엄격 내부 이에서 사 외부 일 배치 올리다 구십오 꺾이면 내림 선읽기 한 번 복제 병렬 자제 대기 짧게 계산 여유 평탄
씨아이 버스트 해시당 하나 바뀔 때만 외부 일 고정 중간 배치 안정 루프 전 로컬 스테이징 대기 타이트 계산 넓게는 프로파일 스파이크
공유 테넌트 패밀리 세마포 스레드 적게 공정 작은 배치 입장 스크래치 분리 둘 지표화 먼저 디그레이션 중간 월

고정 배속 없음. 연산자·정밀도·신경 대 그래픽 라우팅에 따라 달라 임대 이미지에서 재측정하세요.

환경·체크리스트

유닛·셸·씨아이 엔트리에 두고 프로파일 후 조정 보수 기본.

# 맥 워커 셸 — 프로파일 후 조정
export OMP_NUM_THREADS="${OMP_NUM_THREADS:-2}"
export OMP_WAIT_POLICY="${OMP_WAIT_POLICY:-PASSIVE}"
export VECLIB_MAXIMUM_THREADS="${VECLIB_MAXIMUM_THREADS:-2}"
export ORT_LOG_SEVERITY_LEVEL="${ORT_LOG_SEVERITY_LEVEL:-3}"

파이썬 세션 옵션으로 스레드 고정.

import onnxruntime as ort
so = ort.SessionOptions()
so.intra_op_num_threads = 2
so.inter_op_num_threads = 1

코어엠엘 옵션 바꾸면 배포마다 제공자 문자열 로그 마이너에도 경로 변동.

  • 배치 전 따뜻한 세션 캡.
  • 오픈엠피 한 팀 코어 분할.
  • 세션·해시·제공자·벽시계 로그.
  • 과부하 시 배치 축소·한계 조정 후 노드 확장.

런북 다섯 단계

  1. 휠·이피 빌드 고정 잠금·다이제스트 기록.
  2. 한 번 예열 구간 오십·구십오 재기 콜드는 약속 밖으로.
  3. 배치 이분 탐색 분산이나 메모리 꺾이면 중단.
  4. 대기·계산 한계 분리 적체와 느린 이피 따로 알림.
  5. 리전 옮기면 재벤치 지연 감소가 코어 증가는 아님.

지표 신호

  • 세션당 상주와 컴파일 피크.
  • 항목당 벽시계 배치 시간 나누기 배치 크기.
  • 십분 창 계산 한계 근접 배치 비율.

리전·패키지

가중치·특징을 같은 리전에 두어 솔리드 스테이징을 줄이세요. 공개 비교 싱가포르 일본 한국 홍콩 미서부 구매 블로그.

질답

씨피유 이피 병행 흔함 둘 다 잰 뒤 선택.

내부 스레드 무조건 증가 선형 가정 위험 프로파일 우선.

툴체인 도움말 매니페스트.

정리

임대 엠포 코어엠엘 이피세션 재사용 스레드 상한 배치 통합 메모리 이중 타임아웃이 축입니다. 오픈엠피·벡립·세션 옵션 고정 후 리전 바뀔 때마다 재벤치. 2026-remote-mac-m4-onnxruntime-coreml-batch-inference-matrix.html

리전·티어 선택