배치 작업을 돌릴 때 Ollama를 모든 인터페이스에서 듣게 해야 하나요?

기본은 루프백 127.0.0.1 바인드입니다. SSH 로컬 포트 포워딩이나 동일 호스트의 리버스 프록시 뒤에서 접근하세요. TLS와 인증 없이 11434를 공인 인터넷에 노출하면 악용과 모델 유출 위험이 커집니다.

동시성 상한은 Ollama, 프록시, 큐 스크립트 중 어디에 두어야 하나요?

세 층 모두 둡니다. OLLAMA_NUM_PARALLEL 등으로 서버 측 병렬을 제한하고, Nginx limit_req나 Caddy 속도 제한으로 가장자리 버스트를 누르며, 큐에서는 xargs -P나 워커 풀 max_workers로 VRAM과 CPU가 감당할 총 진행 작업 수를 넘기지 않게 합니다.

이 아키텍처에서 OpenClaw와 Ollama의 관계는?

OpenClaw는 기본 18789 포트의 게이트웨이 컨트롤 플레인과 에이전트 도구를 제공하고, Ollama는 11434의 로컬 추론 HTTP API입니다. 프로세스는 분리하고, 에이전트는 OpenClaw로, 배치 스코어링이나 임베딩 파이프라인은 정의한 프록시 경로나 직접 Ollama를 호출합니다.

요청 타임아웃이나 모델 언로드가 잦을 때 실무적인 디그레이션은?

지수 백오프와 짧은 지터로 재시도하고 총 시도 횟수를 제한한 뒤, 더 작은 모델 이름이나 짧은 컨텍스트로 폴백하거나, 스텁 응답을 dead-letter 파일에 기록해 배치를 끝까지 돌린 뒤 실패 행만 재큐잉합니다.

임대 Mac에 SSH로 들어간 뒤 두 서비스를 어떻게 검증하나요?

Ollama는 curl -fsS http://127.0.0.1:11434/api/tags, OpenClaw는 curl -fsS http://127.0.0.1:18789/healthz로 확인합니다. 노트북에서는 ssh -L 11434:127.0.0.1:11434와 ssh -L 18789:127.0.0.1:18789로 터널링하고 방화벽으로 두 포트를 밖에 직접 열지 않는 것이 안전합니다.

2026 OpenClaw 실전: 임대 원격 Mac에서 Ollama 배치 추론·API 라우팅·동시성·재시도

임대 원격 Mac에서 Ollama 배치 추론과 OpenClaw 에이전트를 함께 두는 재현 절차입니다. 루프백·프록시로 API를 나누고, 서버와 큐에서 동시성을 캡한 뒤 재시도·폴백으로 야간 작업을 안정화합니다. 홈 · 노트 · 도움말.

목표와 권장 토폴로지

동시 요청 과다는 VRAM 스왑·타임아웃 연쇄로 이어집니다. 임대 Mac에서는 역할을 층으로 나눕니다.

Ollama — 127.0.0.1:11434에서만 로컬 모델 런타임으로 동작.
OpenClaw 게이트웨이 — 127.0.0.1:18789, 컨트롤 플레인·에이전트·도구(공식 Docker·CLI 문서 참고).
선택적 에지 — 내부 VPN 클라이언트가 HTTPS 단일 호스트명을 써야 할 때만 동일 호스트에 Caddy나 Nginx. 그렇지 않으면 노트북에서 SSH 로컬 포워딩으로 충분합니다.
큐 워커 — 한 줄 한 작업 형식의 프롬프트를 읽고, -P 병렬 상한과 백오프를 강제하는 셸 또는 소규모 Python 드라이버.

심화 하드닝은 OpenClaw Docker·프로덕션·원격 Mac 글을 참고하세요.

macOS(원격 Mac)에 Ollama 설치

공식 스크립트로 설치 후 모델을 미리 pull합니다. OLLAMA_NUM_PARALLEL 등은 프로필이나 launchd에 고정하세요.

curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.2

스모크 테스트:

curl -fsS http://127.0.0.1:11434/api/tags

OpenAI 호환은 /v1/chat/completions로 같은 리스너에 매핑합니다.

OpenClaw 게이트웨이: Ollama와 공존할 때의 설치 포인트

문서상 1급 경로는 전역 CLI(Node 24·22.16+)와 저장소의 ./scripts/docker/setup.sh입니다.

CLI + 데몬 — npm install -g openclaw@latest 후 openclaw onboard --install-daemon, 반복 실험 시 openclaw gateway --port 18789 --verbose.
Docker — 설정·워크스페이스를 데이터 볼륨에 마운트해 재프로비저닝 후에도 로그와 에이전트 상태가 남도록 구성.

Ollama는 Metal 네이티브로 단독 두고, OpenClaw는 127.0.0.1:11434를 호출하게 합니다. 헬스:

curl -fsS http://127.0.0.1:18789/healthz

API 라우팅: 하나의 호스트명, 두 업스트림

TLS는 한 번 종료하고 경로로 분기합니다. Caddy 예시:

inference.internal.example.com {
  route /v1/* {
    reverse_proxy 127.0.0.1:11434
  }
  route /openclaw/* {
    reverse_proxy 127.0.0.1:18789
  }
}

엣지에 속도 제한을 겹치고, 사내망이 아니면 ssh -L로 두 포트만 터널링합니다.

라우팅 결정 요약

트래픽	대상	이유
배치 `/api/generate` 또는 OpenAI 호환	`127.0.0.1:11434`	지연 최소, 루프백 또는 인증된 프록시 뒤에 둠.
게이트웨이 UI·WS 컨트롤	`127.0.0.1:18789`	`/healthz`로 상태 확인, 디버깅 시 SSH 터널.
신뢰할 수 없는 인터넷	기본적으로 없음	VPN·SSH·상호 TLS 등으로 보호 전에는 공개하지 않음.

큐 스크립트: 동시성 캡과 JSON 안전 페이로드

한 줄 한 작업 prompts.txt. JSON은 python3, 병렬은 GNU xargs -P(macOS는 gxargs 또는 ThreadPoolExecutor).

#!/usr/bin/env bash
set -euo pipefail
OLLAMA_URL="${OLLAMA_URL:-http://127.0.0.1:11434}"
MODEL="${MODEL:-llama3.2}"
MAX_JOBS="${MAX_JOBS:-2}"
PROMPTS="${1:?path to prompts.txt}"
mkdir -p out failed

run_one() {
  local i="$1" line="$2"
  local body try=0 delay=1
  body="$(python3 -c 'import json,sys; print(json.dumps({"model":sys.argv[1],"prompt":sys.argv[2],"stream":False}))' "$MODEL" "$line")"
  while (( try < 4 )); do
    if curl -fsS --max-time 600 -H 'Content-Type: application/json' \
      -d "$body" "$OLLAMA_URL/api/generate" -o "out/resp-$i.json"; then
      return 0
    fi
    sleep "$delay"
    delay=$(( delay * 2 ))
    try=$(( try + 1 ))
  done
  printf '%s\n' "$line" >> failed/prompts-$i.txt
  return 1
}
export -f run_one
export OLLAMA_URL MODEL

nl -ba "$PROMPTS" | while read -r num line; do
  printf '%s\0' "$num|$line"
done | xargs -0 -n1 -P"$MAX_JOBS" bash -c 'IFS="|" read -r num line <<<"$1"; run_one "$num" "$line"' _

MAX_JOBS는 VRAM·OLLAMA_NUM_PARALLEL 이하로; 16GB·7B급은 1부터 점진 증가.

리소스 한도: Ollama·macOS·배치 드라이버

아래를 겹쳐 캡합니다.

Ollama — OLLAMA_NUM_PARALLEL·필요 시 OLLAMA_MAX_LOADED_MODELS.
큐 — MAX_JOBS ≤ 서버 병렬 + 다른 작업 여유.
macOS — launchd·선택 SoftResourceLimits/HardResourceLimits.
OpenClaw — cron 피크가 Ollama 배치와 겹치지 않게.

디그레이션과 재시도

HTTP 실패는 예제처럼 지수 백오프. 모델 단계 폴백 순서:

1차 모델 — 풀 컨텍스트·품질 우선.
폴백 모델 — OOM 유사 오류나 연속 500일 때 더 작은 양자화나 레이어 수.
절단 — 프롬프트 길이 클램프·ID 로그.
데드 레터 — failed/ 후 재큐.

총 시도 상한(예: 네 번)으로 독 프롬프트가 큐 전체를 막지 않게 합니다.

FAQ

모든 인터페이스 바인드? 비권장. 루프백+SSH/VPN·프록시 인증이 기본입니다.

동시성 상한 위치? Ollama·프록시·큐 세 층.

역할 분리? OpenClaw=게이트웨이, Ollama=추론 HTTP, 프로세스 분리.

타임아웃 다발? --max-time·백오프·작은 모델·데드 레터, 무한 재시도 금지.

검증? /api/tags·/healthz curl, 외부는 SSH 터널.

정리

요약: 추론은 루프백, OpenClaw는 조율, 프록시·큐·서버에서 병렬 캡, 재시도·폴백·데드 레터로 끊김 방지. 가격·구매·도움말.