OpenClaw doit-il relancer automatiquement les jobs en échec ?

Non : le worker de file possède retries et backoff. OpenClaw classe, résume et notifie. Laisser le LLM ré-enfiler du travail crée des boucles non déterministes et peut gonfler la dépense ; si une validation humaine précède le replay, exposez un outil de replay manuel derrière une authentification forte.

Que mettre dans la charge envoyée au modèle ?

Uniquement des champs structurés : classe d’erreur, message, type de job, nombre de tentatives, horodatages et un extrait d’arguments tronqué. Retirer cookies, clés API, PII et corps de requête complets ; les remplacer par des identifiants stables consultables dans un magasin sécurisé.

Comment éviter les tempêtes de webhooks pendant une panne ?

Plafonner les drains DLQ concurrents, regrouper les échecs identiques avec une fenêtre de dédup (par exemple cinq minutes), et ajouter un disjoncteur qui suspend le pont quand le webhook renvoie 429 ou 5xx au-delà d’un seuil. Coupler avec des fusibles budget passerelle pour qu’OpenClaw ne brûle pas de jetons à chaque tick de retry.

2026 OpenClaw HowTo : file de tâches, DLQ, retries exponentiels et webhooks de synthèse d’échec sur Mac loué

Sur une capacité Mac distant loué, une file de tâches auto-hébergée n’est « production » que si les échecs ont un parcours de retraite déterministe : retries bornés, file morte (DLQ) et signal opérateur assez court pour être lu sur mobile. Ce guide propose une pile minimale reproductible : middleware avec sémantique DLQ réelle, backoff exponentiel, drainage des messages empoisonnés vers OpenClaw pour une synthèse d’échec structurée, puis POST vers Slack, PagerDuty ou une API interne. Pour le durcissement passerelle de base, croisez le guide Docker : durcissement et dépannage sur Mac loué ; pour les fusibles budgétaires, budgets API multi-projets ; pour la sortie réseau des compétences, le runbook sandbox et allowlist sortante — le pont et le webhook sont de nouvelles surfaces sortantes à traiter avec la même rigueur.

Modèle mental : la file possède les retries ; OpenClaw possède le récit

Votre processus worker doit implémenter idempotence et politique de retry. La DLQ est la source de vérité pour « ce job ne réussira sans intervention humaine ou changement de schéma ». OpenClaw intervient après cette décision : il transforme des erreurs structurées en une fiche incident d’un paragraphe avec prochaines actions suggérées. Le webhook est le tuyau de livraison — ne laissez jamais le LLM choisir l’URL ou la clé de signature à l’exécution.

Si vous enchaînez déjà l’inférence batch à côté de la passerelle, réutilisez la même discipline de concurrence et de backoff que dans OpenClaw + file d’inférence Ollama ; le middleware de file généralise le motif au-delà des appels modèle.

Étape 1 — Choix du middleware de file (critères sur Mac loué)

Sur Apple Silicon on colocalise souvent Redis ou on s’appuie sur une API de file managée. Notez les candidats sur l’adéquation opérationnelle, pas sur des micro-benchmarks isolés.

Option	Quand elle gagne	DLQ / retry
Redis + BullMQ / Bull	Workers Node ou TS sur le même Mac ; jobs différés et JSON lisibles.	attempts, backoff, file failed nommée ou removeOnFail: false avec archivage explicite.
Sidekiq Pro / push fiable	Services Ruby ; retries et navigateur de jobs morts matures.	Dead set + retry_in ; exporter les jobs morts en JSON pour le pont.
Celery + Redis / RabbitMQ	Workers Python ML ou ffmpeg déjà sur l’hôte.	autoretry_for, acks_late, exchanges morts Rabbit, ou route dlq dédiée.
SQS / Cloud Tasks	Durabilité et timeouts de visibilité gérés par le fournisseur.	Politiques de redrive vers DLQ ; les comptes de réception approximatifs alimentent votre champ attempts.

Liste de contrôle : (1) persistance durable au redémarrage, (2) timeout de visibilité ou renouvellement de verrou compatible avec votre job le plus long, (3) métriques scrapables — alignez avec le HowTo métriques passerelle et alertes type Prometheus pour voir profondeur et âge de file à côté de /healthz.

Étape 2 — Stratégie DLQ et paramètres de backoff

Budget de retry. Démarrez avec 5 à 8 tentatives pour le travail idempotent ; 1 à 3 pour des effets de bord coûteux à compenser (paiements, appels API irréversibles). Journalisez attempt sur chaque ligne d’échec.

Forme du backoff. Utilisez un backoff exponentiel avec jitter complet (style AWS) pour éviter les troupeaux synchronisés : sleep = aléatoire_entre(0, min(plafond, base * 2**tentative)). Une base typique est 2–5 secondes ; le plafond se situe souvent à 15–30 minutes pour le batch, plus court pour les chemins visibles utilisateur.

Règle d’admission DLQ. Déplacez un job vers la DLQ lorsque : tentatives épuisées, classe d’erreur non retentable (validation schéma 4xx, auth), ou marquage manuel « empoisonné ». Joignez toujours last_error, first_failed_at et un correlation_id propagé depuis le producteur.

// Exemple d’enveloppe d’échec (corps message DLQ ou JSON satellite)
{
  "queue": "render-proxies",
  "job_id": "01JQXYZ...",
  "job_name": "ffmpeg_proxy",
  "attempts": 8,
  "correlation_id": "req_9f3c",
  "last_error": "ffmpeg exited 234: Invalid data found when processing input",
  "payload_excerpt": { "input_uri": "s3://bucket/.../file.mov" }
}

Gardez payload_excerpt petit ; liez le stockage objet pour les gros blobs.

Étape 3 — OpenClaw consomme les événements d’échec et renvoie une synthèse

Implémentez un pont — une quinzaine à une cinquantaine de lignes dans le langage de votre choix — qui :

Lit un message depuis la DLQ (ou interroge une table failed_jobs).
Appelle OpenClaw avec une compétence ou invite d’outil dédiée demandant au modèle de ne produire que du JSON avec les clés : title, severity (info|warn|severe), likely_cause, next_steps (tableau de chaînes), runbook_hint.
Valide le JSON ; en cas d’échec, émet une synthèse statique qui inclut toujours last_error.

Authentifiez-vous auprès de la passerelle avec les mêmes motifs OPENCLAW_GATEWAY_TOKEN qu’ailleurs — ne logguez jamais le jeton. Si le pont tourne dans Docker sur l’hôte loué, suivez les conseils loopback et montages du guide de déploiement afin que seul le conteneur pont atteigne les chemins d’administration de la passerelle.

Esquisse de prompt (système) : « Tu es un assistant SRE. L’entrée est une enveloppe JSON d’échec de job. Sors uniquement du JSON compact. N’invente pas de stack traces. Si la cause est inconnue, dis-le. Les prochaines étapes doivent être actionnables et au plus cinq puces. »

Étape 4 — Livraison webhook (signature, dédup, retry)

C’est le pont — pas OpenClaw — qui doit POST la charge finale vers votre chat ou votre astreinte. Schéma habituel :

Signature HMAC dans l’en-tête (X-Signature: sha256=...) sur le corps brut avec un secret partagé issu de votre coffre.
En-tête Idempotency-Key égal à file + ":" + job_id pour que Slack ou votre API écarte les doublons.
Retry avec backoff exponentiel borné sur 5xx et 429, en respectant Retry-After lorsqu’il est présent.

Pour PagerDuty Events v2, mappez severity sur leur champ gravité ; incluez dedup_key dérivé de job_id pour que plusieurs retries du pont se replient sur un seul incident.

Permissions, périmètres et limitation de débit

Jeton passerelle. Émettez un jeton étroit pour l’identité pont : droit d’invoquer exactement un outil « summarize_failure », sans shell général ni outils fichiers larges. Faites tourner sur le même calendrier que les autres identifiants machine décrits dans Tailscale et rotation des jetons.

Allowlist de sortie. N’ajoutez que le nom d’hôte du webhook (et OTLP ou métriques si vous exportez les métriques du pont). Si une étape de synthèse exige de la doc externe, préférez des runbooks mis en cache sur disque à la navigation live depuis la compétence.

Rate limits. Plafonnez les appels OpenClaw à N synthèses par minute par file ; plafonnez les POST webhook de la même façon. Quand les limites sautent, basculer vers une file fichier sur disque et alerter via métriques (file d’attente qui monte) plutôt que de brûler des jetons en boucle serrée. Alignez les plafonds de dépense avec les fusibles budget multi-projets pour qu’une tempête d’incidents n’épuise pas votre budget modèle.

FAQ

Le LLM doit-il appeler le webhook directement ? À éviter. Gardez le HTTP sortant dans du code de confiance avec URL et secrets figés ; le modèle ne renvoie que du JSON.

Et si Redis manque de mémoire ? Réglez maxmemory-policy selon votre cas, surveillez la RAM avec la pression mémoire unifiée des hôtes M-series, et échouez fermé vers la DLQ plutôt que de laisser tomber des messages en silence.

Puis-je sauter OpenClaw et poster les erreurs brutes ? Oui pour les outils internes ; OpenClaw apporte de la valeur quand les erreurs sont bruyantes, multi-lignes ou à catégoriser sur des workers hétérogènes.

Synthèse

Un Mac distant loué qui exécute batch et charges agent a besoin d’un middleware de file avec sémantique explicite de retry, backoff et DLQ. Traitez la DLQ comme un flux d’événements : normalisez les enveloppes, laissez OpenClaw produire une synthèse courte structurée, et laissez un webhook signé prévenir les humains. Verrouillez jetons, sortie et débits pour que l’automatisation n’élargisse jamais votre surface d’attaque.

Pour les tarifs, l’achat et le support sur des pages publiques sans connexion obligatoire, utilisez les liens ci-dessous lorsque vous dimensionnez une capacité Mac dédiée aux files 24/7 et aux passerelles.