Gestion des erreurs

Les 3 niveaux d'erreur, le plan B par composant, la correction, et le post-mortem.

Tout casse a un moment. La question n'est pas "si" mais "quand". Agent OS categorise les erreurs en 3 niveaux et a un plan B pour chaque composant.

Les 3 niveaux d'erreur

Niveau	Icone	Signification	Delai de reaction	Notification
WARNING	Jaune	Anomalie detectee, pas de perte	Heures	Telegram (brief suivant)
ERROR	Orange	Echec d'une action, impact limite	< 1 heure	Telegram (immediat)
CRITICAL	Rouge	Systeme down ou perte de donnees	< 15 min	Telegram + SMS

Exemples par niveau

WARNING :

Un cron a mis 2x plus de temps que d'habitude
Un agent a consomme plus de tokens que prevu
Engagement social en baisse de 20%
Espace disque a 80%

ERROR :

Un cron a echoue
Un agent ne repond plus
Une API retourne des erreurs
Un deploiement a echoue

CRITICAL :

Serveur principal down
Base Notion inaccessible
Perte de connexion Telegram (pas de canal de communication)
Stop-loss non execute (trading)
Sauvegarde corrompue

Plan B par composant

OpenClaw (runtime)

Probleme	Detection	Plan B
Gateway crash	Health check (CRON-001)	Auto-restart via systemd
Agent bloque	Timeout depasse	Kill + restart de l'agent
Queue pleine	Monitoring memoire	Purge des taches anciennes
Config corrompue	Validation au reload	Rollback Git automatique

Telegram (communication)

Probleme	Detection	Plan B
Bot deconnecte	Pas de delivery confirm	Retry 3x puis alerte email
Rate limit	HTTP 429	Backoff exponentiel
API down	Connection timeout	Stocker les messages, envoyer au retour

Notion (donnees)

Probleme	Detection	Plan B
API indisponible	Connection error	Cache local, sync au retour
Rate limit	HTTP 429	Batch les requetes
Page corrompue	Validation schema	Restaurer depuis backup

Trading (Hyperliquid)

Probleme	Detection	Plan B
API down	Connection timeout	Stop-loss on-chain restent actifs
Ordre rejete	Error response	Retry avec parametres ajustes
Position a risque	PnL monitoring	Alerte CRITICAL immediate

Infra (serveur)

Probleme	Detection	Plan B
Serveur down	CRON-001	Alerte + tentative auto-restart
Disque plein	Monitoring espace	Purge logs anciens + alerte
RAM saturee	Monitoring memoire	Kill processes non essentiels
SSL expire	CRON-011	Renouvellement auto (Cloudflare)

Processus de correction

1. Detecter

Les crons de monitoring detectent automatiquement. Le CEO categorise le niveau.

2. Notifier

Le CEO envoie une alerte sur Telegram avec :

Le niveau (WARNING/ERROR/CRITICAL)
Le composant affecte
L'impact
L'action recommandee

ERROR : Cron CRON-004 (Social Pulse) echoue.
Cause : API Twitter rate limit.
Impact : Pas de scan engagement aujourd'hui.
Action : Retry automatique dans 1h.
Intervention requise : Non.

3. Corriger

Type	Qui corrige	Comment
Auto-corrigeable	Le systeme	Retry, restart, fallback
Manuelle simple	Le CEO	Commande de correction
Manuelle complexe	Toi	Intervention directe

4. Verifier

Apres correction, le CEO verifie que tout est revenu a la normale.

openclaw health check --verbose

Post-mortem

Pour chaque erreur ERROR ou CRITICAL, un post-mortem est genere.

Format du post-mortem

Post-mortem : [ID de l'incident]
Date : 2026-04-02
Niveau : ERROR
Composant : Trading Agent
Duree : 45 min

Chronologie :
- 14:30 : Ordre d'achat rejete par Hyperliquid
- 14:31 : Retry automatique echoue
- 14:35 : Alerte CEO
- 14:40 : Alerte utilisateur
- 14:50 : Investigation manuelle
- 15:15 : Cause identifiee (margin insuffisante)
- 15:15 : Resolution (ajout margin)

Cause racine : Le trading agent n'a pas verifie la margin disponible avant l'ordre.
Action corrective : Ajouter un check de margin pre-ordre.
Statut : Corrige et deploye.

Pas de blame, que des faits

Le post-mortem analyse la cause, pas le coupable. L'objectif : que l'erreur ne se reproduise pas.

Lecture liee

Routine quotidienne pour le flux d'alertes normal
Couts quand les erreurs ont un impact financier
KPIs pour mesurer le taux d'erreur

Gestion des erreurs

On this page