Héberger des agents IA sur un VPS : guide complet

Les agents IA écrivent du code, gèrent des serveurs, automatisent des workflows et communiquent avec des services externes en votre nom. Les faire tourner sur des plateformes gérées signifie payer des abonnements, confier vos données à des tiers et accepter leurs limites de débit.

Un VPS change cette équation. Vos agents tournent 24 h/24 sur du matériel que vous contrôlez. Vos données restent sur votre serveur. Personne ne bride vos appels API.

Qu'est-ce qu'un agent IA et comment fonctionne-t-il ?

Un agent IA est un programme autonome qui utilise un grand modèle de langage (LLM) pour décider quoi faire, puis le fait. Contrairement à un chatbot qui répond à une question à la fois, un agent tourne en continu. Il conserve le contexte entre les tâches, appelle des outils externes, lit et écrit des fichiers, exécute des commandes shell et enchaîne les actions sans attendre d'approbation humaine à chaque étape.

En pratique, un agent fonctionne en boucle :

Observer -- lire une entrée provenant d'un message utilisateur, d'un changement de fichier, d'un webhook ou d'un déclencheur planifié
Raisonner -- le LLM décide quelle action entreprendre en fonction du contexte et des outils disponibles
Agir -- exécuter cette action (lancer une commande, appeler une API, modifier un fichier, envoyer un message)
Évaluer -- vérifier le résultat et décider si la tâche est terminée ou nécessite une itération supplémentaire

Le LLM lui-même tourne généralement à distance via une API (Anthropic, OpenAI ou un modèle auto-hébergé). Ce qui tourne sur votre VPS, c'est le harnais de l'agent : le code qui gère la boucle, l'exécution des outils, la mémoire et les canaux de communication. C'est pourquoi la plupart des agents demandent étonnamment peu de ressources locales. L'inférence lourde se fait ailleurs.

Certains agents supportent aussi les modèles locaux via Ollama ou vLLM. Dans ce cas, votre VPS a besoin d'un GPU ou de beaucoup plus de RAM. Mais dans la majorité des scénarios d'auto-hébergement, un VPS de 2 à 4 Go gère le harnais de l'agent tandis que le fournisseur LLM gère l'inférence.

Pourquoi auto-héberger des agents IA plutôt qu'utiliser des plateformes gérées ?

L'auto-hébergement sur un VPS coûte moins cher que les abonnements aux plateformes gérées, garde vos données sur votre serveur, supprime les limites de débit et tourne 24 h/24 sans dépendre de votre PC portable. Vous choisissez quels modèles appeler, quels outils installer et comment l'agent se comporte. Les plateformes gérées décident tout cela pour vous.

Option	Modèle tarifaire	Ce que vous obtenez
ChatGPT Plus	Abonnement mensuel fixe. Voir tarifs OpenAI	Chat web, fonctions agent limitées, OpenAI contrôle vos données
Claude Pro	Abonnement mensuel fixe. Voir tarifs Anthropic	Chat web/bureau, plafonds d'utilisation, données traitées par Anthropic
Claude Max	Abonnement mensuel par palier. Voir tarifs Anthropic	Limites plus élevées, toujours dans le cloud
Plateforme d'agents gérée	Par utilisateur ou à l'usage, variable selon le fournisseur	Verrouillage fournisseur, infrastructure opaque, données hors de votre contrôle
VPS + clés API	À partir de 5 €/mois + consommation API à l'usage	Contrôle total, vos données restent sur votre serveur, pas de limites de débit au-delà de votre tier API

Vous payez toujours les appels API du LLM, mais vous contrôlez quel modèle vous appelez, à quelle fréquence et quelles données vous envoyez. Pas de marge d'intermédiaire.

Au-delà du coût : pourquoi l'auto-hébergement compte

Souveraineté des données. Vos prompts, la mémoire de l'agent et ses sorties ne quittent jamais votre serveur. Pour quiconque manipule des données clients, des informations soumises au RGPD ou du code propriétaire, ce n'est pas optionnel. Les plateformes gérées traitent vos données sur leur infrastructure selon leurs conditions. Sécuriser votre serveur d'agents IA : sandboxing, pare-feu et supervision

Pas de limites de débit. Les plateformes gérées brident les gros utilisateurs. Sur votre VPS, les seules limites sont votre tier API chez le fournisseur LLM et les ressources de votre serveur.

Disponibilité 24 h/24. Les agents qui surveillent, automatisent ou répondent à des événements doivent tourner en continu. Un VPS reste allumé quand votre PC portable se met en veille.

Personnalisation totale. Installez n'importe quel outil ou bibliothèque. Pas besoin d'attendre qu'une plateforme ajoute le support du serveur MCP dont vous avez besoin.

Quels types d'agents IA peut-on auto-héberger ?

Le monde des agents en 2026 se divise en quatre catégories : agents de code, assistants généralistes, outils d'automatisation de workflows et agents personnalisés que vous construisez vous-même.

Agent	Usage	RAM min.	GPU requis ?	Protocoles supportés	Difficulté
Claude Code	Code, refactoring, workflows git	2 Go	Non	MCP (natif)	Faible
OpenClaw	Assistant général, messagerie, automatisation	4 Go (8 Go avec navigateur)	Non	MCP, skills personnalisés	Moyen
Hermes Agent	Assistant à mémoire persistante	2 Go	Non	MCP, agentskills.io	Faible
n8n	Automatisation de workflows avec nœuds IA	2 Go (4 Go recommandés)	Non	HTTP, webhooks	Moyen
Agent personnalisé	Ce que vous construisez	Variable	Optionnel	Ce que vous implémentez	Élevé

Qu'est-ce que Claude Code et pourquoi le faire tourner sur un VPS ?

Claude Code est l'outil de codage agentique d'Anthropic. Il vit dans votre terminal, lit l'intégralité de votre base de code, modifie des fichiers, exécute des commandes, gère les workflows git et lance des sous-agents pour les tâches parallèles. Il utilise Claude Opus 4.6 comme moteur de raisonnement et obtient 80,8 % sur SWE-bench Verified.

Faire tourner Claude Code sur un VPS signifie que votre agent de codage fonctionne en permanence. Il peut exécuter des pipelines CI, surveiller des dépôts, gérer des tâches de refactoring planifiées et répondre à des webhooks. Votre base de code reste sur un serveur que vous contrôlez au lieu de transiter par une plateforme gérée.

Claude Code supporte MCP nativement. Vous pouvez le connecter à des bases de données, des API, des systèmes de fichiers et des outils personnalisés via des serveurs MCP tournant sur le même VPS. Il supporte aussi les équipes d'agents : plusieurs sessions Claude Code qui se coordonnent sur un projet partagé, l'une faisant office de chef d'équipe.

Côté ressources, Claude Code est léger. Le harnais de l'agent a besoin d'environ 2 Go de RAM. Toute l'inférence passe par l'API d'Anthropic.

Qu'est-ce qu'OpenClaw ?

OpenClaw (anciennement Clawdbot/Moltbot) est l'agent IA open source le plus populaire, avec plus de 250 000 étoiles sur GitHub en mars 2026. Créé par Peter Steinberger, c'est un assistant généraliste qui se connecte à des plateformes de messagerie comme Signal, Telegram, Discord et WhatsApp.

Contrairement à Claude Code, qui se concentre sur le code, OpenClaw agit comme un assistant personnel. Il gère des fichiers, envoie des e-mails, contrôle des API, automatise des workflows et navigue sur le web. Les backends LLM supportés incluent Claude, GPT, DeepSeek et des modèles locaux via Ollama.

L'auto-hébergement d'OpenClaw demande plus de ressources que Claude Code. Le minimum est de 2 vCPU et 4 Go de RAM. Si vous activez l'automatisation du navigateur (Playwright), prévoyez 8 Go car chaque instance de navigateur consomme 1 à 2 Go à elle seule. Le stockage doit être en NVMe SSD : OpenClaw est sensible aux E/S lors des opérations Docker.

Avertissement de sécurité : OpenClaw a connu de sérieux problèmes de sécurité. Palo Alto Networks a identifié une « triade létale » de risques : accès aux données privées, exposition à du contenu non fiable et capacité à effectuer des communications externes tout en conservant la mémoire. Début 2026, Koi Security a audité 2 857 skills sur ClawHub et en a trouvé 341 malveillants, soit environ un paquet sur huit. Traitez l'écosystème de skills d'OpenClaw comme non fiable. Auditez chaque skill avant de l'installer et faites tourner OpenClaw dans un environnement sandboxé. Déployer OpenClaw en sécurité sur un VPS

Qu'est-ce que Hermes Agent ?

Hermes Agent est un agent IA open source développé par Nous Research, publié en février 2026. Ce qui le distingue, c'est la mémoire persistante : Hermes se souvient de vos préférences, projets et environnement d'une session à l'autre. Quand il résout un problème difficile, il écrit un document de skill réutilisable pour ne jamais oublier la solution.

Hermes tourne sur un VPS à 5 €/mois. Il est livré avec plus de 40 outils intégrés et se connecte à Telegram, Discord, Slack, WhatsApp, Signal et au CLI via un processus passerelle unique. Toutes les données restent sur votre machine. Pas de télémétrie, pas de tracking.

Les skills suivent le standard ouvert agentskills.io, ce qui les rend portables et trouvables entre agents. Plus Hermes tourne longtemps, plus il devient performant. Licence MIT. Auto-héberger Hermes Agent sur un VPS

Automatisation de workflows : n8n avec nœuds IA

n8n n'est pas un agent IA en soi, mais il en devient un quand vous ajoutez des nœuds IA. Vous pouvez construire des workflows qui appellent des LLM, traitent les réponses et déclenchent des actions basées sur les décisions de l'IA. Voyez-le comme la couche de liaison : connectez votre agent IA à plus de 400 intégrations sans écrire de code personnalisé pour chacune.

L'auto-hébergement de n8n requiert 2 vCPU et 4 Go de RAM en production. Utilisez PostgreSQL à la place de SQLite au-delà de la phase de test. Si vous faites tourner une base vectorielle (Qdrant, Pinecone) à côté de n8n, ajoutez 2 à 4 Go de RAM supplémentaires.

Comment fonctionnent les protocoles d'agents ? (MCP, A2A, ANP)

Trois protocoles définissent la façon dont les agents IA communiquent en 2026. Ce ne sont pas des standards concurrents mais des couches complémentaires. Chacun résout un problème différent, et les connaître vous aide à planifier votre installation auto-hébergée.

Protocole	Créé par	Fonction	Quand l'utiliser
MCP (Model Context Protocol)	Anthropic	Connecte un agent à des outils et sources de données	Toujours. C'est ainsi que votre agent lit des fichiers, interroge des bases de données et appelle des API
A2A (Agent-to-Agent)	Google (désormais Linux Foundation)	Permet aux agents de déléguer des tâches à d'autres agents	Quand vous faites tourner plusieurs agents qui doivent collaborer
ANP (Agent Network Protocol)	Communauté/AAIF	Découverte et routage d'agents à travers les réseaux	Quand vos agents doivent trouver et s'authentifier auprès d'agents hors de votre serveur

MCP : agent vers outils

MCP est un protocole JSON-RPC qui standardise la façon dont un agent accède à des capacités externes. Au lieu de coder en dur des appels API, vous lancez des serveurs MCP qui exposent des outils (lire une base de données, récupérer une URL, exécuter une requête) et l'agent s'y connecte en tant que client.

MCP a dépassé 97 millions de téléchargements mensuels du SDK (Python + TypeScript combinés) en février 2026. Tous les principaux fournisseurs d'IA le supportent : Anthropic, OpenAI, Google, Microsoft, Amazon.

Sur un VPS auto-hébergé, les serveurs MCP tournent en tant que processus locaux. Votre agent s'y connecte via stdio ou HTTP. Vous contrôlez quels outils sont disponibles, quelles permissions ils ont et à quelles données ils peuvent accéder. Pas de serveurs tiers impliqués. Construire et auto-héberger un serveur MCP sur un VPS

A2A : agent vers agent

A2A permet la délégation de tâches pair à pair entre agents. Un agent peut demander à un autre d'effectuer une tâche, suivre sa progression et recevoir le résultat. Google l'a créé en avril 2025, l'a donné à la Linux Foundation en juin 2025, et en décembre 2025, l'Agentic AI Foundation (AAIF) est devenue sa maison permanente aux côtés de MCP.

Vous avez besoin d'A2A quand vous faites tourner plusieurs agents avec des spécialisations différentes. Par exemple : un agent de code qui délègue la documentation à un agent rédacteur, ou un agent de monitoring qui déclenche un agent de déploiement quand les tests passent.

ANP : découverte d'agents

ANP gère la découverte et le routage. Il permet aux agents de se trouver au-delà des frontières organisationnelles, de s'authentifier et d'établir des canaux de communication. Voyez-le comme le DNS des agents.

Pour la plupart des installations auto-hébergées avec des agents tournant sur un seul VPS, vous n'aurez pas encore besoin d'ANP. Il devient pertinent quand vos agents doivent interagir avec des agents sur d'autres serveurs ou dans d'autres organisations.

De quelles spécifications serveur les agents IA ont-ils besoin ?

Votre VPS fait tourner le harnais de l'agent, les outils et les services locaux que vous ajoutez (bases de données, files de messages, serveurs web). Le LLM tourne à distance.

Configuration	vCPU	RAM	Stockage	Coût mensuel (Virtua)
Agent seul (Claude Code ou Hermes)	1	2 Go	40 Go SSD	12 €
OpenClaw (texte seul)	2	4 Go	80 Go NVMe	28 €
OpenClaw + automatisation navigateur	4	8 Go	160 Go NVMe	56 €
Plusieurs agents + base de données	4	8 Go	160 Go SSD	48 €
n8n + base vectorielle + agent	4	8 Go	160 Go NVMe	56 €
Stack complet (3+ agents, BDD, monitoring)	6	12 Go	240 Go NVMe	84 €

Quand avez-vous besoin d'un GPU ? Uniquement si vous faites tourner un LLM local (Ollama, vLLM) au lieu d'utiliser une API. Pour des modèles comme Llama 3 ou Mistral, il faut au minimum 16 Go de VRAM. La plupart des installations d'agents auto-hébergés n'ont pas besoin de GPU car l'inférence se fait chez le fournisseur d'API.

Le stockage compte. Utilisez du SSD ou du NVMe. Les agents qui utilisent Docker (OpenClaw, n8n) sont sensibles aux E/S lors des opérations sur les conteneurs. Le HDD provoque un ralentissement notable au démarrage des conteneurs et lors des opérations sur les espaces de travail.

Gardez de la marge. Conservez au moins 30 % de RAM libre en charge normale. Les agents peuvent avoir des pics lors de chaînes de raisonnement complexes ou du traitement de grandes fenêtres de contexte. Si votre VPS commence à swapper, les temps de réponse de l'agent se dégradent rapidement.

Comment sécuriser un agent IA auto-hébergé ?

Les agents IA ne sont pas des applications normales. Ils exécutent du code arbitraire basé sur la sortie d'un LLM. Un agent avec un accès shell peut faire tout ce que votre compte utilisateur peut faire. Une attaque par injection de prompt peut transformer votre agent de codage en outil d'exfiltration de données. Cette réalité façonne chaque décision de cette section.

Traitez les agents comme du code non fiable

Le LLM qui pilote votre agent traite des entrées externes : messages utilisateur, contenu de fichiers, réponses API, pages web. N'importe laquelle peut contenir des charges d'injection de prompt. Partez du principe qu'à un moment donné, votre agent essaiera de faire quelque chose qu'il ne devrait pas.

Principe du moindre privilège. Exécutez chaque agent en tant qu'utilisateur système dédié avec des permissions minimales. Ne lancez jamais d'agents en root. Donnez à l'utilisateur de l'agent accès uniquement aux répertoires et commandes dont il a besoin.

# Create a dedicated user for your agent
sudo useradd -r -m -s /bin/bash agent-claude
sudo chmod 700 /home/agent-claude

Sandboxez l'exécution de l'agent

Un conteneur Docker standard n'est pas une frontière de sécurité. Les conteneurs partagent le noyau de l'hôte, et un attaquant motivé (ou un LLM confus) peut s'échapper d'un conteneur permissif. Pour une vraie isolation :

MicroVM (Firecracker, Kata Containers) : chaque agent a son propre noyau. Isolation la plus forte. Idéal pour les agents qui exécutent du code non fiable.
gVisor : intercepte les appels système en espace utilisateur. Plus léger que les microVM mais plus solide que les conteneurs nus. Bon compromis.
Conteneurs renforcés : acceptable pour les agents de confiance uniquement. Utilisez --read-only, --no-new-privileges, supprimez toutes les capabilities, montez des volumes minimaux.

Isolation réseau

Les agents ne devraient pas avoir un accès réseau illimité. Un agent qui peut atteindre n'importe quelle IP peut exfiltrer des données ou participer à des attaques.

# Allow only the specific API endpoints your agent needs
sudo ufw default deny outgoing
sudo ufw allow out to any port 443 proto tcp  # HTTPS for API calls
sudo ufw allow out to any port 53 proto udp   # DNS
sudo ufw enable

Affinez cela en limitant les connexions sortantes aux plages d'IP spécifiques de votre fournisseur LLM. Bloquez tout le reste.

Gérez les secrets correctement

Ne codez jamais les clés API en dur dans les fichiers de configuration de l'agent. Utilisez des fichiers d'environnement avec des permissions restreintes.

# Create a secrets file
sudo mkdir -p /etc/agent-claude
echo "ANTHROPIC_API_KEY=sk-ant-..." | sudo tee /etc/agent-claude/env > /dev/null
sudo chmod 600 /etc/agent-claude/env
sudo chown agent-claude:agent-claude /etc/agent-claude/env

Référencez-le dans une unité systemd avec EnvironmentFile=/etc/agent-claude/env. La clé n'apparaît jamais dans les listings de processus ni dans les fichiers de configuration lisibles par d'autres utilisateurs.

Surveillez et journalisez tout

Les agents qui tournent de manière autonome peuvent se comporter de façon inattendue. Journalisez toutes les actions de l'agent et examinez-les régulièrement.

# Watch agent logs in real time
journalctl -u agent-claude -f

# Check for unusual outbound connections
ss -tnp | grep agent-claude

Mettez en place des alertes pour les comportements inhabituels : utilisation CPU élevée, connexions réseau inattendues, changements rapides du système de fichiers, ou agents exécutant des commandes en dehors de leur périmètre normal.

Pour un guide complet de renforcement de la sécurité, consultez Sécuriser votre serveur d'agents IA : sandboxing, pare-feu et supervision.

Comment démarrer avec votre premier agent auto-hébergé

Choisissez un agent et faites-le tourner. N'essayez pas de monter toute la pile d'un coup.

Si vous voulez un assistant de codage : commencez par Claude Code. Installez via npm, authentifiez-vous, et vous avez un agent opérationnel en quelques minutes. C'est l'option la moins gourmande en ressources ici.

Si vous voulez un assistant personnel sur vos apps de messagerie : déployez OpenClaw. La mise en place est plus longue (Docker, configuration de la plateforme de messagerie, sélection des skills) mais vous obtenez l'agent généraliste le plus polyvalent. Prévoyez 4 à 8 heures pour la configuration initiale. Déployer OpenClaw en sécurité sur un VPS

Si vous voulez un agent à mémoire persistante : essayez Hermes. Installation en une seule commande, licence MIT, et il s'améliore avec le temps. Auto-héberger Hermes Agent sur un VPS

Si vous voulez de l'automatisation de workflows avec IA : mettez en place n8n avec des nœuds IA. Connectez vos outils et services existants via des workflows visuels. Idéal pour les tâches d'automatisation sans code.

Vos premiers pas

Quel que soit l'agent choisi :

Provisionnez un VPS. Commencez avec 4 Go de RAM en cas de doute. Vous pouvez redimensionner plus tard.
Sécurisez le serveur. Clés SSH uniquement, pare-feu activé, utilisateur non root créé. Faites cela avant d'installer quoi que ce soit d'autre.
Installez l'agent. Suivez le tutoriel spécifique à l'agent choisi.
Restreignez les permissions. Faites tourner l'agent en tant qu'utilisateur dédié. Limitez l'accès réseau. Stockez les secrets dans des fichiers protégés.
Testez depuis l'extérieur. Vérifiez que l'agent fonctionne en vous connectant depuis votre machine locale, pas seulement depuis le serveur lui-même.
Mettez en place le monitoring. Au minimum, surveillez les logs avec journalctl. Idéalement, configurez des alertes sur les ressources.

Chaque tutoriel lié dans ce guide inclut une vérification à chaque étape.

Articles associés