Votre standard téléphonique IA opérationnel en 3 heures
Tutoriel pas à pas : Vapi + n8n pour un agent vocal qui décroche, qualifie et prend rendez-vous à votre place
Il y a six semaines, j'ai raté un appel client à 4 200 €. Le prospect a appelé à 14h12, pendant que j'étais en visio. Il a rappelé une heure plus tard — occupé encore. Le lendemain, il avait signé chez un concurrent. Ce genre de situation, dans une PME où personne ne fait que décrocher le téléphone, arrive plus souvent qu'on ne l'admet.
Depuis, j'ai déployé un agent vocal IA sur mon numéro pro. Il décroche en moins de 2 secondes, qualifie l'appelant, répond aux questions de base sur nos services, et réserve un créneau directement dans mon Google Calendar. Coût mensuel réel : 127 €. Nombre d'appels manqués depuis : zéro.
Ce tutoriel vous montre exactement comment reproduire cette configuration — étape par étape, sans écrire une ligne de code — avec Vapi pour l'agent vocal et n8n pour l'orchestration métier.
Pourquoi un agent vocal IA maintenant (et pas un SVI classique)
Les serveurs vocaux interactifs (SVI) existent depuis 30 ans. "Tapez 1 pour le service commercial, tapez 2 pour..." — tout le monde déteste ça, et les chiffres le confirment : 62 % des appelants raccrochent face à un menu SVI à plus de 3 options.
L'agent vocal IA, c'est autre chose. Il comprend le langage naturel, pose des questions contextuelles, et agit — réserver un créneau, transférer à la bonne personne, envoyer un SMS de confirmation. Et en 2026, le français conversationnel est compris avec un taux supérieur à 92 % sur les requêtes standard, selon les benchmarks des principaux fournisseurs STT.
Le marché a basculé en 12 mois
Quelques chiffres qui expliquent pourquoi 2026 est le moment :
- Le marché français de l'IA conversationnelle vocale croît de 35 % par an (Nerolia, 2026)
- 42 % des PME et cabinets libéraux prévoient d'investir dans la technologie vocale cette année
- Les entreprises déployant un agent vocal rapportent un ROI moyen de 318 % dans les 6 premiers mois (Forrester TEI)
- Coût par interaction IA : 0,25-0,50 € vs 3-6 € pour un agent humain — réduction de 85-90 % par contact (Retell AI)
Ce que ça change concrètement pour une PME
Un cabinet médical a déployé un agent vocal en mars 2025. Résultats à 6 mois : 75 % des appels traités intégralement par l'agent, taux d'appels sans réponse passé de 28 % à moins de 1 %, économie nette estimée à 14 000 €/an (Nerolia). Un médecin libéral déployant en janvier 2026 a vu ses rendez-vous non honorés chuter de 18 % à 5 % en six semaines.
Ce n'est pas réservé au médical. Artisans, agences immobilières, cabinets d'avocats, restaurants — toute structure qui reçoit plus de 5 appels/jour et ne peut pas toujours décrocher est concernée.
L'architecture : les 4 briques de votre agent vocal
Avant de plonger dans la configuration, voici les composants et leur rôle :
| Composant | Outil | Rôle | Coût indicatif |
|---|---|---|---|
| Orchestration vocale | Vapi | Gère le flux d'appel, connecte STT/LLM/TTS | 0,05 €/min |
| Transcription (STT) | Google STT Multilingual | Convertit la voix en texte | ~0,01 €/min |
| Intelligence (LLM) | GPT-4o-mini ou Claude Haiku | Comprend l'intention, génère les réponses | 0,02-0,05 €/min |
| Synthèse vocale (TTS) | ElevenLabs Flash v2.5 | Génère la voix de réponse | ~0,04 €/min |
| Téléphonie | Twilio | Numéro de téléphone + routage | ~0,01 €/min + 1,15 €/mois |
| Logique métier | n8n (self-hosted ou cloud) | Vérifie le calendrier, crée les RDV, envoie les confirmations | 0-24 €/mois |
Coût total réel par minute d'appel : 0,13 à 0,31 €, selon la complexité du LLM choisi. Pour une PME recevant 200 appels/mois de 3 minutes en moyenne, ça donne 78 à 186 €/mois. À comparer aux 2 500-4 000 €/mois d'un(e) secrétaire à temps partiel.
Étape 1 : Créer votre assistant dans Vapi (20 min)
Inscription et premier assistant
Rendez-vous sur vapi.ai et créez un compte. Le plan gratuit inclut un crédit de test suffisant pour valider votre configuration. Dans le dashboard :
- Cliquez sur "Assistants" → "Create Assistant"
- Choisissez "Blank" (on va tout configurer manuellement)
- Donnez-lui un nom interne : "Réceptionniste [Votre entreprise]"
Le prompt système : le cœur de votre agent
C'est ici que tout se joue. Un bon prompt de réceptionniste doit être précis, chaleureux et structuré. Voici le squelette que j'utilise, adapté à un cabinet de conseil :
Tu es Marie, l'assistante téléphonique de [Nom Entreprise].
Ton rôle : accueillir les appelants, comprendre leur besoin, et soit répondre directement, soit proposer un rendez-vous.
RÈGLES OBLIGATOIRES :
- Commence TOUJOURS par : "Bonjour, [Entreprise], Marie à l'appareil, comment puis-je vous aider ?"
- Informe dès le début que tu es une assistante IA (obligation AI Act)
- Ton chaleureux et professionnel. Phrases courtes. Pas de jargon.
- Si la question concerne [liste sujets simples] : réponds directement
- Si la question nécessite un expert : propose un rendez-vous
- Avant de réserver : confirme nom, email, créneau souhaité, objet
- Ne dis JAMAIS "astérisque", "markdown", ou autre terme technique
- Limite tes réponses à 2-3 phrases max par tour de parole
INFORMATIONS ENTREPRISE :
- Horaires : lundi-vendredi, 9h-18h
- Adresse : [adresse]
- Services : [liste]
- Tarifs de base : [fourchette si applicable]
Si l'appelant demande à parler à un humain, dis : "Je vous transfère immédiatement" et utilise l'outil transfer_call.Deux points critiques issus du guide officiel Vapi :
- Utilisez un langage simple avec des mots courants et une grammaire directe — le modèle répond plus vite
- Structurez avec du markdown pour la clarté interne, mais interdisez au modèle de verbaliser des caractères spéciaux
Configuration voix et transcription pour le français
C'est le point où beaucoup se plantent. Voici la config qui fonctionne en français en 2026 :
| Paramètre | Recommandation | Pourquoi |
|---|---|---|
| Transcription (STT) | Google STT — modèle "Multilingual" | Meilleure précision FR pour numéros, noms propres, adresses |
| Langue STT | fr-FR | Force la détection français |
| Voix (TTS) | ElevenLabs — voix française native | Qualité supérieure, latence sub-100ms |
| LLM | GPT-4o-mini (ou Claude Haiku 4.5) | Bon ratio vitesse/qualité pour du conversationnel |
⚠️ Évitez Deepgram Nova 3 pour le français — les retours de la communauté Vapi signalent des bugs persistants sur les numéros de téléphone et noms de villes (source : forum Vapi). Nova 2 fonctionne mais la qualité reste inférieure à Google STT.
Étape 2 : Connecter un numéro de téléphone (15 min)
Deux options :
Option A : numéro Vapi (US/Canada uniquement)
Si vous testez depuis les US, Vapi peut fournir un numéro directement. Dashboard → Phone Numbers → Create. Simple, mais non disponible pour la France.
Option B : Twilio pour un numéro français (recommandé)
- Créez un compte Twilio
- Achetez un numéro local français (à partir de 1,15 €/mois)
- Dans Vapi → Phone Numbers → Import from Twilio
- Renseignez votre Account SID et Auth Token Twilio
- Assignez votre assistant au numéro importé
Coût téléphonie Twilio France : environ 0,01 €/min entrant + le numéro mensuel. Pour les appels sortants (rappels, confirmations), comptez 0,007 €/min selon le pricing France Twilio.
À ce stade, vous pouvez déjà tester : appelez votre numéro, votre agent décroche et converse. Mais il ne fait rien de concret — pas de prise de RDV, pas de CRM. C'est l'étape suivante.
Étape 3 : Créer le workflow n8n de prise de rendez-vous (45 min)
C'est ici que la magie opère. On va connecter Vapi à n8n pour que l'agent puisse vérifier les disponibilités et réserver dans Google Calendar.
Pourquoi n8n plutôt que Make ?
Les deux fonctionnent. J'ai choisi n8n pour trois raisons : self-hostable (pas de données client chez un tiers), pas de limite d'exécutions en self-hosted, et les templates Vapi prêts à l'emploi sont excellents. Si vous préférez Make, la logique est identique — seuls les nœuds changent.
Importer le template
- Dans n8n, allez sur Templates → cherchez "Vapi Google Calendar"
- Importez le template "Voice appointment booking & confirmation system with Vapi"
- Ce template inclut déjà : webhook réception, vérification disponibilités, création événement, envoi email confirmation
Configurer le webhook
- Ouvrez le nœud Webhook dans n8n
- Copiez l'URL de production (elle ressemble à :
https://votre-instance.n8n.cloud/webhook/abc123) - Dans Vapi → votre Assistant → section "Server URL" : collez cette URL
- Dans "Server Messages" : activez uniquement toolCalls
Connecter Google Calendar
- Dans n8n, ouvrez les nœuds Google Calendar
- Créez des credentials OAuth Google (une seule fois)
- Sélectionnez le calendrier cible pour les rendez-vous
- Configurez votre fuseau horaire (Europe/Paris)
- Définissez les créneaux disponibles (ex : lundi-vendredi 9h-17h, slots de 30 min)
Créer les "Tools" dans Vapi
C'est le lien entre votre agent vocal et n8n. Dans Vapi → Tools → Create Tool :
Tool 1 : check_availability
Nom : check_availability
Description : Vérifie les créneaux disponibles pour un rendez-vous
Paramètres :
- date_souhaitee (string, required) : la date demandée par l'appelant
- type_rdv (string, optional) : type de rendez-vousTool 2 : book_appointment
Nom : book_appointment
Description : Réserve un créneau dans le calendrier
Paramètres :
- nom (string, required)
- email (string, required)
- date_heure (string, required)
- objet (string, required)Attachez ces deux tools à votre assistant. Quand l'appelant dit "Je voudrais un rendez-vous mardi prochain", l'agent appelle automatiquement check_availability, reçoit les créneaux libres via n8n, les propose à l'appelant, puis confirme via book_appointment.
Étape 4 : La confirmation automatique (15 min)
Une fois le rendez-vous réservé, le workflow n8n déclenche :
- Création de l'événement Google Calendar avec tous les détails (nom, objet, durée)
- Envoi d'un email de confirmation au client (via Gmail ou SMTP)
- Envoi d'un SMS optionnel via Twilio avec le récap
- Notification Slack/Telegram pour vous prévenir du nouveau RDV
Le tout prend moins de 3 secondes après le "Merci, c'est réservé" de l'agent vocal.
Étape 5 : Conformité AI Act — ce que vous DEVEZ faire
Depuis février 2025, l'AI Act européen impose des obligations de transparence pour tout agent vocal IA. Ce n'est pas optionnel — les sanctions arrivent en août 2026 pour les systèmes à haut risque. Voici le minimum légal (TalkR, 2026) :
| Obligation | Comment l'implémenter |
|---|---|
| Informer que c'est une IA | Inclure dans le prompt : "Précise dès ta première phrase que tu es une assistante IA" |
| Droit au transfert humain | Ajouter un tool transfer_call et l'instruction : "Si l'appelant demande un humain, transfère immédiatement" |
| Information sur l'enregistrement | Si vous enregistrez : le dire en début d'appel |
| Durée de conservation limitée | Configurer la suppression auto des transcriptions (30j max recommandé) |
| Pas de tromperie | Ne JAMAIS programmer l'agent pour nier qu'il est une IA |
Bonne nouvelle : 74 % des Français se déclarent à l'aise avec un agent vocal IA pour une tâche administrative. L'annoncer clairement renforce la confiance plutôt que de la dégrader.
Étape 6 : Tester, itérer, affiner (30 min puis continu)
Le test initial
- Appelez votre numéro depuis un autre téléphone
- Testez le scénario nominal : salutation → question → proposition RDV → confirmation
- Testez les cas limites : demande hors-sujet, demande de transfert humain, créneau indisponible
- Vérifiez que l'événement apparaît dans Google Calendar et que l'email part
Les 5 problèmes que vous allez rencontrer (et leurs fixes)
Après avoir déployé ça chez moi et aidé 3 autres boîtes à le faire, voici ce qui coince systématiquement :
| Problème | Cause | Solution |
|---|---|---|
| L'agent répond en anglais | Prompt pas assez explicite | Ajoutez "Tu ne parles QU'EN FRANÇAIS. Même si l'appelant parle anglais, réponds en français." |
| Latence > 3 secondes | LLM trop lourd | Passez à GPT-4o-mini ou Claude Haiku. Évitez GPT-4o complet pour du vocal. |
| Transcription incohérente | Mauvais provider STT | Basculez sur Google STT Multilingual + fr-FR |
| Le webhook n8n ne répond pas | Workflow inactif ou URL de test | Vérifiez que le workflow est activé ET utilisez l'URL de production (pas celle de test) |
| L'agent "hallucine" des créneaux | Le tool n'est pas bien configuré | Ajoutez dans le prompt : "Ne propose JAMAIS un créneau sans avoir d'abord appelé check_availability" |
Métriques à suivre
Vapi fournit un dashboard avec les stats essentielles. Les KPI à surveiller :
- Taux de résolution : % d'appels où l'agent a répondu à la demande sans transfert humain (cible : > 60 %)
- Taux de booking : % d'appels aboutissant à un RDV réservé
- Durée moyenne d'appel : en dessous de 3 min = votre prompt est efficace
- Taux de transfert : au-dessus de 30 % = votre prompt manque d'infos
Combien ça coûte réellement : 3 scénarios chiffrés
Je déteste les articles qui promettent "à partir de 0,05 €/min" sans dire le vrai prix. Voici le calcul honnête, composant par composant :
| Scénario | Appels/mois | Durée moy. | Coût Vapi + LLM + TTS + STT | Twilio | n8n | TOTAL mensuel |
|---|---|---|---|---|---|---|
| Solo / micro-entreprise | 80 | 2 min | ~40 € | ~3 € | 0 € (self-hosted) | ~43 € |
| PME (5-15 salariés) | 300 | 3 min | ~180 € | ~10 € | 24 € (cloud) | ~214 € |
| Cabinet libéral actif | 600 | 2,5 min | ~300 € | ~18 € | 24 € | ~342 € |
Source pricing : CloudTalk analyse Vapi 2026 + AI Voice Agent Pricing Breakdown.
À mettre en face : un standard téléphonique externalisé coûte 300-800 €/mois selon les horaires. Un(e) secrétaire à mi-temps : 1 200-1 800 €/mois charges comprises. Le ROI est là dès le premier mois pour la plupart des configurations.
Les alternatives à Vapi : quand choisir autre chose
Vapi n'est pas le seul acteur. Selon votre profil, une autre plateforme peut être plus adaptée :
| Plateforme | Forces | Faiblesses | Idéal pour | Prix |
|---|---|---|---|---|
| Vapi | Flexibilité maximale, 14+ providers, latence faible | Pricing complexe, pas de numéro FR natif | Développeurs, configurations sur-mesure | 0,05 €/min + providers |
| ElevenLabs Agents | Meilleure qualité vocale du marché, 70+ langues | Moins flexible sur l'orchestration | Priorité voix naturelle, multilingue | 0,08-0,12 €/min tout-en-un |
| Bland AI | Volume massif, outbound à grande échelle | Cher en petit volume (359 $/mois minimum) | Centres d'appels, campagnes outbound | 299 $/mois + 0,12 $/min |
| AirAgent (FR) | Solution française clé en main, conformité RGPD native | Moins personnalisable | PME non-tech voulant du plug & play | 80-350 €/mois |
Source comparatif : Digital Applied, 2026 + AI Tool Scope.
Mon avis : si vous voulez comprendre ce que vous construisez et garder la main, Vapi + n8n est le meilleur rapport contrôle/coût. Si vous voulez brancher et oublier, AirAgent ou une solution clé en main française fera l'affaire — mais à 2-3x le prix.
Aller plus loin : 4 extensions qui font la différence
1. Rappel automatique des appels manqués
Même avec un agent vocal, certains appelants raccrochent avant la connexion (réseau, impatience). Configurez dans n8n un workflow déclenché sur "call ended without conversation" qui envoie un SMS : "Vous avez essayé de nous joindre. Souhaitez-vous qu'on vous rappelle ? Répondez OUI."
2. Qualification CRM automatique
Ajoutez un nœud n8n après chaque appel qui envoie un résumé structuré (nom, besoin, budget évoqué, urgence) vers votre CRM — HubSpot, Pipedrive, ou même un simple Google Sheet. L'agent extrait ces infos de la conversation sans les demander frontalement.
3. FAQ dynamique depuis une base de connaissances
Plutôt que de tout mettre dans le prompt (qui a une limite), connectez un outil RAG via n8n : l'agent interroge une base Notion ou Airtable contenant vos FAQ, tarifs, disponibilités saisonnières. Ça évite de modifier le prompt à chaque changement de tarif.
4. Transfert intelligent avec contexte
Quand l'agent transfère à un humain, il peut envoyer un SMS ou Slack avec le résumé de la conversation AVANT que vous décrochiez. Vous savez déjà qui appelle et pourquoi. J'utilise ça avec un webhook Slack — ça change la vie.
Ce qu'on en pense : verdict après 6 semaines d'usage
Après 6 semaines avec mon agent vocal Vapi + n8n, voici mon bilan honnête :
Ce qui marche exceptionnellement bien :
- La prise de rendez-vous fonctionne dans 85 % des cas sans intervention
- Les clients sont étonnamment positifs ("ah c'est pratique, je pensais pas que ça marcherait aussi bien")
- Le coût est dérisoire comparé à la valeur des appels récupérés
- La latence est quasi imperceptible avec GPT-4o-mini + ElevenLabs Flash
Ce qui reste perfectible :
- Les accents régionaux forts posent encore problème à la transcription (provençal marqué, ch'ti)
- Les conversations à plus de 5 tours deviennent parfois confuses — le modèle perd le fil
- Les appels où l'interlocuteur est mécontent/agressif sont mal gérés (il faut un transfert humain rapide)
- Le setup initial prend 3h si tout va bien — comptez une journée si vous n'avez jamais touché à n8n
Le conseil que je donnerais : commencez par un cas d'usage unique (la prise de RDV), faites tourner 2 semaines, puis élargissez. Ne tentez pas de remplacer 100 % de votre accueil téléphonique d'emblée — l'agent est excellent pour les demandes structurées, médiocre pour les situations émotionnelles ou conflictuelles.
Questions qu'on continue de se poser
Le domaine évolue tellement vite que certaines questions n'ont pas encore de réponse définitive :
- La voix clonée : peut-on légalement utiliser une voix clonée (la sienne) pour l'agent ? Le cadre juridique est flou en Europe. ElevenLabs le permet techniquement, mais la CNIL n'a pas statué.
- Le multilingual auto-switch : Vapi ne supporte pas encore un switch dynamique FR/EN/ES dans la même conversation avec la même voix TTS. Si votre clientèle est multilingue, il faut des assistants séparés par langue.
- La scalabilité : le plan gratuit Vapi limite à 10 appels simultanés. Pour un restaurant avec un rush de 18h-20h, est-ce suffisant ? Probablement pas — le plan Scale sera nécessaire.