Agent vocal IA : prix affiché vs prix réel sur 5 plateformes
Vapi, Retell, ElevenLabs, Synthflow, Telnyx : on a décomposé chaque facture, critère par critère
Un cabinet médical lyonnais de quatre praticiens recevait 120 appels par jour. Plus de la moitié tombaient dans le vide — messagerie saturée, secrétariat débordé, patients qui rappelaient trois fois avant d'obtenir un créneau. En février 2026, ce cabinet a branché un agent vocal IA sur sa ligne. Résultat : zéro appel manqué, 72 % des demandes traitées sans intervention humaine, 15 rendez-vous supplémentaires captés chaque semaine en dehors des horaires d'ouverture. Coût mensuel : 800 €. Retour documenté par Nerolia.
Ce cas n'est pas un accident. Le marché des agents vocaux IA a franchi les 22 milliards de dollars en 2026, selon les dernières compilations sectorielles. Gartner anticipe 80 milliards de dollars d'économies cumulées dans les centres de contact grâce à l'IA conversationnelle. 78 % des 50 premières banques mondiales ont déjà déployé un agent vocal en production — contre 34 % en 2024.
Mais entre la promesse marketing (« 0,05 €/min ») et la facture réelle, il y a un gouffre. On a épluché cinq plateformes — Vapi, Retell AI, ElevenLabs, Synthflow et Telnyx — pour établir ce que coûte réellement un agent vocal IA quand on additionne toutes les briques. Avec un objectif : permettre à un dirigeant de PME de choisir en connaissance de cause, sans découvrir la vraie facture après trois mois d'engagement.
0,05 €/min : anatomie d'un prix en trompe-l'œil
Quand Vapi affiche « à partir de 0,05 $/min » sur sa page pricing, c'est techniquement vrai. Ce tarif couvre l'orchestration — la couche logicielle qui coordonne la reconnaissance vocale (STT), le modèle de langage (LLM) et la synthèse vocale (TTS). Sauf que l'orchestration seule ne produit aucun son. Pour qu'un appelant entende une voix et obtienne une réponse, il faut empiler quatre à cinq composants facturés séparément.
Voici la décomposition type d'un appel de 3 minutes sur une plateforme modulaire :
| Composant | Fournisseur exemple | Coût / minute | Coût sur 3 min |
|---|---|---|---|
| Orchestration | Vapi | 0,05 $ | 0,15 $ |
| STT (reconnaissance vocale) | Deepgram Nova-3 | 0,006–0,015 $ | 0,02–0,05 $ |
| LLM (intelligence) | Claude Haiku 4.5 | 0,03–0,05 $ | 0,09–0,15 $ |
| TTS (synthèse vocale) | ElevenLabs | 0,08–0,12 $ | 0,24–0,36 $ |
| Téléphonie (PSTN/SIP) | Twilio | 0,02–0,04 $ | 0,06–0,12 $ |
| Total réel | 0,19–0,28 $ | 0,56–0,83 $ |
L'analyse de Softcery confirme ces ordres de grandeur : un appel de 3 minutes sur Vapi avec Claude Haiku et ElevenLabs revient à 0,50–0,75 $. Avec un modèle premium (Claude Sonnet 4.6 ou GPT-5.4), on dépasse facilement le dollar par appel.
Le piège n'est pas propre à Vapi. Retell AI affiche 0,07 $/min en base — mais les coûts LLM, TTS et téléphonie s'ajoutent séparément. Synthflow démarre à 0,09 $/min pour le moteur vocal, puis 0,02 à 0,05 $ pour le LLM, 0,02 $ pour la téléphonie. Et l'obligation de fournir ses propres clés API (BYOK) ajoute une couche de complexité — et de coûts — que les pages pricing ne mentionnent jamais en gros.
Seul Telnyx joue franc jeu : 0,08 $/min tout compris (STT + TTS + LLM open source + téléphonie). On verra pourquoi c'est possible — et quelles concessions cela implique.
Combien coûte un agent vocal IA par minute en conditions réelles
Pour comparer ce qui est comparable, on a reconstitué le coût d'un appel standard de 3 minutes — accueil, qualification, prise de rendez-vous — sur chaque plateforme, avec des composants équivalents (STT Deepgram, LLM milieu de gamme, TTS de qualité). Les tarifs sont convertis en euros au taux courant.
| Plateforme | Prix affiché / min | Prix réel / min (estimé) | Coût appel 3 min | Modèle de facturation |
|---|---|---|---|---|
| Telnyx | 0,08 $ | 0,08–0,09 $ | 0,24–0,27 $ | Tout compris (bundle telco + IA) |
| Retell AI | 0,07 $ | 0,11–0,15 $ | 0,33–0,45 $ | Composants séparés |
| Bland AI | 0,09 $ | 0,09–0,14 $ | 0,27–0,42 $ | Quasi tout compris + add-ons |
| Synthflow | 0,09 $ | 0,15–0,24 $ | 0,45–0,72 $ | BYOK : moteur + LLM + téléphonie |
| Vapi | 0,05 $ | 0,17–0,25 $ | 0,50–0,75 $ | Orchestration + tous providers séparés |
| ElevenLabs | 0,08 $ | 0,08–0,12 $ | 0,24–0,36 $ | Minutes incluses dans l'abonnement |
Sources : pages pricing officielles de chaque plateforme (Vapi, Retell, ElevenLabs, Telnyx), croisées avec les benchmarks de Softcery et PxlPeak.
Deux constats frappants. D'abord, le ratio entre prix affiché et prix réel va de 1 (Telnyx) à 5 (Vapi avec modèles premium). Ensuite, ElevenLabs fonctionne différemment : les minutes conversationnelles sont incluses dans les forfaits mensuels (250 min sur Creator à 22 $/mois, 1 100 min sur Pro à 99 $/mois). Pour une PME qui traite moins de 1 000 minutes par mois, c'est souvent le calcul le plus avantageux — à condition que la téléphonie soit gérée par ailleurs.
Vapi : l'orchestrateur modulaire pour équipes techniques
Vapi se positionne comme le hub central qui connecte 14 fournisseurs de STT, TTS et LLM à travers une seule API. La promesse : choisir le meilleur moteur pour chaque brique, sans vendor lock-in. L'exécution : 300 millions d'appels traités, 2,5 millions d'assistants créés, un SLA de 99,99 %.
La force de Vapi, c'est la flexibilité. On peut brancher Deepgram pour la reconnaissance vocale, Claude Sonnet pour le raisonnement, ElevenLabs pour la voix — et changer n'importe quelle brique sans toucher au reste. Pour une startup IA qui construit un produit vocal sur mesure, c'est l'outil de référence.
Le revers : cette modularité a un prix. L'orchestration seule coûte 0,05 $/min, mais chaque provider ajoute sa ligne. CloudTalk estime le budget annuel entreprise entre 40 000 et 70 000 $. La conformité HIPAA ? 2 000 $/mois en supplément (le Zero Data Retention est à 1 000 $/mois). Et les 60 minutes gratuites offertes à l'inscription ne suffisent même pas à valider un POC sérieux.
Pour qui : équipes dev de 5+ personnes qui veulent contrôler chaque composant. Pas pour : un patron de PME qui veut « brancher un standard IA et ne plus y penser ».
Retell AI : la conformité comme argument de vente
Retell AI cible les secteurs où la moindre fuite de données peut coûter des millions : santé, assurance, services financiers. La plateforme affiche SOC 2 Type I et II, HIPAA avec BAA self-service, et RGPD. L'accord de traitement de données est disponible en libre-service — pas besoin de négocier avec un commercial pendant trois semaines.
Côté produit, Retell propose un éditeur de flux conversationnels visuels avec branchement conditionnel, des règles d'escalade avec transfert « chaud » (l'humain reçoit le contexte complet de la conversation), et un monitoring en temps réel. L'intégration CRM est native avec Salesforce, HubSpot et Zoho.
Le pricing démarre à 0,07 $/min pour le moteur vocal, mais les composants s'empilent : LLM, TTS et téléphonie sont facturés séparément. En production, le coût réel se situe entre 0,13 et 0,31 $/min selon les modèles choisis. Le tier Enterprise à 8 000 $/mois inclut un onboarding dédié et un setup managé — pertinent pour des déploiements de plus de 10 000 minutes mensuelles.
Retell traite 30 millions d'appels par mois pour 3 000+ entreprises. La latence mesurée tourne autour de 580–620 ms bout en bout — correct pour de l'inbound, un poil lent pour du conversationnel fluide.
Pour qui : PME/ETI en santé, assurance, finance. Pas pour : qui cherche le prix le plus bas ou la voix la plus naturelle.
ElevenLabs Conversational AI 2.0 : la voix qui fait oublier la machine
ElevenLabs a levé 500 millions de dollars en février 2026 pour une valorisation de 11 milliards. La raison : personne ne fait mieux sur la qualité vocale. 11 000 voix pré-entraînées, clonage vocal à partir de 30 secondes d'échantillon, prosodie émotionnelle, respirations naturelles, détection automatique de la langue dans 70+ langues. La latence TTS descend sous les 100 ms — un record dans l'industrie.
Avec Conversational AI 2.0, lancé fin 2025, ElevenLabs ne se contente plus de fournir la voix : la plateforme gère désormais l'orchestration complète (STT + LLM + TTS), le turn-taking naturel, les appels en batch et la conformité HIPAA. Le partenariat avec IBM watsonx (mars 2026) ouvre le canal des centres de contact enterprise.
Le modèle économique est plus lisible que celui de Vapi : les minutes conversationnelles sont incluses dans les forfaits. Le plan Pro à 99 $/mois offre 1 100 minutes, le Scale à 299 $/mois en offre 3 600. Les dépassements coûtent entre 0,096 et 0,12 $/min. Pour une PME qui gère 40 appels par jour de 2 minutes en moyenne, le plan Pro suffit largement — et revient à moins de 0,09 $/min.
Limite majeure : ElevenLabs n'est pas un opérateur télécom. Pour recevoir des appels sur un numéro fixe français, il faut coupler la plateforme à un trunk SIP (Twilio, Telnyx, OVH Telecom) — ce qui ajoute 0,02 à 0,04 $/min et de la complexité technique.
Pour qui : marques où la qualité vocale est stratégique (luxe, médical, accueil premium). Pas pour : qui veut une solution clé en main avec numéro de téléphone inclus.
Synthflow : le no-code qui promet un agent vocal en une heure
Synthflow est le seul acteur de ce comparatif à proposer un éditeur visuel drag-and-drop pour construire un agent vocal sans écrire une ligne de code. Blocs conditionnels, webhooks, intégration Zapier et Google Sheets, 200+ CRM via connecteurs natifs. La plateforme revendique 65 millions d'appels mensuels dans 30+ pays.
Le pricing de Synthflow a évolué en 2026 vers un modèle pay-as-you-go : 0,09 $/min pour le moteur vocal, plus 0,02–0,05 $/min pour le LLM et 0,02 $/min pour la téléphonie. Mais attention : Synthflow fonctionne en BYOK (Bring Your Own Keys). Chaque fournisseur externe (ElevenLabs pour la voix, OpenAI pour le LLM, Deepgram pour le STT) est facturé sur votre propre compte. Sur le plan pay-as-you-go (modèle officiel : pas de plan « Pro » fixe, seul un Enterprise sur devis avec minimum 10 000 min/mois existe), les frais providers additionnels ajoutent 140 à 320 $/mois. La facture réelle : 515 à 695 $/mois, pas 375 $.
Autre particularité : Synthflow ne facture pas les appels échoués (contrairement à Bland qui prélève 0,015 $ minimum par tentative d'appel sortant ratée). Pour des campagnes d'appels sortants avec un taux de réponse bas, c'est un avantage mesurable.
La plateforme est certifiée SOC 2, RGPD et ISO 27001 — un bon point pour les PME européennes. Mais l'absence de maîtrise sur les providers sous-jacents pose une question de souveraineté des données qu'il faudra résoudre au cas par cas.
Pour qui : agences marketing, PME sans développeur qui veulent un agent vocal opérationnel vite. Pas pour : équipes qui veulent un contrôle fin sur chaque composant ou un budget serré (les coûts cachés s'accumulent).
Telnyx Voice AI : quand l'opérateur télécom fait aussi l'IA
Telnyx est un cas à part dans ce comparatif. C'est un opérateur télécom licencié dans 30+ marchés, avec une infrastructure PSTN propre dans 100+ pays. Quand Telnyx propose un agent vocal IA à 0,08 $/min tout compris, ce n'est pas un tour de passe-passe : le STT, le TTS, le LLM open source et la téléphonie sont bundlés parce que Telnyx contrôle toute la chaîne.
La latence annoncée est inférieure à 200 ms — cohérente avec l'avantage d'héberger l'IA et la téléphonie sur le même réseau, sans aller-retour entre providers tiers. L'éditeur no-code permet de créer un agent, de lui assigner un numéro de téléphone et de le mettre en production en quelques heures. Support 24/7, customer success manager dédié, 40+ langues.
Mais la contrepartie existe. Le LLM inclus est un modèle open source (pas GPT-5, pas Claude) — suffisant pour de la qualification d'appels ou de la prise de rendez-vous, moins performant sur des conversations complexes nécessitant du raisonnement avancé. La personnalisation vocale est plus limitée qu'avec ElevenLabs. Et l'écosystème d'intégrations est moins riche que celui de Vapi ou Retell.
Pour une PME française qui veut un standard téléphonique IA fonctionnel à moindre coût, Telnyx offre le meilleur ratio prix/valeur du marché. Un appel de 3 minutes revient à 0,24 $ — quatre fois moins que le même appel sur Vapi avec des composants premium.
Pour qui : PME qui veulent un agent vocal basique, fiable et pas cher. Pas pour : qui a besoin d'une voix ultra-naturelle ou d'un LLM frontier.
Latence, langues, conformité : le tableau comparatif des 14 critères
Ce tableau synthétise les spécifications vérifiées de chaque plateforme. Les données proviennent des documentations officielles et des benchmarks indépendants de Softcery (avril 2026).
| Critère | Vapi | Retell AI | ElevenLabs | Synthflow | Telnyx |
|---|---|---|---|---|---|
| Prix min. affiché (/min) | 0,05 $ | 0,07 $ | 0,08 $ | 0,09 $ | 0,08 $ |
| Prix réel estimé (/min) | 0,17–0,25 $ | 0,11–0,15 $ | 0,08–0,12 $ | 0,15–0,24 $ | 0,08–0,09 $ |
| Latence bout en bout | 500–800 ms | 300–620 ms | < 100 ms (TTS) | Variable (dépend providers) | < 200 ms |
| Langues | 100+ | 30+ | 70+ | 30+ | 40+ |
| LLM supportés | GPT-5.4, Claude 4.6, Gemini 3, Grok 4, Mistral, DeepSeek | GPT-5.4, Claude 4.6, Gemini 3, BYO-LLM | Propriétaire + intégrations | GPT-4.1 mini, GPT-5.x | Open source bundlé |
| Flexibilité providers | 14+ providers STT/TTS | Deepgram, ElevenLabs, Whisper | Stack propriétaire | BYOK (ElevenLabs, Google, clonage) | Stack intégré |
| No-code | Non | Éditeur visuel de flux | Dashboard basique | Oui (drag-and-drop complet) | Oui (éditeur + numéro inclus) |
| Téléphonie intégrée | Via Twilio/Vonage | Via providers tiers | Non (SIP externe requis) | Incluse ou BYOT | Native (opérateur licencié) |
| SOC 2 | Type II | Type I & II | Oui | Oui | Oui |
| HIPAA | Oui (+1 000 $/mois) | Oui (inclus) | Oui | Non mentionné | Non mentionné |
| RGPD | Oui | Oui (DPA self-service) | Oui | Oui | Oui |
| Appels sortants (batch) | Oui | Oui (CLI spoofing, retries) | Oui (batch calling) | Oui | Oui |
| Intégrations CRM | Webhooks, API | Salesforce, HubSpot, Zoho natifs | API + webhooks | Zapier, Google Sheets, 200+ CRM | API, webhooks |
| Concurrence max incluse | Selon tier acheté | 20 appels simultanés (gratuit) | Selon plan | 5 (+ 20 $/mois par appel additionnel) | Selon plan |
Trois observations sautent aux yeux. Premièrement, seul Telnyx combine téléphonie native et IA dans un bundle — tous les autres nécessitent au minimum un provider télécom tiers. Deuxièmement, la conformité HIPAA gratuite chez Retell est un avantage décisif pour les professionnels de santé (Vapi facture 12 000 $/an de plus pour la même conformité). Troisièmement, le nombre de langues supportées varie du simple au triple — un critère déterminant pour les PME exportatrices.
Agent vocal IA et RGPD : ce que la loi française impose
Déployer un agent vocal IA en France ne se résume pas à choisir une plateforme et brancher un numéro. Le cadre légal impose quatre obligations concrètes que beaucoup de PME découvrent après coup.
1. Obligation d'information (loi SREN 2024). L'appelant doit être averti « dès le début de la conversation » qu'il interagit avec un système automatisé. Pas dans les CGU du site web. Pas à la fin de l'appel. Au début. En pratique, cela signifie un message d'accueil explicite : « Bonjour, vous êtes en ligne avec un assistant vocal automatisé. »
2. Consentement pour l'enregistrement. Le RGPD exige un consentement explicite avant toute captation ou transcription d'un appel. La plupart des plateformes permettent de configurer un message de consentement — mais c'est au déployeur de l'activer, pas à la plateforme.
3. Hébergement des données en UE. Les conversations vocales contiennent des données personnelles. Si la plateforme héberge en US sans mécanisme de transfert adéquat (clauses contractuelles types, certification DPF), le RGPD est violé. Parmi les cinq plateformes testées, seule Retell AI propose des options de résidence de données configurables par région.
4. Droit de parler à un humain. L'AI Act européen, renforcé par le paquet Omnibus, impose un droit à l'escalade vers un opérateur humain pour certaines catégories de services (santé, finance, services publics). L'agent vocal doit pouvoir transférer l'appel à tout moment.
La non-conformité au RGPD peut coûter jusqu'à 4 % du chiffre d'affaires annuel. Pour une PME à 2 M€ de CA, c'est 80 000 €. Bien plus que le coût annuel de n'importe quelle plateforme de ce comparatif.
Pour un guide complet sur la conformité IA en PME, voir notre dossier AI Act post-Omnibus : 79 jours pour mettre votre PME en règle.
Trois cas d'usage concrets : cabinet médical, e-commerce, prospection B2B
Cabinet médical : 120 appels/jour, 72 % automatisés
Le cas lyonnais cité en introduction illustre le scénario le plus mature. Un agent vocal IA gère la prise de rendez-vous, les rappels, les demandes de renouvellement d'ordonnance et les questions fréquentes (horaires, accès, documents à apporter). Le taux de résolution autonome de 65 à 80 % pour la prise de rendez-vous est confirmé par les benchmarks de production.
Plateforme recommandée : Retell AI (conformité santé native, BAA self-service) ou Telnyx (prix imbattable si les exigences HIPAA/HDS ne s'appliquent pas).
E-commerce : suivi de commande et retours 24/7
Un e-commerçant qui traite 200 commandes/jour génère en moyenne 30 à 50 appels de suivi (« Où est mon colis ? », « Comment retourner ? », « Mon code promo ne fonctionne pas »). Ces appels niveau 1 ont un taux de résolution IA de 70 à 85 %. À 0,40 $ par appel IA contre 7 à 12 $ par appel humain, l'économie est directe : 90 à 95 % de réduction du coût par interaction.
Plateforme recommandée : Synthflow (intégrations e-commerce no-code, Zapier natif) ou ElevenLabs (voix premium pour les marques qui soignent leur image).
Prospection B2B : appels sortants en volume
Les campagnes d'appels sortants IA restent le terrain de jeu de Bland AI. Gestion de campagnes, détection de messagerie vocale, scripts avec branchement conditionnel, suivi des codes de disposition. Bland gère des volumes de 100 à 10 000 appels sans throttling. Mais la latence mesurée de ~800 ms et la hausse de prix de 55 % en décembre 2025 (de 0,09 à 0,14 $/min sur le plan Start) refroidissent.
Alternative : Retell AI, qui a ajouté des outils de campagne (CLI spoofing, retries, pacing) tout en conservant une latence inférieure à 500 ms.
Notre verdict : la bonne plateforme selon votre profil de PME
Après avoir décortiqué cinq plateformes sur 14 critères, voici notre recommandation sans ambiguïté.
Vous voulez le moins cher, le plus simple, et ça marche : Telnyx. À 0,08 $/min tout compris, c'est la seule plateforme où le prix affiché correspond au prix réel. La latence sub-200 ms est excellente. Le compromis : un LLM open source moins performant que GPT-5 ou Claude sur les conversations complexes. Pour un standard téléphonique de PME (accueil, qualification, prise de RDV), c'est largement suffisant.
Vous êtes dans un secteur régulé (santé, finance, assurance) : Retell AI. La conformité HIPAA incluse sans surcoût, le DPA en self-service, l'éditeur de flux visuels et les intégrations CRM natives en font la plateforme la plus « enterprise-ready » du lot. Budget à prévoir : 150 à 300 $/mois pour 1 000 minutes.
La voix est votre marque : ElevenLabs. Aucune autre plateforme n'approche cette qualité vocale. Le modèle par forfait (Pro à 99 $/mois pour 1 100 min) est prévisible et compétitif. Mais prévoyez un budget technique pour intégrer un trunk SIP.
Pas de développeur, besoin d'un agent vocal demain matin : Synthflow. Le drag-and-drop fonctionne, le déploiement est rapide. Mais surveillez la facture : le BYOK peut doubler le budget annoncé.
Vous construisez un produit vocal sur mesure : Vapi. La flexibilité est inégalée, l'écosystème de providers le plus large du marché. Réservé aux équipes avec un développeur dédié et un budget confortable.
Si vous démarrez et voulez tester un agent vocal IA avec un budget limité, notre tutoriel Vapi + n8n pour monter un standard téléphonique en 3 heures reste le meilleur point d'entrée.
Ce que les plateformes ne disent pas (et qu'on surveille)
Plusieurs zones grises persistent dans ce marché en pleine accélération.
La qualité vocale se dégrade sous charge. Aucune plateforme ne publie de benchmarks de latence à 500+ appels simultanés. Les chiffres de latence cités dans ce comparatif correspondent à des conditions idéales. En pic de trafic, la dégradation est probable — et pas documentée.
Le coût des LLM évolue chaque mois. OpenAI a doublé le prix du token GPT-5.5 en avril 2026. Anthropic a baissé celui de Claude Haiku. Ces variations se répercutent directement sur la facture des plateformes en BYOK — mais le prix de la plateforme elle-même ne bouge pas. Le coût réel est donc une cible mouvante.
L'hébergement souverain reste flou. Aucune des cinq plateformes ne propose nativement un hébergement en France (OVH, Scaleway). Retell offre un choix de région, mais pas de datacenter français. Pour les PME soumises à des exigences strictes de souveraineté (marchés publics, défense, santé), la solution reste le self-hosting via des frameworks open source comme PipeCat (MIT) ou LiveKit (Apache 2.0) — au prix d'une complexité technique significative.
Le ROI réel dépend du taux de résolution, pas du prix par minute. Un agent vocal à 0,08 $/min qui résout 80 % des appels coûte moins cher qu'un agent à 0,05 $/min qui en résout 40 % (parce que les 60 % restants nécessitent une intervention humaine à 7–12 $/appel). Les benchmarks d'IrisAgent montrent un taux de résolution moyen de 45 à 60 % en production — très variable selon la qualité du prompt, la base de connaissances et la complexité des demandes.