Agent vocal IA : prix affiché vs prix réel sur 5 plateformes

Q: Combien coûte un agent vocal IA par mois pour une PME française ?

Le budget mensuel dépend du volume d'appels et de la plateforme. Pour une PME traitant 500 à 1 000 minutes par mois (environ 170 à 330 appels de 3 minutes), comptez entre 80 et 300 € avec Telnyx (tout compris à 0,08 $/min), 150 à 450 € avec Retell AI, ou 99 $ fixes avec ElevenLabs Pro (1 100 minutes incluses). Les solutions françaises clé en main (Nerolia, VOKAI, Sylen) se positionnent entre 300 et 600 €/mois avec accompagnement. N'oubliez pas d'ajouter les frais d'intégration initiale (1 000 à 5 000 €) si vous passez par un intégrateur.

Q: Vapi ou Retell AI : lequel choisir pour un standard téléphonique ?

Pour un standard téléphonique classique (accueil, orientation, prise de rendez-vous), Retell AI est plus adapté. Son éditeur de flux visuels permet de configurer les scénarios sans code, sa conformité est plus complète et ses intégrations CRM sont natives. Vapi se justifie si vous voulez mixer plusieurs providers (par exemple Deepgram pour le STT et ElevenLabs pour la voix) ou si vous construisez un produit vocal sur mesure. Pour un standard simple, Vapi ajoute de la complexité et du coût sans bénéfice proportionnel.

Q: Un agent vocal IA peut-il remplacer un secrétariat téléphonique ?

Partiellement. Les agents vocaux IA résolvent 65 à 80 % des appels de niveau 1 (prise de rendez-vous, informations horaires, suivi de commande). Les tâches nécessitant de l'empathie, du jugement ou une négociation restent mieux gérées par un humain. Le scénario le plus courant en PME : l'agent vocal filtre et traite les demandes simples 24/7, et transfère les appels complexes à un opérateur humain pendant les heures ouvrées. Résultat typique : 40 à 60 % d'économies sur le budget secrétariat, avec zéro appel manqué.

Q: ElevenLabs est-il gratuit pour les agents vocaux ?

ElevenLabs propose un plan gratuit avec 10 000 crédits/mois, soit environ 15 minutes de conversation IA — suffisant pour tester, pas pour produire. Le plan Creator à 22 $/mois inclut 250 minutes de Conversational AI, le Pro à 99 $/mois offre 1 100 minutes. Attention : ElevenLabs ne fournit pas de numéro de téléphone. Il faudra coupler la plateforme à un trunk SIP (Twilio, Telnyx, OVH Telecom) pour recevoir ou passer des appels, ce qui ajoute 0,02 à 0,04 $/min.

Q: Quel agent vocal IA est conforme au RGPD en France ?

Les cinq plateformes de ce comparatif déclarent une conformité RGPD. Retell AI est la plus avancée avec un DPA (Data Processing Agreement) en self-service et un choix de région d'hébergement. Vapi est certifié SOC 2 Type II, HIPAA, PCI DSS et RGPD. Synthflow ajoute ISO 27001. Mais aucune ne propose d'hébergement natif en France. Pour les secteurs exigeant un hébergement souverain (santé avec certification HDS, marchés publics), la seule option actuelle est le self-hosting via des frameworks open source (PipeCat, LiveKit).

Q: Quelle est la latence acceptable pour un agent vocal IA ?

En conversation téléphonique, une latence de 300 à 500 ms bout en bout est perçue comme naturelle — c'est le délai équivalent à un léger temps de réflexion. Au-delà de 800 ms, l'interlocuteur ressent un décalage gênant et commence à parler en même temps que l'IA. Les plateformes testées se situent entre moins de 200 ms (Telnyx, ElevenLabs TTS) et 800 ms (Vapi en configuration standard). En appels sortants (prospection), la tolérance est plus élevée car les pauses paraissent moins artificielles.

Q: Peut-on utiliser ChatGPT comme LLM pour un agent vocal IA ?

Oui. Vapi, Retell AI et Synthflow supportent tous les modèles GPT-5.x d'OpenAI comme moteur de raisonnement. Le coût additionnel varie : GPT-4.1 mini (0,02 $/min) est le plus économique, GPT-5.4 (0,04–0,06 $/min) offre un meilleur raisonnement. Mais [[link:chatgpt|ChatGPT]] n'est pas toujours le meilleur choix pour le vocal : Claude Haiku 4.5 est souvent préféré pour sa rapidité (faible TTFT) et son coût inférieur dans les contextes conversationnels simples.

Q: Comment mesurer le ROI d'un agent vocal IA dans ma PME ?

Quatre métriques suffisent. Premièrement, le taux de résolution autonome : pourcentage d'appels traités sans intervention humaine (cible : 60 %+). Deuxièmement, le coût par appel résolu : divisez la facture mensuelle de la plateforme par le nombre d'appels résolus (cible : moins de 1 € par appel). Troisièmement, les appels captés hors horaires : chaque appel qui aurait été perdu et qui génère un rendez-vous ou une vente. Quatrièmement, le temps libéré pour l'équipe : heures récupérées par la secrétaire ou le service client, réinvesties dans des tâches à plus forte valeur. Le ROI se manifeste typiquement en 2 à 4 mois pour les PME traitant 30+ appels/jour.

Vapi, Retell, ElevenLabs, Synthflow, Telnyx : on a décomposé chaque facture, critère par critère

Par La rédaction Décodeur IA · 19 mai 2026 · 14 min de lecture

Cinq plateformes d'agents vocaux IA comparées sur un écran avec indicateurs de prix et latence

> En bref

Le prix affiché (0,05–0,09 €/min) ne couvre que l'orchestration : le coût réel d'un appel de 3 min oscille entre 0,33 € (Telnyx) et 0,75 € (Vapi avec modèles premium).
Telnyx offre le meilleur rapport qualité-prix pour les PME (0,08 €/min tout compris, latence < 200 ms), mais moins de flexibilité technique.
ElevenLabs domine sur la qualité vocale (11 000+ voix, < 100 ms de latence TTS) mais n'est pas une plateforme téléphonique autonome.
Synthflow est le seul vrai no-code du lot — déploiement en quelques heures — mais les coûts cachés (BYOK) ajoutent 30 à 70 % à la facture.
En France, la loi SREN impose d'avertir l'appelant dès le début qu'il parle à une IA. Hébergement EU et conformité RGPD obligatoires.
ROI typique d'un agent vocal IA en PME : 2 à 4 mois, avec 40 à 60 % d'économies sur le secrétariat téléphonique.

Un cabinet médical lyonnais de quatre praticiens recevait 120 appels par jour. Plus de la moitié tombaient dans le vide — messagerie saturée, secrétariat débordé, patients qui rappelaient trois fois avant d'obtenir un créneau. En février 2026, ce cabinet a branché un agent vocal IA sur sa ligne. Résultat : zéro appel manqué, 72 % des demandes traitées sans intervention humaine, 15 rendez-vous supplémentaires captés chaque semaine en dehors des horaires d'ouverture. Coût mensuel : 800 €. Retour documenté par Nerolia.

Ce cas n'est pas un accident. Le marché des agents vocaux IA a franchi les 22 milliards de dollars en 2026, selon les dernières compilations sectorielles. Gartner anticipe 80 milliards de dollars d'économies cumulées dans les centres de contact grâce à l'IA conversationnelle. 78 % des 50 premières banques mondiales ont déjà déployé un agent vocal en production — contre 34 % en 2024.

Mais entre la promesse marketing (« 0,05 €/min ») et la facture réelle, il y a un gouffre. On a épluché cinq plateformes — Vapi, Retell AI, ElevenLabs, Synthflow et Telnyx — pour établir ce que coûte réellement un agent vocal IA quand on additionne toutes les briques. Avec un objectif : permettre à un dirigeant de PME de choisir en connaissance de cause, sans découvrir la vraie facture après trois mois d'engagement.

0,05 €/min : anatomie d'un prix en trompe-l'œil

Quand Vapi affiche « à partir de 0,05 $/min » sur sa page pricing, c'est techniquement vrai. Ce tarif couvre l'orchestration — la couche logicielle qui coordonne la reconnaissance vocale (STT), le modèle de langage (LLM) et la synthèse vocale (TTS). Sauf que l'orchestration seule ne produit aucun son. Pour qu'un appelant entende une voix et obtienne une réponse, il faut empiler quatre à cinq composants facturés séparément.

Voici la décomposition type d'un appel de 3 minutes sur une plateforme modulaire :

Composant	Fournisseur exemple	Coût / minute	Coût sur 3 min
Orchestration	Vapi	0,05 $	0,15 $
STT (reconnaissance vocale)	Deepgram Nova-3	0,006–0,015 $	0,02–0,05 $
LLM (intelligence)	Claude Haiku 4.5	0,03–0,05 $	0,09–0,15 $
TTS (synthèse vocale)	ElevenLabs	0,08–0,12 $	0,24–0,36 $
Téléphonie (PSTN/SIP)	Twilio	0,02–0,04 $	0,06–0,12 $
Total réel		0,19–0,28 $	0,56–0,83 $

L'analyse de Softcery confirme ces ordres de grandeur : un appel de 3 minutes sur Vapi avec Claude Haiku et ElevenLabs revient à 0,50–0,75 $. Avec un modèle premium (Claude Sonnet 4.6 ou GPT-5.4), on dépasse facilement le dollar par appel.

Le piège n'est pas propre à Vapi. Retell AI affiche 0,07 $/min en base — mais les coûts LLM, TTS et téléphonie s'ajoutent séparément. Synthflow démarre à 0,09 $/min pour le moteur vocal, puis 0,02 à 0,05 $ pour le LLM, 0,02 $ pour la téléphonie. Et l'obligation de fournir ses propres clés API (BYOK) ajoute une couche de complexité — et de coûts — que les pages pricing ne mentionnent jamais en gros.

Seul Telnyx joue franc jeu : 0,08 $/min tout compris (STT + TTS + LLM open source + téléphonie). On verra pourquoi c'est possible — et quelles concessions cela implique.

Combien coûte un agent vocal IA par minute en conditions réelles

Pour comparer ce qui est comparable, on a reconstitué le coût d'un appel standard de 3 minutes — accueil, qualification, prise de rendez-vous — sur chaque plateforme, avec des composants équivalents (STT Deepgram, LLM milieu de gamme, TTS de qualité). Les tarifs sont convertis en euros au taux courant.

Plateforme	Prix affiché / min	Prix réel / min (estimé)	Coût appel 3 min	Modèle de facturation
Telnyx	0,08 $	0,08–0,09 $	0,24–0,27 $	Tout compris (bundle telco + IA)
Retell AI	0,07 $	0,11–0,15 $	0,33–0,45 $	Composants séparés
Bland AI	0,09 $	0,09–0,14 $	0,27–0,42 $	Quasi tout compris + add-ons
Synthflow	0,09 $	0,15–0,24 $	0,45–0,72 $	BYOK : moteur + LLM + téléphonie
Vapi	0,05 $	0,17–0,25 $	0,50–0,75 $	Orchestration + tous providers séparés
ElevenLabs	0,08 $	0,08–0,12 $	0,24–0,36 $	Minutes incluses dans l'abonnement

Sources : pages pricing officielles de chaque plateforme (Vapi, Retell, ElevenLabs, Telnyx), croisées avec les benchmarks de Softcery et PxlPeak.

Deux constats frappants. D'abord, le ratio entre prix affiché et prix réel va de 1 (Telnyx) à 5 (Vapi avec modèles premium). Ensuite, ElevenLabs fonctionne différemment : les minutes conversationnelles sont incluses dans les forfaits mensuels (250 min sur Creator à 22 $/mois, 1 100 min sur Pro à 99 $/mois). Pour une PME qui traite moins de 1 000 minutes par mois, c'est souvent le calcul le plus avantageux — à condition que la téléphonie soit gérée par ailleurs.

Vapi : l'orchestrateur modulaire pour équipes techniques

Vapi se positionne comme le hub central qui connecte 14 fournisseurs de STT, TTS et LLM à travers une seule API. La promesse : choisir le meilleur moteur pour chaque brique, sans vendor lock-in. L'exécution : 300 millions d'appels traités, 2,5 millions d'assistants créés, un SLA de 99,99 %.

La force de Vapi, c'est la flexibilité. On peut brancher Deepgram pour la reconnaissance vocale, Claude Sonnet pour le raisonnement, ElevenLabs pour la voix — et changer n'importe quelle brique sans toucher au reste. Pour une startup IA qui construit un produit vocal sur mesure, c'est l'outil de référence.

Le revers : cette modularité a un prix. L'orchestration seule coûte 0,05 $/min, mais chaque provider ajoute sa ligne. CloudTalk estime le budget annuel entreprise entre 40 000 et 70 000 $. La conformité HIPAA ? 2 000 $/mois en supplément (le Zero Data Retention est à 1 000 $/mois). Et les 60 minutes gratuites offertes à l'inscription ne suffisent même pas à valider un POC sérieux.

Pour qui : équipes dev de 5+ personnes qui veulent contrôler chaque composant. Pas pour : un patron de PME qui veut « brancher un standard IA et ne plus y penser ».

Retell AI : la conformité comme argument de vente

Retell AI cible les secteurs où la moindre fuite de données peut coûter des millions : santé, assurance, services financiers. La plateforme affiche SOC 2 Type I et II, HIPAA avec BAA self-service, et RGPD. L'accord de traitement de données est disponible en libre-service — pas besoin de négocier avec un commercial pendant trois semaines.

Côté produit, Retell propose un éditeur de flux conversationnels visuels avec branchement conditionnel, des règles d'escalade avec transfert « chaud » (l'humain reçoit le contexte complet de la conversation), et un monitoring en temps réel. L'intégration CRM est native avec Salesforce, HubSpot et Zoho.

Le pricing démarre à 0,07 $/min pour le moteur vocal, mais les composants s'empilent : LLM, TTS et téléphonie sont facturés séparément. En production, le coût réel se situe entre 0,13 et 0,31 $/min selon les modèles choisis. Le tier Enterprise à 8 000 $/mois inclut un onboarding dédié et un setup managé — pertinent pour des déploiements de plus de 10 000 minutes mensuelles.

Retell traite 30 millions d'appels par mois pour 3 000+ entreprises. La latence mesurée tourne autour de 580–620 ms bout en bout — correct pour de l'inbound, un poil lent pour du conversationnel fluide.

Pour qui : PME/ETI en santé, assurance, finance. Pas pour : qui cherche le prix le plus bas ou la voix la plus naturelle.

ElevenLabs Conversational AI 2.0 : la voix qui fait oublier la machine

ElevenLabs a levé 500 millions de dollars en février 2026 pour une valorisation de 11 milliards. La raison : personne ne fait mieux sur la qualité vocale. 11 000 voix pré-entraînées, clonage vocal à partir de 30 secondes d'échantillon, prosodie émotionnelle, respirations naturelles, détection automatique de la langue dans 70+ langues. La latence TTS descend sous les 100 ms — un record dans l'industrie.

Avec Conversational AI 2.0, lancé fin 2025, ElevenLabs ne se contente plus de fournir la voix : la plateforme gère désormais l'orchestration complète (STT + LLM + TTS), le turn-taking naturel, les appels en batch et la conformité HIPAA. Le partenariat avec IBM watsonx (mars 2026) ouvre le canal des centres de contact enterprise.

Le modèle économique est plus lisible que celui de Vapi : les minutes conversationnelles sont incluses dans les forfaits. Le plan Pro à 99 $/mois offre 1 100 minutes, le Scale à 299 $/mois en offre 3 600. Les dépassements coûtent entre 0,096 et 0,12 $/min. Pour une PME qui gère 40 appels par jour de 2 minutes en moyenne, le plan Pro suffit largement — et revient à moins de 0,09 $/min.

Limite majeure : ElevenLabs n'est pas un opérateur télécom. Pour recevoir des appels sur un numéro fixe français, il faut coupler la plateforme à un trunk SIP (Twilio, Telnyx, OVH Telecom) — ce qui ajoute 0,02 à 0,04 $/min et de la complexité technique.

Pour qui : marques où la qualité vocale est stratégique (luxe, médical, accueil premium). Pas pour : qui veut une solution clé en main avec numéro de téléphone inclus.

Synthflow : le no-code qui promet un agent vocal en une heure

Synthflow est le seul acteur de ce comparatif à proposer un éditeur visuel drag-and-drop pour construire un agent vocal sans écrire une ligne de code. Blocs conditionnels, webhooks, intégration Zapier et Google Sheets, 200+ CRM via connecteurs natifs. La plateforme revendique 65 millions d'appels mensuels dans 30+ pays.

Le pricing de Synthflow a évolué en 2026 vers un modèle pay-as-you-go : 0,09 $/min pour le moteur vocal, plus 0,02–0,05 $/min pour le LLM et 0,02 $/min pour la téléphonie. Mais attention : Synthflow fonctionne en BYOK (Bring Your Own Keys). Chaque fournisseur externe (ElevenLabs pour la voix, OpenAI pour le LLM, Deepgram pour le STT) est facturé sur votre propre compte. Sur le plan pay-as-you-go (modèle officiel : pas de plan « Pro » fixe, seul un Enterprise sur devis avec minimum 10 000 min/mois existe), les frais providers additionnels ajoutent 140 à 320 $/mois. La facture réelle : 515 à 695 $/mois, pas 375 $.

Autre particularité : Synthflow ne facture pas les appels échoués (contrairement à Bland qui prélève 0,015 $ minimum par tentative d'appel sortant ratée). Pour des campagnes d'appels sortants avec un taux de réponse bas, c'est un avantage mesurable.

La plateforme est certifiée SOC 2, RGPD et ISO 27001 — un bon point pour les PME européennes. Mais l'absence de maîtrise sur les providers sous-jacents pose une question de souveraineté des données qu'il faudra résoudre au cas par cas.

Pour qui : agences marketing, PME sans développeur qui veulent un agent vocal opérationnel vite. Pas pour : équipes qui veulent un contrôle fin sur chaque composant ou un budget serré (les coûts cachés s'accumulent).

Telnyx Voice AI : quand l'opérateur télécom fait aussi l'IA

Telnyx est un cas à part dans ce comparatif. C'est un opérateur télécom licencié dans 30+ marchés, avec une infrastructure PSTN propre dans 100+ pays. Quand Telnyx propose un agent vocal IA à 0,08 $/min tout compris, ce n'est pas un tour de passe-passe : le STT, le TTS, le LLM open source et la téléphonie sont bundlés parce que Telnyx contrôle toute la chaîne.

La latence annoncée est inférieure à 200 ms — cohérente avec l'avantage d'héberger l'IA et la téléphonie sur le même réseau, sans aller-retour entre providers tiers. L'éditeur no-code permet de créer un agent, de lui assigner un numéro de téléphone et de le mettre en production en quelques heures. Support 24/7, customer success manager dédié, 40+ langues.

Mais la contrepartie existe. Le LLM inclus est un modèle open source (pas GPT-5, pas Claude) — suffisant pour de la qualification d'appels ou de la prise de rendez-vous, moins performant sur des conversations complexes nécessitant du raisonnement avancé. La personnalisation vocale est plus limitée qu'avec ElevenLabs. Et l'écosystème d'intégrations est moins riche que celui de Vapi ou Retell.

Pour une PME française qui veut un standard téléphonique IA fonctionnel à moindre coût, Telnyx offre le meilleur ratio prix/valeur du marché. Un appel de 3 minutes revient à 0,24 $ — quatre fois moins que le même appel sur Vapi avec des composants premium.

Pour qui : PME qui veulent un agent vocal basique, fiable et pas cher. Pas pour : qui a besoin d'une voix ultra-naturelle ou d'un LLM frontier.

Latence, langues, conformité : le tableau comparatif des 14 critères

Ce tableau synthétise les spécifications vérifiées de chaque plateforme. Les données proviennent des documentations officielles et des benchmarks indépendants de Softcery (avril 2026).

Critère	Vapi	Retell AI	ElevenLabs	Synthflow	Telnyx
Prix min. affiché (/min)	0,05 $	0,07 $	0,08 $	0,09 $	0,08 $
Prix réel estimé (/min)	0,17–0,25 $	0,11–0,15 $	0,08–0,12 $	0,15–0,24 $	0,08–0,09 $
Latence bout en bout	500–800 ms	300–620 ms	< 100 ms (TTS)	Variable (dépend providers)	< 200 ms
Langues	100+	30+	70+	30+	40+
LLM supportés	GPT-5.4, Claude 4.6, Gemini 3, Grok 4, Mistral, DeepSeek	GPT-5.4, Claude 4.6, Gemini 3, BYO-LLM	Propriétaire + intégrations	GPT-4.1 mini, GPT-5.x	Open source bundlé
Flexibilité providers	14+ providers STT/TTS	Deepgram, ElevenLabs, Whisper	Stack propriétaire	BYOK (ElevenLabs, Google, clonage)	Stack intégré
No-code	Non	Éditeur visuel de flux	Dashboard basique	Oui (drag-and-drop complet)	Oui (éditeur + numéro inclus)
Téléphonie intégrée	Via Twilio/Vonage	Via providers tiers	Non (SIP externe requis)	Incluse ou BYOT	Native (opérateur licencié)
SOC 2	Type II	Type I & II	Oui	Oui	Oui
HIPAA	Oui (+1 000 $/mois)	Oui (inclus)	Oui	Non mentionné	Non mentionné
RGPD	Oui	Oui (DPA self-service)	Oui	Oui	Oui
Appels sortants (batch)	Oui	Oui (CLI spoofing, retries)	Oui (batch calling)	Oui	Oui
Intégrations CRM	Webhooks, API	Salesforce, HubSpot, Zoho natifs	API + webhooks	Zapier, Google Sheets, 200+ CRM	API, webhooks
Concurrence max incluse	Selon tier acheté	20 appels simultanés (gratuit)	Selon plan	5 (+ 20 $/mois par appel additionnel)	Selon plan

Trois observations sautent aux yeux. Premièrement, seul Telnyx combine téléphonie native et IA dans un bundle — tous les autres nécessitent au minimum un provider télécom tiers. Deuxièmement, la conformité HIPAA gratuite chez Retell est un avantage décisif pour les professionnels de santé (Vapi facture 12 000 $/an de plus pour la même conformité). Troisièmement, le nombre de langues supportées varie du simple au triple — un critère déterminant pour les PME exportatrices.

Agent vocal IA et RGPD : ce que la loi française impose

Déployer un agent vocal IA en France ne se résume pas à choisir une plateforme et brancher un numéro. Le cadre légal impose quatre obligations concrètes que beaucoup de PME découvrent après coup.

1. Obligation d'information (loi SREN 2024). L'appelant doit être averti « dès le début de la conversation » qu'il interagit avec un système automatisé. Pas dans les CGU du site web. Pas à la fin de l'appel. Au début. En pratique, cela signifie un message d'accueil explicite : « Bonjour, vous êtes en ligne avec un assistant vocal automatisé. »

2. Consentement pour l'enregistrement. Le RGPD exige un consentement explicite avant toute captation ou transcription d'un appel. La plupart des plateformes permettent de configurer un message de consentement — mais c'est au déployeur de l'activer, pas à la plateforme.

3. Hébergement des données en UE. Les conversations vocales contiennent des données personnelles. Si la plateforme héberge en US sans mécanisme de transfert adéquat (clauses contractuelles types, certification DPF), le RGPD est violé. Parmi les cinq plateformes testées, seule Retell AI propose des options de résidence de données configurables par région.

4. Droit de parler à un humain. L'AI Act européen, renforcé par le paquet Omnibus, impose un droit à l'escalade vers un opérateur humain pour certaines catégories de services (santé, finance, services publics). L'agent vocal doit pouvoir transférer l'appel à tout moment.

La non-conformité au RGPD peut coûter jusqu'à 4 % du chiffre d'affaires annuel. Pour une PME à 2 M€ de CA, c'est 80 000 €. Bien plus que le coût annuel de n'importe quelle plateforme de ce comparatif.

Pour un guide complet sur la conformité IA en PME, voir notre dossier AI Act post-Omnibus : 79 jours pour mettre votre PME en règle.

Trois cas d'usage concrets : cabinet médical, e-commerce, prospection B2B

Cabinet médical : 120 appels/jour, 72 % automatisés

Le cas lyonnais cité en introduction illustre le scénario le plus mature. Un agent vocal IA gère la prise de rendez-vous, les rappels, les demandes de renouvellement d'ordonnance et les questions fréquentes (horaires, accès, documents à apporter). Le taux de résolution autonome de 65 à 80 % pour la prise de rendez-vous est confirmé par les benchmarks de production.

Plateforme recommandée : Retell AI (conformité santé native, BAA self-service) ou Telnyx (prix imbattable si les exigences HIPAA/HDS ne s'appliquent pas).

E-commerce : suivi de commande et retours 24/7

Un e-commerçant qui traite 200 commandes/jour génère en moyenne 30 à 50 appels de suivi (« Où est mon colis ? », « Comment retourner ? », « Mon code promo ne fonctionne pas »). Ces appels niveau 1 ont un taux de résolution IA de 70 à 85 %. À 0,40 $ par appel IA contre 7 à 12 $ par appel humain, l'économie est directe : 90 à 95 % de réduction du coût par interaction.

Plateforme recommandée : Synthflow (intégrations e-commerce no-code, Zapier natif) ou ElevenLabs (voix premium pour les marques qui soignent leur image).

Prospection B2B : appels sortants en volume

Les campagnes d'appels sortants IA restent le terrain de jeu de Bland AI. Gestion de campagnes, détection de messagerie vocale, scripts avec branchement conditionnel, suivi des codes de disposition. Bland gère des volumes de 100 à 10 000 appels sans throttling. Mais la latence mesurée de ~800 ms et la hausse de prix de 55 % en décembre 2025 (de 0,09 à 0,14 $/min sur le plan Start) refroidissent.

Alternative : Retell AI, qui a ajouté des outils de campagne (CLI spoofing, retries, pacing) tout en conservant une latence inférieure à 500 ms.

Notre verdict : la bonne plateforme selon votre profil de PME

Après avoir décortiqué cinq plateformes sur 14 critères, voici notre recommandation sans ambiguïté.

Vous voulez le moins cher, le plus simple, et ça marche : Telnyx. À 0,08 $/min tout compris, c'est la seule plateforme où le prix affiché correspond au prix réel. La latence sub-200 ms est excellente. Le compromis : un LLM open source moins performant que GPT-5 ou Claude sur les conversations complexes. Pour un standard téléphonique de PME (accueil, qualification, prise de RDV), c'est largement suffisant.

Vous êtes dans un secteur régulé (santé, finance, assurance) : Retell AI. La conformité HIPAA incluse sans surcoût, le DPA en self-service, l'éditeur de flux visuels et les intégrations CRM natives en font la plateforme la plus « enterprise-ready » du lot. Budget à prévoir : 150 à 300 $/mois pour 1 000 minutes.

La voix est votre marque : ElevenLabs. Aucune autre plateforme n'approche cette qualité vocale. Le modèle par forfait (Pro à 99 $/mois pour 1 100 min) est prévisible et compétitif. Mais prévoyez un budget technique pour intégrer un trunk SIP.

Pas de développeur, besoin d'un agent vocal demain matin : Synthflow. Le drag-and-drop fonctionne, le déploiement est rapide. Mais surveillez la facture : le BYOK peut doubler le budget annoncé.

Vous construisez un produit vocal sur mesure : Vapi. La flexibilité est inégalée, l'écosystème de providers le plus large du marché. Réservé aux équipes avec un développeur dédié et un budget confortable.

Si vous démarrez et voulez tester un agent vocal IA avec un budget limité, notre tutoriel Vapi + n8n pour monter un standard téléphonique en 3 heures reste le meilleur point d'entrée.

Ce que les plateformes ne disent pas (et qu'on surveille)

Plusieurs zones grises persistent dans ce marché en pleine accélération.

La qualité vocale se dégrade sous charge. Aucune plateforme ne publie de benchmarks de latence à 500+ appels simultanés. Les chiffres de latence cités dans ce comparatif correspondent à des conditions idéales. En pic de trafic, la dégradation est probable — et pas documentée.

Le coût des LLM évolue chaque mois. OpenAI a doublé le prix du token GPT-5.5 en avril 2026. Anthropic a baissé celui de Claude Haiku. Ces variations se répercutent directement sur la facture des plateformes en BYOK — mais le prix de la plateforme elle-même ne bouge pas. Le coût réel est donc une cible mouvante.

L'hébergement souverain reste flou. Aucune des cinq plateformes ne propose nativement un hébergement en France (OVH, Scaleway). Retell offre un choix de région, mais pas de datacenter français. Pour les PME soumises à des exigences strictes de souveraineté (marchés publics, défense, santé), la solution reste le self-hosting via des frameworks open source comme PipeCat (MIT) ou LiveKit (Apache 2.0) — au prix d'une complexité technique significative.

Le ROI réel dépend du taux de résolution, pas du prix par minute. Un agent vocal à 0,08 $/min qui résout 80 % des appels coûte moins cher qu'un agent à 0,05 $/min qui en résout 40 % (parce que les 60 % restants nécessitent une intervention humaine à 7–12 $/appel). Les benchmarks d'IrisAgent montrent un taux de résolution moyen de 45 à 60 % en production — très variable selon la qualité du prompt, la base de connaissances et la complexité des demandes.

FAQ

Combien coûte un agent vocal IA par mois pour une PME française ?

Le budget mensuel dépend du volume d'appels et de la plateforme. Pour une PME traitant 500 à 1 000 minutes par mois (environ 170 à 330 appels de 3 minutes), comptez entre 80 et 300 € avec Telnyx (tout compris à 0,08 $/min), 150 à 450 € avec Retell AI, ou 99 $ fixes avec ElevenLabs Pro (1 100 minutes incluses). Les solutions françaises clé en main (Nerolia, VOKAI, Sylen) se positionnent entre 300 et 600 €/mois avec accompagnement. N'oubliez pas d'ajouter les frais d'intégration initiale (1 000 à 5 000 €) si vous passez par un intégrateur.

Vapi ou Retell AI : lequel choisir pour un standard téléphonique ?

Pour un standard téléphonique classique (accueil, orientation, prise de rendez-vous), Retell AI est plus adapté. Son éditeur de flux visuels permet de configurer les scénarios sans code, sa conformité est plus complète et ses intégrations CRM sont natives. Vapi se justifie si vous voulez mixer plusieurs providers (par exemple Deepgram pour le STT et ElevenLabs pour la voix) ou si vous construisez un produit vocal sur mesure. Pour un standard simple, Vapi ajoute de la complexité et du coût sans bénéfice proportionnel.

Un agent vocal IA peut-il remplacer un secrétariat téléphonique ?

Partiellement. Les agents vocaux IA résolvent 65 à 80 % des appels de niveau 1 (prise de rendez-vous, informations horaires, suivi de commande). Les tâches nécessitant de l'empathie, du jugement ou une négociation restent mieux gérées par un humain. Le scénario le plus courant en PME : l'agent vocal filtre et traite les demandes simples 24/7, et transfère les appels complexes à un opérateur humain pendant les heures ouvrées. Résultat typique : 40 à 60 % d'économies sur le budget secrétariat, avec zéro appel manqué.

ElevenLabs est-il gratuit pour les agents vocaux ?

ElevenLabs propose un plan gratuit avec 10 000 crédits/mois, soit environ 15 minutes de conversation IA — suffisant pour tester, pas pour produire. Le plan Creator à 22 $/mois inclut 250 minutes de Conversational AI, le Pro à 99 $/mois offre 1 100 minutes. Attention : ElevenLabs ne fournit pas de numéro de téléphone. Il faudra coupler la plateforme à un trunk SIP (Twilio, Telnyx, OVH Telecom) pour recevoir ou passer des appels, ce qui ajoute 0,02 à 0,04 $/min.

Quel agent vocal IA est conforme au RGPD en France ?

Les cinq plateformes de ce comparatif déclarent une conformité RGPD. Retell AI est la plus avancée avec un DPA (Data Processing Agreement) en self-service et un choix de région d'hébergement. Vapi est certifié SOC 2 Type II, HIPAA, PCI DSS et RGPD. Synthflow ajoute ISO 27001. Mais aucune ne propose d'hébergement natif en France. Pour les secteurs exigeant un hébergement souverain (santé avec certification HDS, marchés publics), la seule option actuelle est le self-hosting via des frameworks open source (PipeCat, LiveKit).

Quelle est la latence acceptable pour un agent vocal IA ?

En conversation téléphonique, une latence de 300 à 500 ms bout en bout est perçue comme naturelle — c'est le délai équivalent à un léger temps de réflexion. Au-delà de 800 ms, l'interlocuteur ressent un décalage gênant et commence à parler en même temps que l'IA. Les plateformes testées se situent entre moins de 200 ms (Telnyx, ElevenLabs TTS) et 800 ms (Vapi en configuration standard). En appels sortants (prospection), la tolérance est plus élevée car les pauses paraissent moins artificielles.

Peut-on utiliser ChatGPT comme LLM pour un agent vocal IA ?

Oui. Vapi, Retell AI et Synthflow supportent tous les modèles GPT-5.x d'OpenAI comme moteur de raisonnement. Le coût additionnel varie : GPT-4.1 mini (0,02 $/min) est le plus économique, GPT-5.4 (0,04–0,06 $/min) offre un meilleur raisonnement. Mais [[link:chatgpt|ChatGPT]] n'est pas toujours le meilleur choix pour le vocal : Claude Haiku 4.5 est souvent préféré pour sa rapidité (faible TTFT) et son coût inférieur dans les contextes conversationnels simples.

Comment mesurer le ROI d'un agent vocal IA dans ma PME ?

Quatre métriques suffisent. Premièrement, le taux de résolution autonome : pourcentage d'appels traités sans intervention humaine (cible : 60 %+). Deuxièmement, le coût par appel résolu : divisez la facture mensuelle de la plateforme par le nombre d'appels résolus (cible : moins de 1 € par appel). Troisièmement, les appels captés hors horaires : chaque appel qui aurait été perdu et qui génère un rendez-vous ou une vente. Quatrièmement, le temps libéré pour l'équipe : heures récupérées par la secrétaire ou le service client, réinvesties dans des tâches à plus forte valeur. Le ROI se manifeste typiquement en 2 à 4 mois pour les PME traitant 30+ appels/jour.

0,05 €/min : anatomie d'un prix en trompe-l'œil

Combien coûte un agent vocal IA par minute en conditions réelles

Vapi : l'orchestrateur modulaire pour équipes techniques

Retell AI : la conformité comme argument de vente

ElevenLabs Conversational AI 2.0 : la voix qui fait oublier la machine

Synthflow : le no-code qui promet un agent vocal en une heure

Telnyx Voice AI : quand l'opérateur télécom fait aussi l'IA

Latence, langues, conformité : le tableau comparatif des 14 critères

Agent vocal IA et RGPD : ce que la loi française impose

Trois cas d'usage concrets : cabinet médical, e-commerce, prospection B2B

Cabinet médical : 120 appels/jour, 72 % automatisés

E-commerce : suivi de commande et retours 24/7

Prospection B2B : appels sortants en volume

Notre verdict : la bonne plateforme selon votre profil de PME

Ce que les plateformes ne disent pas (et qu'on surveille)

FAQ

Vous avez aimé cet article ? Allez plus loin.

Copilot 365 face à Gemini Workspace : qui gagne pour les PME

Zapier vs Make : où investir votre budget automatisation IA ?

ClickUp Brain 2.0 face à Notion AI : où va votre budget IA ?