Notre nouveau modèle d’IA de génération détecte le ton, l’inflexion et le rythme, pour une compréhension plus approfondie de la conversation humaine.
Amazon est à l’avant-garde du développement de technologies vocales qui optimisent les applications d’IA conversationnelle depuis plus de dix ans, de la conception du meilleur assistant personnel IA au monde comme Alexa au développement de services AWS comme Lex, Polly et Connect. Mais pour que l’IA vocale apporte encore plus de valeur concrète aux clients, elle doit tenir compte des nuances et de la complexité de la conversation humaine. Dans une conversation, les mots ont du sens, mais sans un contexte acoustique qui leur donne de la profondeur, ils peuvent être inefficaces. La manière dont une chose est dite est tout aussi, voire plus, importante que ce qui est dit. Jusqu’à présent, réussir cet objectif avec l’IA était un défi.
Amazon permet aux développeurs et aux passionnés de technologie d’explorer plus facilement Amazon Nova, ses modèles avancés d’IA de génération
Travaillez avec nos modèles de base sur nova.amazon.com et accédez au SDK Amazon Nova Act pour créer des agents qui agissent dans les navigateurs Web.
Amazon a annoncé aujourd’hui Amazon Nova Sonic, un nouveau modèle fondateur qui unifie la compréhension et la génération de la parole en un seul modèle, permettant ainsi des conversations vocales plus proches de l’humain dans les applications d’IA. Disponible via une nouvelle API dans Amazon Bedrock, ce modèle simplifie le développement d’applications vocales, telles que l’automatisation des appels du service client et la création d’agents IA, dans un large éventail de secteurs, notamment le voyage, l’éducation, la santé, le divertissement, etc.
Un système de parole qui obtient le ton, le style et le rythme
Les approches traditionnelles de création d’applications vocales impliquent une orchestration complexe de multiples modèles, tels que la reconnaissance vocale pour convertir la parole en texte, les grands modèles linguistiques (LLM) pour comprendre et générer des réponses, et la synthèse vocale pour reconvertir le texte en audio. Cette approche fragmentée non seulement complexifie le développement, mais ne parvient pas non plus à préserver le contexte acoustique et les nuances essentielles comme le ton, la prosodie et le style de parole, essentiels à des conversations naturelles.
Nova Sonic adopte une nouvelle approche pour relever ces défis. Au lieu d’utiliser différents modèles, il unifie les capacités de compréhension et de génération en un seul modèle. Cette unification permet au modèle d’adapter la réponse vocale générée au contexte acoustique (tonalité, style, etc.) et à la parole, pour un dialogue plus naturel. Nova Sonic comprend même les nuances de la conversation humaine, notamment les pauses et les hésitations naturelles de l’orateur, son attente du moment opportun pour parler et sa gestion élégante des interventions.
Exemple d’un agent IA pour les voyages construit sur Amazon Nova Sonic :
Dans cette conversation, un client interagit avec un assistant de voyage virtuel au sujet d’un voyage à Hawaï. Lorsque le client passe de l’enthousiasme à l’inquiétude quant aux coûts, le ton de l’IA devient plus rassurant en extrayant des informations tarifaires pertinentes.
Il génère également une transcription textuelle du discours de l’utilisateur, permettant aux développeurs d’utiliser ce texte pour appeler des outils et des API spécifiques afin de créer des agents IA vocaux, comme cet exemple d’agent de voyages piloté par IA qui peut réserver des vols en récupérant les informations de vol les plus récentes. Ces capacités, associées à une inférence ultra-rapide, rendent les applications vocales de Nova Sonic plus naturelles et plus utiles.
Exemple d’un assistant IA d’entreprise construit sur Amazon Nova Sonic :
Dans cet exemple, un assistant IA de tableau de bord montre comment les entreprises peuvent tirer parti de la capacité de Nova Sonic à ancrer leurs réponses dans les données de l’entreprise. L’assistant génère des rapports et partage des données précises sur un ton naturel et conversationnel, tout en posant proactivement des questions de suivi pertinentes. La fluidité du dialogue permet des échanges à plusieurs tours sans nécessiter de contextualisation explicite de la part de l’interlocuteur.
Avec le lancement de Nova Sonic, Amazon continue d’innover avec des modèles de fondation de pointe qui offrent une valeur réelle à chaque client Amazon.