News

Interview : Reconnaissance vocale, les appareils connectés deviennent intelligents

Smartphones, tablettes, télévisions, autoradio, lunettes et désormais montres, la reconnaissance vocale devient intelligente et équipe de plus en plus d'appareils. Reimund Schmald, responsable marketing de la division mobile de Nuance (SIRI d'Apple, S-Voice de Samsung, etc.) nous parle des enjeux de cette technologie.

MT : Pouvez-vous présenter brièvement Nuance à nos lecteurs ?

Reimund Schmald : Nous créons des systèmes intelligents qui permettent aux utilisateurs (consommateurs ou professionnels) de communiquer et de gagner en efficacité. Cela va de l’assistant vocal sur smartphone à la synthèse de rapports médicaux pour les médecins. Nous avons commencé avec des applications de transcription de la parole vers le texte et inversement. Nous nous concentrons désormais sur ce qu’il y a derrière le texte, sur l’interprétation, car la technologie le permet.

MT : Comment la technologie de Nuance s’intègre-t-elle aux smartphones ?

Nous fournissons aux constructeurs une interface vocale spécifique. Ils l’appliquent ensuite à certains usages, comme par exemple lancer un appel, envoyer un message ou se renseigner sur la météo. Le but n’est pas de vendre à tout le monde le même produit. De même, le but des fabricants n’est pas d’avoir la même interface, chacun fait en fonction des forces de ses appareils.

MT : Fonctionne-t-elle de la même manière sur tous les appareils ?

La technologie que nous fournissons peut tourner sur l’appareil, comme dans le Cloud. Pour la reconnaissance vocale, la qualité de la voix est meilleure si le Cloud est utilisé, en revanche les données en transit sont plus nombreuses. Si la reconnaissance vocale tourne sur le téléphone, elle est moins performante, mais peut fonctionner sans connexion à Internet. Tout dépend des spécifications du constructeur. S-Voice, par exemple, possède une fonctionnalité de réveil par la voix. Ceci implique que la reconnaissance tourne sur le téléphone, car l’appareil ne peut pas être constamment connecté à nos serveurs.

MT : Samsung utilise désormais S-Voice sur sa montre connectée, la Galaxy Gear. En quoi cela représente-t-il une avancée ?

Aujourd’hui, il incombe aux designers des interfaces utilisateurs de répondre aux usages. Une montre intelligente doit pouvoir envoyer un message, lancer un appel ou donner la météo sans sortir le téléphone. Mais en raison de leur taille, il est impossible d’avoir un clavier. C’est là qu’entrent en scène la reconnaissance et la synthèse vocale. Ici, le Cloud a un gros avantage, car les montres ne peuvent pas faire tourner de gros logiciels. En revanche, elles sont connectées en permanence au smartphone et à Internet. Les appareils portatifs deviennent donc intelligents.

reconnaissance vocale montre connectée
La Galaxy Gear de Samsung intègre un système de reconnaissance vocale

MT : Comment cette intelligence artificielle peut-elle progresser ?

Nous avons inclus une fonctionnalité autodidacte à notre IA. Sa réponse doit varier en fonction de votre position géographique ou encore de l’heure qu’il est. Si vous souhaitez voir un film qui commence dans 5 minutes et que le cinéma se trouve à 20 minutes de votre position, il doit vous dire que c’est impossible. Il doit être capable de vous contredire dans un sens. Inversement, si vous êtes chez vous et que vous posez la même question, vous vous attendez à ce qu’il cherche tout seul dans le programme TV. Plus nous serons confrontés à ces assistants, plus nos attentes vont monter en gamme.

MT : Dans la bande-annonce du film Her avec Joaquin Phoenix, on peut voir son personnage tomber amoureux de son assistant vocal. S’agirait-il d’un accomplissement pour Nuance ?

À titre personnel, je préfère tomber amoureux d’une vraie personne. Je n’ai vu que la bande-annonce de ce film, mais je pense que ce qu’il veut montrer c’est que le téléphone est devenu un appareil très personnel, contenant de nombreux secrets et affaires privées. Nous n’avions pas ce type de relation avec des appareils il y a encore 10 ans. Nous allons avoir des relations très spécifiques avec nos assistants dans le futur, et nous en aurons besoin, mais de là à tomber amoureux… Les gens ont aussi besoin de s’amuser avec leur appareil, de leur poser des questions saugrenues, mais ça n’ira pas plus loin.

[youtube id= »ne6p6MfLBxc »]

MT : Sur le plan du fonctionnement, S-Voice semble interpréter les phrases, contrairement à Google Now. Par exemple, si je demande «dois-je prendre un parapluie demain» et qu’il va faire beau, S-Voice me répond «N’oubliez pas vos lunettes de soleil». S’agit-il d’intelligence artificielle ou d’une simple ligne de script ?

Il s’agit toujours de script. La reconnaissance vocale comprend de plus en plus de fonctionnalités et peut traiter de plus en plus de données en utilisant des méthodes statistiques, mais à un certain moment, les constructeurs veulent mettre leur produit sur le marché. Il ne s’agit pas de travailler pendant des années sur un produit en laboratoire.

Les constructeurs choisissent le moment de mise sur le marché, tout dépend de leurs priorités et les fonctionnalités en découlent. Pour le parapluie, si vous n’aviez pas vu la publicité pour SIRI, il y a peu de chances pour que vous ayez réellement pensé à demander cela. Ça, c’est du script.

MT : Google propose son propre assistant vocal, Google Now, qui est parfaitement intégré et qui a un accès aux données de l’utilisateur. Comment la technologie de Nuance peut-elle lutter en termes de précision et de prédictibilité ?

Google Now est différent. Google Now appartient à la sphère de Google. Les applications de Google n’évoluent que dans le monde de Google. Le Cloud de Nuance est prêt à accéder à tout type de données et surtout à y accéder de la manière dont les fabricants le veulent. Nous nous adaptons à chaque requête. Par exemple, si vous êtes dans la voiture et écoutez une chanson de Lady Gaga sur votre smartphone, une fois que vous arrivez chez vous, votre téléviseur doit pouvoir vous demander si vous souhaitez poursuivre la lecture de la vidéo. Tout cela dépend encore une fois du souhait des consommateurs et des constructeurs. Nous livrons un produit indépendant du système d’exploitation.

MT : Mais est-ce possible d’avoir une véritable conversation avec un appareil ?

Oui et non. Oui, car le dialogue est nécessaire et il s’articule autour des usages du smartphone. Si je veux envoyer un message, mon assistant me demandera à qui je veux l’envoyer, je lui répondrai et il me demandera ensuite si je valide l’envoi. Donc dans certains domaines, mais pas tous évidemment.

MT : Blagues mises à part, quel serait le but ultime pour la reconnaissance vocale, selon vous ?

Le but ultime, c’est de rendre la vie des gens plus simple en trouvant de nouvelles fonctionnalités. Rechercher et s’organiser doivent devenir plus facile. Et il reste encore beaucoup de travail.