Carrefour des Nouvelles Technologies et des Réseaux Sociaux

Prochain carrefour

-Vendredi 29 Mars : 9H00-12H00

Thème :

Dangers internet

Présentation : François

 

Dernier carrefour

Vendredi 22 Févrierde 9h à 12h

Compte rendu du dernier carrefour

La reconnaissance vocale

Carrefours précédents

Compte rendu des carrefours précédents

Activer le lien rapports carrefours du menu de gauche.

 

Compte rendu d’atelier

 

Carrefour Reconnaissance vocale


 

Lien vidéo Reconnaissance vocale . Comment ça marche


 

Développement Monitorat Université Paris

Définition :

La reconnaissance vocale ou (Automatic Speech Recognition ASR) est une technologie de transcription d'un système «phonatoire organique»exploitable par une machine. La reconnaissance vocale couplée à des méthodes de synthèse vocale, de commande vocale, d'identification vocale, et de compréhension forme un élément d'une interface homme-machine idéale (10 fois plus de quantitéd'information qu'avec une saisie clavier, confort...). La reconnaissance vocale fait partie de la branche traitement de la parole.

 

DOMAINE:

La reconnaissance vocale peut se rattacher à de nombreux pans de la science: traitement automatique des langues, linguistique, théorie des langages formels, théorie de l’information, traitement du signal, réseaux neuronaux, intelligence artificielle .

HISTORIQUE:Les travaux sur la reconnaissance vocale datent du début du XXesiècle. Le premier système pouvant être considéré comme faisant de la reconnaissance vocale date de 1952. Ce système électronique développépar Davis, Biddulph, and Balashek aux laboratoires Bell Labs était essentiellement composé de relais et ses performances se limitaient à reconnaître des chiffres isolés. La recherche s'est ensuite considérablement accrue durant les années 70 avec les travaux de Jelinek chez IBM (1972-1993). Aujourd'hui, la reconnaissance vocale est un domaine à forte croissance grâce à la déferlante des systèmes embarqués.

 

PRINCIPE DE BASE:

Une phrase enregistrée et numérisée est donnée au programme de reconnaissance vocale. Dans le formalisme ASR, le découpage fonctionnel est le suivant :le traitement acoustique (front-end) permet principalement d'extraire du signal de parole une image acoustique la plus significative possible sur des tranches de temps d'environ 30ms. Cette image se présente sous la forme d'un vecteur de caractéristiques (features extraction) de 10 à 15 composantes principales, auxquelles sont ajoutées les différences de premier et second ordre pour obtenir une taille de 30-45 en final

Le traitement acoustique (front-end) vise ànumériser le signal de parole sous forme de vecteurs acoustiques qui constituent les données d'observation pour le système de reconnaissance. On utilise pour cela les techniques de traitement du signal: on découpe le signal en tranches de 30ms en procédant pour chaque tranche à un décalage de 10ms (technique de fenêtrage de hamming) afin d'obtenir 10ms de données significatives pour chaque vecteur.

Le signal est alors numérisé et paramétré par une technique d'analyse fréquentielle utilisant les transformées de Fourier (par exemple MFCC (Mel-Frequency Cepstral Coeffcients).

L'apprentissage automatique qui réalise une association entre les segments élémentaires de paroles et les éléments lexicaux. Cette association fait appel à une modélisation statistique entre autre par modèles de Markov cachés (HMM, Hidden Markov Models) et/ou par réseaux de neurones artificiels (ANN, Artificial Neural Networks).

La reconnaissance (back-end) qui en concaténant les segments élémentaires de paroles précédemment appris reconstitue le discours le plus probable. Il s'agit donc d'une correspondance de motif (pattern matching) temporelle, réalisée souvent par l'algorithme de déformation temporelle dynamique (DTW).

 

LES MODELES :

Un tel système s'appuie sur 3 modèles principaux:

Modèle acoustique:ce modèle est capable, àpartir du signal acoustique, plus précisément du résultat du traitement acoustique, de donner la probabilitéque le signal corresponde à chacun des phonèmes

Modèle de prononciation:ce modèle donne pour chaque mot du vocabulaire la ou les prononciations possibles au niveau phonétique avec des probabilités associées.

Modèle de langage:ce modèle donne pour chaque suite de mots sa probabilitédans le langage cible. La combinaison de ces trois modèles permet de calculer pour toute suite de mots la probabilitéq ue le signal sonore lui corresponde. Effectuer la reconnaissance, souvent appelée décodage, consiste à trouver celle qui a la probabilitéla plus élevée.

 

CLASSIFICATION :

Un système de reconnaissance vocale se classifie par un petit nombre de paramètres appelés modes de reconnaissance qui sont corrèles aux difficultés suivantes: Variabilité inter et intra-locuteur: Les systèmes mono locuteurs (en anglais speaker dependant) effectuent un apprentissage in situ des mots. Les systèmes multi locuteurs (en anglais speaker independant) sont capables de reconnaître un corpus fixe (50 mots environs) quel que soit le locuteur.

Les systèmes monolocuteurs sont les plus répandus et tendent notamment à se généraliser grâce à la synthèse Text to speech qui évite la phase d'apprentissage naturel du discours. Les systèmes peuvent travailler sur de la parole continue (en anglais continuous speech), des mots isolés (isolated word) ou encore des mots clefs (key spotting).

 

PERFORMANCE :

Les performances brutes d'un moteur de reconnaissance vocale sont souvent mesurées en taux d'erreur de mots (Word error rate). On peut, réciproquement, évaluer le taux de succès. Voici quelques résultats en termes de taux d'erreur, pour le français:

Textes lus (BREF, système ancien): 8-9%

Emissions de radio (campagne ESTER): 10,3%

Conversations téléphoniques entre gens ne se connaissant pas: 33%

Conversations téléphoniques entre gens se connaissant: 70+%

 

LOGICIELS EXISTANTS :

HTK Logiciel développé au CUED (USA)

Sphinx 4 Logiciel développé au CMU (USA)

teliSpeech Logiciel professionel de telisma (France)

Logiciel professionnel de G2 Speech (Européen)

 

Dragon naturally Speaking Logiciel professionnel de Scansoft Nuance (France)

 

Lien vidéo Dragon

 

Reconnaissance vocale Crescendo Logiciel professionnel dédié au secteur médical (Fr)

MacSpeech Reconnaissance vocale pour Macintosh

ALIZE Plateforme développée au Laboratoire Informatique d'Avignon (LIA)

Reconnaissance vocale intégrée à Microsoft Windows Vista

ASSISTANTS PERSONNELS

Les systèmes de reconnaissances vocale modernes utilisent des modèles du langages qui peuvent nécessiter des gigabytes de mémoire ce qui les rend impraticables, en particulier sur les équipements mobiles. Pour cette raison, la plupart des systèmes de reconnaissance vocale modernes sont en fait réalisé par des serveurs distants et nécessitent une connexion internet et l'envoi à travers le réseau du contenu vocal.

  • Cortana (Microsoft)

 

Lien vidéo Cortana

Cortana (assistant personnel intelligent)

Cortana





Informations

 

Développé par

Microsoft

 

Première version

20141

 

Dernière version

(30 août 2015)

 

Système d'exploitation

Microsoft Windows

 

Environnement

Windows 10
Windows Phone
Xbox One
Android (béta)

Langues

Multilingues

Type

Assistant personnel intelligent

Licence

Microsoft EULA

Site web

cortana.uservoice.com

Cortana est le nom de l'assistant personnel intelligent développé par Microsoft pour sa plateforme Windows Phone à partir de la version 8.1 et désormais sur Windows 102. Cortana existe également sur Android et iOS (en Bêta et uniquement dans certaines langues) sous la forme d'une application et est intégré avec le système CyanogenMod. Cependant, Microsoft ne voit plus Cortna comme une concurrente direct des assistants Siri d'Apple, Bixby de Samsung, et Google Assistant. Cortana collabore également avec Alexa de Amazon, qui prévoit de l'intégrer en tant qu'extension.

Cortana repose principalement sur Bing, le moteur de recherche de Microsoft, ainsi que sur les données présentes sur le smartphone de l'utilisateur (contacts, courriels, calendrier, etc.)3. Les résultats sont retournés par Bing mais aussi par des services externes, comme Foursquare pour la géolocalisation4. Cortana remplace d'ailleurs dans Windows Phone 8.1 l'interface du moteur de recherche de la version 8.0 du système d'exploitation mobile de Microsoft par celle d'un double cercle bleu animé qui sert d'identité au service.

Cortana a été annoncé à la conférence Build qui s'est tenue du 2 au 4 avril 20145.

« Cortana » n'était à l'origine que le nom de code de cet assistant, en référence à l'IA Cortana du jeu Halo dont Microsoft détient les droits, et a finalement été conservé officiellement après que de nombreux internautes en ont fait la demande6.

Fonctionnalités

La particularité de Cortana réside dans l'utilisation d'un « bloc-notes »7 dans lequel l'utilisateur peut renseigner et consulter diverses informations telles que ses centres d'intérêt, ses tâches, ses « heures tranquilles », ses lieux favoris, ses rappels, synchronisés entre appareils Windows et Android mais aussi le nom par lequel il souhaite être appelé et en vérifier la bonne prononciation. Grâce à Microsoft Traduction, Cortana est capable de traduire un texte avec la demande « Traduis ... en anglais. », par exemple pour la traduction vers l'Anglais. La fonction de recherche musicale n'est plus disponnible depuis l'arrêt du service en ligne de Microsoft, Groove Musique car Cortana reposait sur son catalogue pour trouver les morceaux.

Aux États-Unis, Cortana, grâce à Bing, est capable de prédire les résultats des matchs de NFL[réf. souhaitée].

Disponibilité

Cortana est disponible en français avec Windows 108. Il est aussi disponible sur Windows Phone 8.1 et ultérieur, mais les langues disponibles sont limitées à la langue anglaise aux États-Unis en version bêta (Windows Phone 8.1 et ultérieur) et en France, au Royaume-Uni, en Inde, au Canada et en Australie en version alpha (Windows Phone 8.1 Update 1 et ultérieur)9. Il est aussi disponible en allemand, en italien et en espagnol en version alpha, mais uniquement réservée aux adhérents du programme « Preview for Developers ».

Par ailleurs, une version spéciale de l'assistant personnel intelligent baptisée Xiao Na est disponible en Chine.

 

 

 

  • Siri (Apple)

Siri (logiciel)



Créateur

Apple

 



Développé par

Apple, SRI International, EPFL

Première version

2011

 



Dernière version

iOS 11.1 (31 Octobre 2017)

Version avancée

iOS 11.2 beta 2 (6 Novembre 2017)

Écrit en

Objective-C

 



Système d'exploitation

IOS, iOS 6 (en), iOS 7 (en), iOS 8 (en), iOS 9 (en), iOS 10, macOS Sierra, MacOS High Sierra, iOS 11 (en), watchOS, tvOS et iOS 12

 

 

Siri est une application informatique de commande vocale qui comprend les instructions verbales données par les utilisateurs et répond à leurs requêtes. Développée par la société américaine Apple et qualifiée d'assistant personnel intelligent ; elle a été présentée à la presse le 4 octobre 2011.

L'interface homme-machine de Siri repose sur la reconnaissance vocale avancée, le traitement du langage naturel (oral) et la synthèse vocale. Compatible uniquement avec les téléphones d'Apple à partir de l'iPhone 4s, toutes ses tablettes à partir de l'iPad 3 et les iPod touch depuis la 5e génération, elle nécessite au minimum iOS 6 sortie à l'automne 2012.

Les Mac ayant un micro (intégré ou pas) utilisant macOS et les Apple TV de 4ème génération peuvent aussi l'utiliser depuis peu.

Certains auteurs considèrent qu'avec Google Now et Cortana, Siri est l'un des indices d'une large pénétration de la « vie numérique »1 et du monde réel par de premières formes d'intelligence artificielle2, non sans limites3, dangers potentiels et questions éthiques (notamment, car ces assistants sont conçus pour deviner nos intentions, et ils manipulent voire gèrent ou partagent de nombreuses données personnelles et pourraient influencer nos choix4,5) ; pour le meilleur et potentiellement le pire si l'on n'apprend pas à en maitriser les risques selon Stephen Hawking et d'autres dans un billet publié en 2014 par le journal The Independent6.

Présentation

Disponible dès son lancement (en version bêta) en octobre 2011 en anglais (américain, britannique et australien), allemand et français, l'application sera également proposée en japonais, chinois, coréen, italien et espagnol en 2012, mais à son lancement, seule la version en langue anglaise pouvait bénéficier de certaines fonctionnalités, comme la gestion orale de l'application « Plans », et donc des itinéraires et de l'état du trafic. Lors de la sortie d'iOS 7,

Siri n'est plus considéré comme une version bêta. Contrairement à la plupart des autres systèmes de reconnaissance vocale classiques, Siri comprend et utilise le langage naturel, l'utilisateur peut donc s'exprimer naturellement sans avoir à prononcer des mots spécifiques et Siri peut répondre de façon tout à fait naturelle aussi. L'utilisation de Siri requiert une connexion internet mobile haut débit à cause de la dépendance de Siri aux serveurs d'Apple.

Pour démarrer l'application manuellement, il faut maintenir le bouton principal appuyé deux secondes, ou maintenir le bouton latéral appuyé pendant 2 secondes sur iPhone X. Tandis que pour démarrer l'application à la voix, l'appareil doit avoir l'option activée dans le réglage général et être connecté par câble (pour les versions inférieures à iOS 9). Ensuite, il faut prononcer "Dis, Siri".

Apple utilise le codec libre Speex dans ce logiciel7.

Voix anglaise masculine (Royaume-Uni) : Jon Briggs8.

Voix française masculine : Cyril Mazzotti9 jusqu'à iOS 6 (jusqu'à iOS 7 sur VoiceOver et le contrôle vocal).

Naissance de Siri, assistant personnel

L'application Siri est proposée gratuitement en février 2010 dans l'App Store d'Apple en tant qu'application iOS indépendante18 avant d'être achetée par Apple le 28 avril 201010 suite à un appel téléphonique de Steve Jobs en personne à Dag Kittlaus.11. Peu avant cette date, Siri Inc. avait annoncé que son logiciel serait bientôt disponible pour les BlackBerry et pour les téléphones sous Android. Le rachat de la technologie d'intelligence artificielle par Apple a de fait sonné le glas de l'interopérabilité de la technologie, conférant ainsi un net avantage commercial à l'iPhone 4S au moment de sa sortie.

Le 5 octobre 2011, le lendemain de la mort de Steve Jobs, Tim Cook alors directeur général d'Apple présente la keynote qui révèle notamment l'iPhone 4S : si elle déçoit les amateurs d'Apple qui attendaient l'iPhone 5, elle révèle Siri très remarquée et commentée19.

Le 27 novembre 2012, le constructeur automobile Chevrolet annonce qu’il intégrera l’application Siri Eyes Free dans son modèle Chevrolet Spark, devenant ainsi le premier constructeur automobile à embarquer le système de commande vocale d’Apple dans l’un de ses véhicules20.

Fonctions

Siri permet de réaliser plusieurs interactions entre la voix de l'utilisateur et les applications du système iOS comme le navigateur Safari, les applications de SMS, l'application téléphone, l'application Mail ou encore l'application de cartographie Plans. Voici quelques exemples de ces interactions :

  • Effectuer un appel avec l'application Téléphone ;

  • Dicter un SMS à envoyer ;

  • Dicter une recherche à faire sur le web avec Safari ;

  • Jouer un morceau de musique avec l'application Musique ;

  • Lancer un itinéraire avec Plans ;

  • Activer ou désactiver certaines options simples comme le Wi-Fi, les données mobiles, le Bluetooth ou encore activer le mode avion (ce qui désactivera par conséquent Siri) ;

  • Chercher des restaurants à proximité ou encore des séances de cinéma.

  • Discuter.

 

 

 

  • Google Now (Google)

Google Now

 

Cet article est une ébauche concernant les télécommunications.

 

La tablette Nexus 7 utilisant Google Now.



Informations

Développé par

Google

Première version

9 juillet 2012

Dernière version

(17 mai 2016)

Version avancée

Inconnue

État du projet

Arrêté

Système d'exploitation

Jelly Bean et iOS

 



Environnement

Android et iOS

Langues

Multilangue

Type

Assistant personnel intelligent

Site web

http://www.google.com/landing/now/

Chronologie des versions

Google Assistant

Google Now est un assistant personnel intelligent qui prend la forme d'une application Android et iOS basée sur la reconnaissance vocale, le traitement du langage naturel par oral ainsi que sur la synthèse vocale pour apporter des réponses aux requêtes des utilisateurs à l'oral et à l'écrit, faire des recommandations et effectuer des actions en déléguant certaines requêtes à des services en ligne. Google Now est inclus par défaut à partir de la version 4.1 d'Android (« Jelly Bean »), et a fonctionné pour la première fois sur le Galaxy Nexus.

Depuis mai 2018, Google Now est remplacé1 par Google Assistant.

Fonctionnement

Google Now Launcher

L'interface de Google Now est composé d'une barre de recherche et d'un ensemble de « cartes » qui apportent des réponses contextualisées et illustrées à certaines requêtes des utilisateurs. Sont pris en compte à l'heure actuelle :

  • la conversion de monnaies

  • la définition et la traduction de mots

  • les horaires de vols (via Gmail ou Google Calendar)

  • les programmations de salles de cinéma

  • les prochains rendez-vous (via Google Calendar)

  • les lieux (via Google Maps)

  • les horaires de transports en commun (via Google Maps)

  • les alertes trafic (via Google Maps)

  • les résultats sportifs

  • les trajets entre domicile et lieu de travail (via Google Maps)

  • les cours de bourse (Google Finance)

  • la météo

  • les nouveaux articles des sites que l'utilisateur consulte fréquemment

  • l'état de livraison d'un colis (via Gmail).

Quand ce n'est pas possible, l'application renvoie des résultats classiques issus de la recherche Google. L'application se base sur les requêtes formulées le plus régulièrement par l'utilisateur et sur le Knowledge Graph pour proposer des informations pertinentes avant même qu'il ne les demande.

Historique

  • Fin 2011, des rumeurs affirment que Google prépare un assistant virtuel semblable à Siri (développé par Apple), sous le nom de code « Majel » (d'après Majet Barrett, la femme de Gene Roddenberry connue pour avoir prêté sa voix aux ordinateurs de la série Star Trek2) ou « Assistant ».

  • Le 7 juin 2012, Google Now est révélé lors de la présentation d'Android 4.1 lors de la conférence I/O3.

  • Début avril 2018, Google annonce l'arrêt1 de Google Now et son remplacement par Google Assistant.

Cela n’empêche pas des constructeurs de proposer leur propres assistants vocaux sur Android, comme Samsung avec S Voice et LG avec Quick Voice (à partir de juin 2012 et uniquement en Corée du Sud pour ce dernier).

 

 

 

 

 

Récapitulatif


 

  • Machine learning

C'est l'apprentissage automatique qui est une branche de l'intelligence artificielle.

On réalise un algorithme d'apprentissage sur les données pour produire un modèle (entrainement).

Les mathématiques sont utilisées en particulier les statistiques et probabilités ainsi que l'informatique.

L'apprentissage est fait par renforcement, c'est à dire des récompenses en fonction des actions correctes.

Il y a des critères de performance et la fonction de décision se fait par régression linéaire.


 

  • Réseau de neurones artificiels

Ce sont des des modèles paramétriques pour la construction de modèles fléxibles.

Les champs d'application son t :

L'annotation d'image

La reconnaissance vocale


 

  • Chaines de Markov

En résumé, elles étudient la probabilité de passage d'un état à un autre pour un élément avec un pas de temps.