1

Je viens de tester la messagerie 888 de Orange en mode reconnaissance vocale. Je suis assez surpris de son fonctionnement parfait, le programme a reconnu la dizaine de commandes que je lui ai donné sans aucune erreur.

Certes il s'agit de mots simples (rappeler, supprimer, oui, non, répéter, suivant) mais le programme n'avait jamais entendu ma voix.

C'est pas mal du tout. et gratuit bien sûr.

2

la derniere fois ( = il y a au moins un an ) que j'avais testé un service de reconnaissance vocale, c'était pas pour le répondeur mais pour le serveur vocal d'information d'orange.

Ben c'était pas tou à fait au point du style tu dis "météo" et il te réponds "vous avez demander Infos Sports "... cheeky

J'espère que ça c'est amélioré depuis

3

Squalyl^2: les logiciels genre "Dragon naturaly speaking", "Via voice" peuvent fonctionner sans apprentissage, certe, ça se ressent, mais ça marche, les systemes comme celui d'orange son autrement plus simple, donc un apprentissage est moins utile
avatar
Proud to be CAKE©®™


GCC4TI importe qui a problème en Autriche, pour l'UE plus et une encore de correspours nucléaire, ce n'est pas ytre d'instérier. L'état très même contraire, toujours reconstruire un pouvoir une choyer d'aucrée de compris le plus mite de genre, ce n'est pas moins)
Stalin est l'élection de la langie.

4

vi c vrai les mots à reconnaitre sont de sonorité différente.

5

c'est surtout qu'il y a très peu de mots à reconnaître en plus.

6

./3-6-4 > oui mais les logiciels genre viavoice ne marchent correctement qu'avec un rapport s/n grand
là il faut compter avec la qualité merdique du son des portables, et le bruit ambiant, et faut avouer que ça marche nickel leur système smile
avatar
fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

7

#8: tu trouve peut etre que la qualité est merdique, mais le codage GSM peut fortemetn aider pour la reconnaissance
avatar
Proud to be CAKE©®™


GCC4TI importe qui a problème en Autriche, pour l'UE plus et une encore de correspours nucléaire, ce n'est pas ytre d'instérier. L'état très même contraire, toujours reconstruire un pouvoir une choyer d'aucrée de compris le plus mite de genre, ce n'est pas moins)
Stalin est l'élection de la langie.

8

ah? tu peux expliquer stp?
avatar
fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

9

c un codage spectral (je suppose) donc pas besoin de resynthétiser le son dans le domaine temporel, on utilise juste les signaux codés en fréquence du GSM.

10

j'entrerais pas dans les détails techniques que je maitrises pas, mais regarde comment fonctionne l'encodage GSM
avatar
Proud to be CAKE©®™


GCC4TI importe qui a problème en Autriche, pour l'UE plus et une encore de correspours nucléaire, ce n'est pas ytre d'instérier. L'état très même contraire, toujours reconstruire un pouvoir une choyer d'aucrée de compris le plus mite de genre, ce n'est pas moins)
Stalin est l'élection de la langie.

11

ok
avatar
fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

12

c vraiement pas des détails, que j'ai donné...

13

squalyl^2: ct un cross
avatar
Proud to be CAKE©®™


GCC4TI importe qui a problème en Autriche, pour l'UE plus et une encore de correspours nucléaire, ce n'est pas ytre d'instérier. L'état très même contraire, toujours reconstruire un pouvoir une choyer d'aucrée de compris le plus mite de genre, ce n'est pas moins)
Stalin est l'élection de la langie.

14

Mouais euh j'y crois pas une seule seconde que ça aide... Découper le signal pour mieux le compresser et découper le signal pour faire de la reconnaissance vocale, c'est pas vraiment la même chose... Il n'y a pas une unique "transformée en fréquence", c'est juste que la forme temporelle du signal est une transformée particulière qui comporte une seule bande de fréquence...

Et ça ne m'étonneraient pas que les filtres utilisés pour le GSM soient relativement "primaires" et qu'on ait besoin de trucs plus spécifiques.

« The biggest civil liberty of all is not to be killed by a terrorist. » (Geoff Hoon, ministre des transports anglais)

15

ça doit être dans mon bouquin de reseau, vais regarder ça qd j'aurai cinq minutes
avatar
fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

16

faudrait tester le service dans des conditions "difficiles" genre dans une grande rue à Paris avec un crétin de motard qui a scié son pot cheeky

17

huhu
avatar
Proud to be CAKE©®™


GCC4TI importe qui a problème en Autriche, pour l'UE plus et une encore de correspours nucléaire, ce n'est pas ytre d'instérier. L'état très même contraire, toujours reconstruire un pouvoir une choyer d'aucrée de compris le plus mite de genre, ce n'est pas moins)
Stalin est l'élection de la langie.

18

19

j'ai pas spécialement que ça à faire et mes cours ont lieu en rase cammpagne, ça va être dur... Quoique, en trouvant une vache... hehe

20

j'ai testé dans le train entre les wagons et ça fonctionnait bien !
avatar
fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

21

Il y a en effet plusieurs types de reconnaissances vocales pour des mots.
Les portables utilises principalement la méthode LPC (Prédiction linéaire) mais donne de très mauvais résultats lorsqu'il y a du bruit assez élevé et généralement le dictionnaire est très faible. Environ 20 mots maximum, de plus cette méthode est monolocuteur c'est à dire qu'il faut enregistrer son empreinte vocale. Mais il est possible que cette méthode utilise des empreintes vocales moyenne pour reconnaitre des mots avec plusieurs locuteurs sans apprentissage, mais je doute que ça donne de bons résultats.

Mais une autre méthode qui peut être utilisée dans les portable et la méthode Spectrale MFCC (Mel Frequency Cepstrum Coefficients) dont l'objectif et de comparer des spectres audio et de déterminer un chemin vectoriel optimal.

Avant d'appliquer MFCC on doit créer un spectre audio pour cela on applique un filtre passe bande au signal pour améliorer son traitement. Ensuite on décompose le fichier audio en fenêtre de x^2 échantillons, généralement on découpe le fichier audio avec 512 échantillons par fenêtres, les fenêtres doivent se recouper (généralement de 50cheeky. Ensuite on applique une harmonisation du signal pour éviter des erreurs avec FFT (Fast Fourier Transform), pour cela on applique une fenêtre mathématique sur chaque portions du fichier audio. celle qui donne les meilleurs résultats et la fenêtre de Blackman-Harris. On applique ensuite une transformation de Fourier (FFT) pour récupérer les amplitudes fréquences. Reste a calculer les modules des nombres complexes sur n échantillons/2. Plus le nombre d'échantillons en puissance de 2 dans chaque fenêtre est élevé plus on a des résultats avec des fréquences précises mais plus le domaine temporel est réduit! Le meilleur comprmis et 512 échantillons par fenêtre.

On peut améliorer le spectre en éliminant les bruits de fond ou encore en accentuant certaines fréquences, en éliminant les fréquences inaudibles et même retirer certains sons comme le bruit d'une mouche. grin Tout cela en appliquuant des filtres passe bas, passe haut...

Une fois notre spectre de réalisé, on créer n filtres de Mels qui jouent le rôle de filtres passe bande, l'objectif ici est de diminuer le nombre d'infos contenue dans le spectre audio. On applique le banc de Mel à chaque fenêtre et pour finir on applique iDCT (Inverse Discret Cosinus Transform) transforme inverse de fourier pour enfin obtenir notre spectre de Mels.

On enregistre ainsi chaque fichier audio du dictionnaire en fichier contenant le spectre de Mels (la taille est très faible quelques kilooctets).
Lorsqu'un locuteur prononce un son, celui-ci est converti en spectre de Mels et est comparé avec chaque mots du dictionnaire eux aussi sous forme de spectres de Mels. Pour effectuer cette comparaison on applique l'algorithme DTW (Dynamic Time Wrapping). Si la valeur retourner par DTW est supérieur à 0.5 c'est que la reconnaissance vocale à échouée et que le mot comparé du dictionnaire avec le son du locuteur est différent. Si c'est en dessous de 0.5 c'est que le son du locuteur correspond au mot du dictionnaire! Avec cette méthode on peut réaliser au maximum un dictionnaire de 300 mots.
avatar
la Nature nous montre seulement la queue du lion. Mais je suis certain que le lion a qui elle appartient pense qu'il ne peut pas se révéler en une fois en raison de son immense taille.

- Fondateur de Ti-Gen -: http://www.tigen.org

- Membre du Groupe Orage Studio -: http://oragestudio.free.fr/

- Mon site perso -: http://tisofts.free.fr

Projets TI68K en cours:
GFA-Basic = http://www.tigen.org/gfabasic
Arkanoid.
PolySnd 3.0.

22

c'est pas plutot MFSC (s pour spectrum) ?
avatar
"- Nigga you know what the fuck I want, nigga: I want your motherfuckin' Daytons, and your motherfuckin' stereo! And I'll take a double burger with cheese!
- WHUT?"
I LOVE TO HATE/I HATE YOUR LOVE -AND I CAN'T FEEL AFFECTION FOR PEOPLE LIKE YOU!
CAALGOOONNNNN [TELLMESOMETHINGIDONTKNOW SHOWMESOMETHINGICANTUSE PUSHTHEBUTTONSCONNECTTHEGODDAMNDOTS] (Si Dieu existe il doit me détester...)

23

Non c'est bien MFCC avec Cepstrum.
avatar
la Nature nous montre seulement la queue du lion. Mais je suis certain que le lion a qui elle appartient pense qu'il ne peut pas se révéler en une fois en raison de son immense taille.

- Fondateur de Ti-Gen -: http://www.tigen.org

- Membre du Groupe Orage Studio -: http://oragestudio.free.fr/

- Mon site perso -: http://tisofts.free.fr

Projets TI68K en cours:
GFA-Basic = http://www.tigen.org/gfabasic
Arkanoid.
PolySnd 3.0.

24

d'accord, comme tu disais spectres sonores j'ai pense que c'etait spectrum le mot

mea culpa
avatar
"- Nigga you know what the fuck I want, nigga: I want your motherfuckin' Daytons, and your motherfuckin' stereo! And I'll take a double burger with cheese!
- WHUT?"
I LOVE TO HATE/I HATE YOUR LOVE -AND I CAN'T FEEL AFFECTION FOR PEOPLE LIKE YOU!
CAALGOOONNNNN [TELLMESOMETHINGIDONTKNOW SHOWMESOMETHINGICANTUSE PUSHTHEBUTTONSCONNECTTHEGODDAMNDOTS] (Si Dieu existe il doit me détester...)

25

ça c'est de l'explication!
par contre, qd il y du bruit aléatoire continu (donc par exemple dans le train ou dans une conversation, cas dans lequel la reconnaissance d'orange marche, je viens d'essayer en parlant devant une de mes enceintes de pc qui diffusait de la musique) (suffisement faible mais pas assez pour discrétiser les signaux ponctuels), ça ne peut marcher que si tu compare en permanence des échantillons de taille variable avec ton dico en leur appliquant en plus le DTW, tu crois que chez orange ont assez de ressources sur leurs serveurs pour faire ça? pê c'est grâce aux faible nombre de motifs à reconnaitre?
question deux: j'ai rien compris?
avatar
fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

26

Il est clair que plus le dictionnaire est faible plus la reconnaissance vocale est parfaite!
Mes tests ont démontrés que dans des conditions difficiles avec un dico d'environ 10 mots on arrive à un taux d'erreur de 20%. Mais après je ne sais pas pas comment Orange améliore la reconnaissance...
avatar
la Nature nous montre seulement la queue du lion. Mais je suis certain que le lion a qui elle appartient pense qu'il ne peut pas se révéler en une fois en raison de son immense taille.

- Fondateur de Ti-Gen -: http://www.tigen.org

- Membre du Groupe Orage Studio -: http://oragestudio.free.fr/

- Mon site perso -: http://tisofts.free.fr

Projets TI68K en cours:
GFA-Basic = http://www.tigen.org/gfabasic
Arkanoid.
PolySnd 3.0.

27

20% c'est encore beaucoup sur 10 mots quand même smile

28

j'adore le traitement du signal trilove

29

geo²> t'as des sources de tes tests ?
avatar
fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

30

Oui mon programme de reconnaissance vocale mais je ne peux pas encore diffuser les sources pour la simple raison c'est que pour l'instant je travail dessus dans le cadre d'un TPE qui doit permettre de controler un robot par reconnaissae vocale. Mais je pense diffuser le dossier du TPE avec les sources lorsque le projet sera terminé.

Sinon oui 20% c'est pas encore parfait mais bon faut améliorer le programme...
avatar
la Nature nous montre seulement la queue du lion. Mais je suis certain que le lion a qui elle appartient pense qu'il ne peut pas se révéler en une fois en raison de son immense taille.

- Fondateur de Ti-Gen -: http://www.tigen.org

- Membre du Groupe Orage Studio -: http://oragestudio.free.fr/

- Mon site perso -: http://tisofts.free.fr

Projets TI68K en cours:
GFA-Basic = http://www.tigen.org/gfabasic
Arkanoid.
PolySnd 3.0.