Reconnaissance vocale - Page 1

1

Le 15/11/2004 à 18:00

Je viens de tester la messagerie 888 de Orange en mode reconnaissance vocale. Je suis assez surpris de son fonctionnement parfait, le programme a reconnu la dizaine de commandes que je lui ai donné sans aucune erreur.

Certes il s'agit de mots simples (rappeler, supprimer, oui, non, répéter, suivant) mais le programme n'avait jamais entendu ma voix.

C'est pas mal du tout. et gratuit bien sûr.

1D86FN9
Nspire wiki
CONDUCTEUR Va-et-vient Des QUATRE MANCHE AVEC DES DIODES
La naissance de Boo en vrai

2

Le 15/11/2004 à 18:42

la derniere fois ( = il y a au moins un an ) que j'avais testé un service de reconnaissance vocale, c'était pas pour le répondeur mais pour le serveur vocal d'information d'orange.

Ben c'était pas tou à fait au point du style tu dis "météo" et il te réponds "vous avez demander Infos Sports "...

J'espère que ça c'est amélioré depuis

3

Le 15/11/2004 à 20:19

Squalyl^2: les logiciels genre "Dragon naturaly speaking", "Via voice" peuvent fonctionner sans apprentissage, certe, ça se ressent, mais ça marche, les systemes comme celui d'orange son autrement plus simple, donc un apprentissage est moins utile

Proud to be CAKE©®™

GCC4TI importe qui a problème en Autriche, pour l'UE plus et une encore de correspours nucléaire, ce n'est pas ytre d'instérier. L'état très même contraire, toujours reconstruire un pouvoir une choyer d'aucrée de compris le plus mite de genre, ce n'est pas moins)
Stalin est l'élection de la langie.

4

Le 15/11/2004 à 20:57

vi c vrai les mots à reconnaitre sont de sonorité différente.

1D86FN9
Nspire wiki
CONDUCTEUR Va-et-vient Des QUATRE MANCHE AVEC DES DIODES
La naissance de Boo en vrai

5

Le 15/11/2004 à 21:49

c'est surtout qu'il y a très peu de mots à reconnaître en plus.

6

Le 16/11/2004 à 14:39

./3-6-4 > oui mais les logiciels genre viavoice ne marchent correctement qu'avec un rapport s/n grand
là il faut compter avec la qualité merdique du son des portables, et le bruit ambiant, et faut avouer que ça marche nickel leur système

fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

7

Le 16/11/2004 à 14:43

#8: tu trouve peut etre que la qualité est merdique, mais le codage GSM peut fortemetn aider pour la reconnaissance

Proud to be CAKE©®™

GCC4TI importe qui a problème en Autriche, pour l'UE plus et une encore de correspours nucléaire, ce n'est pas ytre d'instérier. L'état très même contraire, toujours reconstruire un pouvoir une choyer d'aucrée de compris le plus mite de genre, ce n'est pas moins)
Stalin est l'élection de la langie.

8

Le 16/11/2004 à 14:56

ah? tu peux expliquer stp?

fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

9

Le 16/11/2004 à 15:00

c un codage spectral (je suppose) donc pas besoin de resynthétiser le son dans le domaine temporel, on utilise juste les signaux codés en fréquence du GSM.

1D86FN9
Nspire wiki
CONDUCTEUR Va-et-vient Des QUATRE MANCHE AVEC DES DIODES
La naissance de Boo en vrai

10

Le 16/11/2004 à 15:01

j'entrerais pas dans les détails techniques que je maitrises pas, mais regarde comment fonctionne l'encodage GSM

Proud to be CAKE©®™

GCC4TI importe qui a problème en Autriche, pour l'UE plus et une encore de correspours nucléaire, ce n'est pas ytre d'instérier. L'état très même contraire, toujours reconstruire un pouvoir une choyer d'aucrée de compris le plus mite de genre, ce n'est pas moins)
Stalin est l'élection de la langie.

11

Le 16/11/2004 à 15:06

ok

fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

12

Le 16/11/2004 à 15:54

c vraiement pas des détails, que j'ai donné...

1D86FN9
Nspire wiki
CONDUCTEUR Va-et-vient Des QUATRE MANCHE AVEC DES DIODES
La naissance de Boo en vrai

13

Le 16/11/2004 à 16:22

squalyl^2: ct un cross

Proud to be CAKE©®™

GCC4TI importe qui a problème en Autriche, pour l'UE plus et une encore de correspours nucléaire, ce n'est pas ytre d'instérier. L'état très même contraire, toujours reconstruire un pouvoir une choyer d'aucrée de compris le plus mite de genre, ce n'est pas moins)
Stalin est l'élection de la langie.

14

Le 16/11/2004 à 19:45

Mouais euh j'y crois pas une seule seconde que ça aide... Découper le signal pour mieux le compresser et découper le signal pour faire de la reconnaissance vocale, c'est pas vraiment la même chose... Il n'y a pas une unique "transformée en fréquence", c'est juste que la forme temporelle du signal est une transformée particulière qui comporte une seule bande de fréquence...

Et ça ne m'étonneraient pas que les filtres utilisés pour le GSM soient relativement "primaires" et qu'on ait besoin de trucs plus spécifiques.

« The biggest civil liberty of all is not to be killed by a terrorist. » (Geoff Hoon, ministre des transports anglais)

15

Le 16/11/2004 à 19:56

ça doit être dans mon bouquin de reseau, vais regarder ça qd j'aurai cinq minutes

fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

16

Le 16/11/2004 à 20:56

faudrait tester le service dans des conditions "difficiles" genre dans une grande rue à Paris avec un crétin de motard qui a scié son pot

17

Le 16/11/2004 à 20:56

huhu

Proud to be CAKE©®™

GCC4TI importe qui a problème en Autriche, pour l'UE plus et une encore de correspours nucléaire, ce n'est pas ytre d'instérier. L'état très même contraire, toujours reconstruire un pouvoir une choyer d'aucrée de compris le plus mite de genre, ce n'est pas moins)
Stalin est l'élection de la langie.

18

Le 17/11/2004 à 02:29

chiche!

1D86FN9
Nspire wiki
CONDUCTEUR Va-et-vient Des QUATRE MANCHE AVEC DES DIODES
La naissance de Boo en vrai

19

Le 17/11/2004 à 07:25

j'ai pas spécialement que ça à faire et mes cours ont lieu en rase cammpagne, ça va être dur... Quoique, en trouvant une vache...

20

Le 17/11/2004 à 18:57

j'ai testé dans le train entre les wagons et ça fonctionnait bien !

fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

21

Le 17/11/2004 à 19:47

Il y a en effet plusieurs types de reconnaissances vocales pour des mots.
Les portables utilises principalement la méthode LPC (Prédiction linéaire) mais donne de très mauvais résultats lorsqu'il y a du bruit assez élevé et généralement le dictionnaire est très faible. Environ 20 mots maximum, de plus cette méthode est monolocuteur c'est à dire qu'il faut enregistrer son empreinte vocale. Mais il est possible que cette méthode utilise des empreintes vocales moyenne pour reconnaitre des mots avec plusieurs locuteurs sans apprentissage, mais je doute que ça donne de bons résultats.

Mais une autre méthode qui peut être utilisée dans les portable et la méthode Spectrale MFCC (Mel Frequency Cepstrum Coefficients) dont l'objectif et de comparer des spectres audio et de déterminer un chemin vectoriel optimal.

Avant d'appliquer MFCC on doit créer un spectre audio pour cela on applique un filtre passe bande au signal pour améliorer son traitement. Ensuite on décompose le fichier audio en fenêtre de x^2 échantillons, généralement on découpe le fichier audio avec 512 échantillons par fenêtres, les fenêtres doivent se recouper (généralement de 50

. Ensuite on applique une harmonisation du signal pour éviter des erreurs avec FFT (Fast Fourier Transform), pour cela on applique une fenêtre mathématique sur chaque portions du fichier audio. celle qui donne les meilleurs résultats et la fenêtre de Blackman-Harris. On applique ensuite une transformation de Fourier (FFT) pour récupérer les amplitudes fréquences. Reste a calculer les modules des nombres complexes sur n échantillons/2. Plus le nombre d'échantillons en puissance de 2 dans chaque fenêtre est élevé plus on a des résultats avec des fréquences précises mais plus le domaine temporel est réduit! Le meilleur comprmis et 512 échantillons par fenêtre.

On peut améliorer le spectre en éliminant les bruits de fond ou encore en accentuant certaines fréquences, en éliminant les fréquences inaudibles et même retirer certains sons comme le bruit d'une mouche.

Tout cela en appliquuant des filtres passe bas, passe haut...

Une fois notre spectre de réalisé, on créer n filtres de Mels qui jouent le rôle de filtres passe bande, l'objectif ici est de diminuer le nombre d'infos contenue dans le spectre audio. On applique le banc de Mel à chaque fenêtre et pour finir on applique iDCT (Inverse Discret Cosinus Transform) transforme inverse de fourier pour enfin obtenir notre spectre de Mels.

On enregistre ainsi chaque fichier audio du dictionnaire en fichier contenant le spectre de Mels (la taille est très faible quelques kilooctets).
Lorsqu'un locuteur prononce un son, celui-ci est converti en spectre de Mels et est comparé avec chaque mots du dictionnaire eux aussi sous forme de spectres de Mels. Pour effectuer cette comparaison on applique l'algorithme DTW (Dynamic Time Wrapping). Si la valeur retourner par DTW est supérieur à 0.5 c'est que la reconnaissance vocale à échouée et que le mot comparé du dictionnaire avec le son du locuteur est différent. Si c'est en dessous de 0.5 c'est que le son du locuteur correspond au mot du dictionnaire! Avec cette méthode on peut réaliser au maximum un dictionnaire de 300 mots.

la Nature nous montre seulement la queue du lion. Mais je suis certain que le lion a qui elle appartient pense qu'il ne peut pas se révéler en une fois en raison de son immense taille.

- Fondateur de Ti-Gen -: http://www.tigen.org

- Membre du Groupe Orage Studio -: http://oragestudio.free.fr/

- Mon site perso -: http://tisofts.free.fr

Projets TI68K en cours:
GFA-Basic = http://www.tigen.org/gfabasic
Arkanoid.
PolySnd 3.0.

22

Le 17/11/2004 à 21:03

c'est pas plutot MFSC (s pour spectrum) ?

"- Nigga you know what the fuck I want, nigga: I want your motherfuckin' Daytons, and your motherfuckin' stereo! And I'll take a double burger with cheese!
- WHUT?"
I LOVE TO HATE/I HATE YOUR LOVE -AND I CAN'T FEEL AFFECTION FOR PEOPLE LIKE YOU!
CAALGOOONNNNN [TELLMESOMETHINGIDONTKNOW SHOWMESOMETHINGICANTUSE PUSHTHEBUTTONSCONNECTTHEGODDAMNDOTS] (Si Dieu existe il doit me détester...)

23

Le 17/11/2004 à 21:29

Non c'est bien MFCC avec Cepstrum.

la Nature nous montre seulement la queue du lion. Mais je suis certain que le lion a qui elle appartient pense qu'il ne peut pas se révéler en une fois en raison de son immense taille.

- Fondateur de Ti-Gen -: http://www.tigen.org

- Membre du Groupe Orage Studio -: http://oragestudio.free.fr/

- Mon site perso -: http://tisofts.free.fr

Projets TI68K en cours:
GFA-Basic = http://www.tigen.org/gfabasic
Arkanoid.
PolySnd 3.0.

24

Le 17/11/2004 à 21:36

d'accord, comme tu disais spectres sonores j'ai pense que c'etait spectrum le mot

mea culpa

"- Nigga you know what the fuck I want, nigga: I want your motherfuckin' Daytons, and your motherfuckin' stereo! And I'll take a double burger with cheese!
- WHUT?"
I LOVE TO HATE/I HATE YOUR LOVE -AND I CAN'T FEEL AFFECTION FOR PEOPLE LIKE YOU!
CAALGOOONNNNN [TELLMESOMETHINGIDONTKNOW SHOWMESOMETHINGICANTUSE PUSHTHEBUTTONSCONNECTTHEGODDAMNDOTS] (Si Dieu existe il doit me détester...)

25

Le 17/11/2004 à 22:02

ça c'est de l'explication!
par contre, qd il y du bruit aléatoire continu (donc par exemple dans le train ou dans une conversation, cas dans lequel la reconnaissance d'orange marche, je viens d'essayer en parlant devant une de mes enceintes de pc qui diffusait de la musique) (suffisement faible mais pas assez pour discrétiser les signaux ponctuels), ça ne peut marcher que si tu compare en permanence des échantillons de taille variable avec ton dico en leur appliquant en plus le DTW, tu crois que chez orange ont assez de ressources sur leurs serveurs pour faire ça? pê c'est grâce aux faible nombre de motifs à reconnaitre?
question deux: j'ai rien compris?

fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

26

Le 18/11/2004 à 13:20

Il est clair que plus le dictionnaire est faible plus la reconnaissance vocale est parfaite!
Mes tests ont démontrés que dans des conditions difficiles avec un dico d'environ 10 mots on arrive à un taux d'erreur de 20%. Mais après je ne sais pas pas comment Orange améliore la reconnaissance...

la Nature nous montre seulement la queue du lion. Mais je suis certain que le lion a qui elle appartient pense qu'il ne peut pas se révéler en une fois en raison de son immense taille.

- Fondateur de Ti-Gen -: http://www.tigen.org

- Membre du Groupe Orage Studio -: http://oragestudio.free.fr/

- Mon site perso -: http://tisofts.free.fr

Projets TI68K en cours:
GFA-Basic = http://www.tigen.org/gfabasic
Arkanoid.
PolySnd 3.0.

27

Le 18/11/2004 à 13:44

20% c'est encore beaucoup sur 10 mots quand même

28

Le 18/11/2004 à 15:09

j'adore le traitement du signal

29

Le 18/11/2004 à 17:16

geo²> t'as des sources de tes tests ?

fabetal_ > Hier, je me suis fait monter par un pote
redangel > et en chevals, ça donne quoi?
Nil> OMG I think I'm gay

30

Le 18/11/2004 à 19:19

Oui mon programme de reconnaissance vocale mais je ne peux pas encore diffuser les sources pour la simple raison c'est que pour l'instant je travail dessus dans le cadre d'un TPE qui doit permettre de controler un robot par reconnaissae vocale. Mais je pense diffuser le dossier du TPE avec les sources lorsque le projet sera terminé.

Sinon oui 20% c'est pas encore parfait mais bon faut améliorer le programme...

la Nature nous montre seulement la queue du lion. Mais je suis certain que le lion a qui elle appartient pense qu'il ne peut pas se révéler en une fois en raison de son immense taille.

- Fondateur de Ti-Gen -: http://www.tigen.org

- Membre du Groupe Orage Studio -: http://oragestudio.free.fr/

- Mon site perso -: http://tisofts.free.fr

Projets TI68K en cours:
GFA-Basic = http://www.tigen.org/gfabasic
Arkanoid.
PolySnd 3.0.