Il y a en effet plusieurs types de reconnaissances vocales pour des mots.
Les portables utilises principalement la méthode LPC (Prédiction linéaire) mais donne de très mauvais résultats lorsqu'il y a du bruit assez élevé et généralement le dictionnaire est très faible. Environ 20 mots maximum, de plus cette méthode est monolocuteur c'est à dire qu'il faut enregistrer son empreinte vocale. Mais il est possible que cette méthode utilise des empreintes vocales moyenne pour reconnaitre des mots avec plusieurs locuteurs sans apprentissage, mais je doute que ça donne de bons résultats.
Mais une autre méthode qui peut être utilisée dans les portable et la méthode Spectrale MFCC (Mel Frequency Cepstrum Coefficients) dont l'objectif et de comparer des spectres audio et de déterminer un chemin vectoriel optimal.
Avant d'appliquer MFCC on doit créer un spectre audio pour cela on applique un filtre passe bande au signal pour améliorer son traitement. Ensuite on décompose le fichier audio en fenêtre de x^2 échantillons, généralement on découpe le fichier audio avec 512 échantillons par fenêtres, les fenêtres doivent se recouper (généralement de 50

. Ensuite on applique une harmonisation du signal pour éviter des erreurs avec FFT (Fast Fourier Transform), pour cela on applique une fenêtre mathématique sur chaque portions du fichier audio. celle qui donne les meilleurs résultats et la fenêtre de Blackman-Harris. On applique ensuite une transformation de Fourier (FFT) pour récupérer les amplitudes fréquences. Reste a calculer les modules des nombres complexes sur n échantillons/2. Plus le nombre d'échantillons en puissance de 2 dans chaque fenêtre est élevé plus on a des résultats avec des fréquences précises mais plus le domaine temporel est réduit! Le meilleur comprmis et 512 échantillons par fenêtre.
On peut améliorer le spectre en éliminant les bruits de fond ou encore en accentuant certaines fréquences, en éliminant les fréquences inaudibles et même retirer certains sons comme le bruit d'une mouche.

Tout cela en appliquuant des filtres passe bas, passe haut...
Une fois notre spectre de réalisé, on créer n filtres de Mels qui jouent le rôle de filtres passe bande, l'objectif ici est de diminuer le nombre d'infos contenue dans le spectre audio. On applique le banc de Mel à chaque fenêtre et pour finir on applique iDCT (Inverse Discret Cosinus Transform) transforme inverse de fourier pour enfin obtenir notre spectre de Mels.
On enregistre ainsi chaque fichier audio du dictionnaire en fichier contenant le spectre de Mels (la taille est très faible quelques kilooctets).
Lorsqu'un locuteur prononce un son, celui-ci est converti en spectre de Mels et est comparé avec chaque mots du dictionnaire eux aussi sous forme de spectres de Mels. Pour effectuer cette comparaison on applique l'algorithme DTW (Dynamic Time Wrapping). Si la valeur retourner par DTW est supérieur à 0.5 c'est que la reconnaissance vocale à échouée et que le mot comparé du dictionnaire avec le son du locuteur est différent. Si c'est en dessous de 0.5 c'est que le son du locuteur correspond au mot du dictionnaire! Avec cette méthode on peut réaliser au maximum un dictionnaire de 300 mots.