Press "Enter" to skip to content

Next part

Click "Continue" to confirm that you are not a robot. Thank you for patience. Enjoy watching. ^_^

Q. Comment fonctionne la CMU Sphinx ?

Sphinx utilise des modèles de Markov cachés pour trouver le meilleur chemin à travers les contraintes combinées du modèle acoustique, lexical et linguistique, compte tenu de l'audio d'entrée. Un dictionnaire de prononciation est utilisé pour trouver les séquences pertinentes de phones, et le modèle de langage est utilisé pour trouver les probabilités de séquences de mots.

Q. Qu'est-ce que le système Sphinx ?

Sphinx est un système de reconnaissance de la parole continue, indépendant du locuteur, utilisant des modèles acoustiques de Markov cachés (HMM) et un modèle de langage statistique n-gramme. Il a été développé par Kai-Fu Lee. Un article d'archive décrit le système en détail.

Q. Qu'est-ce que la reconnaissance Sphinx ?

Résumé : Une description est donnée de SPHINX, un système qui démontre la faisabilité d'une reconnaissance de la parole précise, à large vocabulaire, indépendante du locuteur et continue. SPHINX est basé sur des modèles de Markov cachés discrets (HMM) avec des paramètres dérivés LPC (codage prédictif linéaire).

Q. Quelle est la précision de kaldi ?

Kaldi a un WER de 4,14 % (95,86 % de précision) sur le même ensemble de données de test (test-clean) [1] en utilisant un modèle qui s'exécute plus rapidement qu'en temps réel sur le processeur.

Q. Qu'est-ce que la boîte à outils Kaldi ?

Kaldi est une boîte à outils open source de reconnaissance vocale écrite en C++ pour la reconnaissance vocale et le traitement du signal, disponible gratuitement sous la licence Apache v2. Par conséquent, dans les récentes recherches sur les réseaux neuronaux profonds, une utilisation populaire de Kaldi consiste à pré-traiter la forme d'onde brute en caractéristique acoustique pour les modèles neuronaux de bout en bout.

Q. Quelle est la qualité de DeepSpeech ?

DeepSpeech est un logiciel de qualité et a fourni d'excellents résultats de synthèse vocale pour traduire l'audio en texte précis. Je l'ai personnellement beaucoup expérimenté dans le cadre de l'analyse comparative DeepSpeech pour évaluer les performances de son processeur.

Q. L'ASR est-il un problème résolu ?

C'est en fait un problème pour les universitaires que l'ASR se porte si bien. Il est considéré par certains organismes de financement comme un « problème résolu ». Cela signifie que nous ne pouvons pas diplômer beaucoup de doctorants et qu'il y a trop peu de docteurs diplômés pour satisfaire la demande de l'industrie. De plus, bon nombre des meilleurs universitaires se tournent vers l'industrie.

Q. Quelle est la précision de Kaldi ?

Q. Que peut faire Kaldi ?

Kaldi est une boîte à outils open source pour la reconnaissance vocale écrite en C++ et sous licence Apache License v2. 0. Nous pouvons l'utiliser pour former des modèles de reconnaissance vocale et décoder l'audio à partir de fichiers audio.