Audio Course documentation
Lectures et ressources complémentaires
Unité 0. Bienvenue au cours !
Unité 1. Travailler avec des données audio
Unité 2. Une introduction en douceur aux applications audio
Unité 3. Architectures de transformers pour l'audio
Unité 4. Construire un classifieur de genres musicaux
Unité 5. Reconnaissance automatique de la parole
Ce que vous allez apprendre et construireModèles pré-entraînés pour la reconnaissance automatique de la paroleChoisir un jeu de donnéesÉvaluation et métriques pour la reconnaissance automatique de la paroleComment finetuner un système de reconnaissance automatique de la parole avec l'API TrainerConstruire une démo avec GradioExercice pratiqueLectures et ressources complémentaires
Unité 6. Du texte à la parole
Unité 7. Rassemblement de tous les éléments
Événements liés au cours
Lectures et ressources complémentaires
Cette unité est une introduction pratique à la reconnaissance automatique de la parole, l’une des tâches les plus populaires dans le domaine audio. Vous voulez en savoir plus ? Vous trouverez ici des ressources supplémentaires (en anglais) qui vous aideront à approfondir votre compréhension du sujet et à améliorer votre expérience d’apprentissage.
- Whisper Talk par Jong Wook Kim : une présentation du modèle Whisper, expliquant la motivation, l’architecture, l’entraînement et les résultats, par l’auteur du modèle.
- End-to-End Speech Benchmark (ESB) : un papier qui plaide en faveur de l’utilisation du WER orthographique plutôt que du WER normalisé pour l’évaluation des systèmes de reconnaissance automatique de la parole et qui présente un benchmark correspondant.
- Fine-Tuning Whisper for Multilingual ASR : un article de blog qui explique le fonctionnement du modèle Whisper de manière plus détaillée, ainsi que les étapes de pré- et post-traitement impliquées dans l’extracteur de caractéristiques et le tokenizer.
- Fine-tuning MMS Adapter Models for Multi-Lingual ASR : un guide complet pour finetuner les nouveaux modèles de reconnaissance vocale MMS de Meta, en gelant les poids du modèle de base et en ne finetunant qu’un petit nombre de couches.
- Boosting Wav2Vec2 with n-grams in 🤗 Transformers](https://huggingface.co/blog/wav2vec2-with-ngram) : un article de blog pour combiner les modèles CTC avec des modèles de langage externes pour combattre les erreurs d’orthographe et de ponctuation.