Spaces:

RobotsMali
/

RobotsMali_ASR_DEMO

Sleeping

App Files Files Community

binaryMao commited on Oct 17

Commit

86a7fc0

verified ·

1 Parent(s): bb1980c

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -9

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 # -*- coding: utf-8 -*-
 """RobotsMali_ASR_Demo.ipynb - Script Final pour Démo Fluide et Stable
-Version optimisée pour la RAM, la vitesse et l'affichage 'Lyrics'.
 """
 import gradio as gr
 import time
@@ -20,6 +20,8 @@ ROBOTSMALI_MODELS = [
     "RobotsMali/soloba-ctc-0.6b-v0",
     "RobotsMali/soloni-114m-tdt-ctc-v1",
     "RobotsMali/soloni-114m-tdt-ctc-V0",
     "RobotsMali/stt-bm-quartznet5x5-V0",
     "RobotsMali/stt-bm-quartznet5x5-v1",
     "RobotsMali/soloba-ctc-0.6b-v1"
@@ -55,9 +57,11 @@ def load_pipeline(model_name):
             # ----------------------------------------------------
             print(f"   [Warmup] Exécution d'une inférence à blanc...")
-            dummy_audio = np.random.randn(SR_TARGET).astype(np.float32) # 1s d'audio
             sf.write(temp_warmup_file, dummy_audio, SR_TARGET)
             model_instance.transcribe([temp_warmup_file], batch_size=1)
             print(f"   [Warmup] Terminé.")
@@ -81,6 +85,7 @@ def load_pipeline(model_name):
 def transcribe_audio(model_name: str, audio_path: str):
     """
     Effectue la transcription ASR avec découpage (chunking) et streaming d'état.
     """
     if audio_path is None:
         yield "⚠️ Veuillez d'abord télécharger ou enregistrer un fichier audio."
@@ -91,7 +96,7 @@ def transcribe_audio(model_name: str, audio_path: str):
     start_time = time.time()
     model_short_name = model_name.split('/')[-1]
-    temp_chunk_paths = [] # Pour le nettoyage final
     try:
         # ----------------------------------------------------------------
@@ -99,6 +104,7 @@ def transcribe_audio(model_name: str, audio_path: str):
         # ----------------------------------------------------------------
         yield f"**[1/4] CHARGEMENT AUDIO...** Préparation du fichier original (Mono @ 16kHz). ⚙️"
         full_audio_data, sr = librosa.load(audio_path, sr=SR_TARGET, mono=True)
         total_duration = len(full_audio_data) / SR_TARGET
@@ -125,9 +131,13 @@ def transcribe_audio(model_name: str, audio_path: str):
         for idx, segment_data in enumerate(audio_segments):
-            # Message d'état clé pour l'utilisateur
             yield f"**[3/4] TRANSCRIPTION EN COURS...** Analyse du segment {idx + 1}/{num_chunks}. ⏳"
             # Écriture du chunk temporaire
             chunk_path = f"{os.path.splitext(os.path.basename(audio_path))[0]}_chunk_{idx}.wav"
             sf.write(chunk_path, segment_data, SR_TARGET)
@@ -136,24 +146,23 @@ def transcribe_audio(model_name: str, audio_path: str):
             # 🚀 INFÉRENCE NEMO
             transcriptions = asr_model.transcribe([chunk_path], batch_size=1)
-            # --- GESTION DE L'OBJET HYPOTHESIS (CORRIGÉE) ---
             segment_text = ""
             if transcriptions and transcriptions[0]:
                 hyp_object = transcriptions[0]
-                # Accède à l'attribut .text de l'objet Hypothesis
                 if hasattr(hyp_object, 'text'):
                     segment_text = hyp_object.text.strip()
                 elif isinstance(hyp_object, str):
                     segment_text = hyp_object.strip()
-                # Gère le cas où transcribe retourne une liste de listes
                 elif isinstance(hyp_object, list) and hasattr(hyp_object[0], 'text'):
                     segment_text = hyp_object[0].text.strip()
             if not segment_text:
                 segment_text = "[Transcription vide]"
-            # Ajout d'un double saut de ligne pour le format "Lyrics" (paragraphe par segment)
             full_transcription_text += segment_text + "\n\n"
         # ----------------------------------------------------
@@ -173,7 +182,7 @@ def transcribe_audio(model_name: str, audio_path: str):
         # 2. PRÉSENTATION LYRICS PROPRE
         output += "**RÉSULTAT DE LA TRANSCRIPTION (Lyrics) :**\n"
-        # Utilisation du bloc de citation Markdown pour la structure
         output += ">>> " + transcription_text_final.replace('\n\n', '\n>>> ')
         # 3. NOTE FINALE

 # -*- coding: utf-8 -*-
 """RobotsMali_ASR_Demo.ipynb - Script Final pour Démo Fluide et Stable
+Version optimisée pour la RAM (découpage), la vitesse (warm-up), et la stabilité (correction de la forme audio).
 """
 import gradio as gr
 import time
     "RobotsMali/soloba-ctc-0.6b-v0",
     "RobotsMali/soloni-114m-tdt-ctc-v1",
     "RobotsMali/soloni-114m-tdt-ctc-V0",
+    # Les modèles suivants ont historiquement eu des problèmes de chargement (vu dans les logs),
+    # mais sont inclus pour l'exhaustivité si l'utilisateur veut les tester.
     "RobotsMali/stt-bm-quartznet5x5-V0",
     "RobotsMali/stt-bm-quartznet5x5-v1",
     "RobotsMali/soloba-ctc-0.6b-v1"
             # ----------------------------------------------------
             print(f"   [Warmup] Exécution d'une inférence à blanc...")
+            # Création et écriture d'un segment mono de 1 seconde
+            dummy_audio = np.random.randn(SR_TARGET).astype(np.float32)
             sf.write(temp_warmup_file, dummy_audio, SR_TARGET)
+            # Lancement de l'inférence
             model_instance.transcribe([temp_warmup_file], batch_size=1)
             print(f"   [Warmup] Terminé.")
 def transcribe_audio(model_name: str, audio_path: str):
     """
     Effectue la transcription ASR avec découpage (chunking) et streaming d'état.
+    Intègre la correction pour la forme audio (squeeze) et gère l'objet Hypothesis.
     """
     if audio_path is None:
         yield "⚠️ Veuillez d'abord télécharger ou enregistrer un fichier audio."
     start_time = time.time()
     model_short_name = model_name.split('/')[-1]
+    temp_chunk_paths = []
     try:
         # ----------------------------------------------------------------
         # ----------------------------------------------------------------
         yield f"**[1/4] CHARGEMENT AUDIO...** Préparation du fichier original (Mono @ 16kHz). ⚙️"
+        # Le mono=True de librosa garantit le canal unique (dimension (T,))
         full_audio_data, sr = librosa.load(audio_path, sr=SR_TARGET, mono=True)
         total_duration = len(full_audio_data) / SR_TARGET
         for idx, segment_data in enumerate(audio_segments):
+            # Message d'état
             yield f"**[3/4] TRANSCRIPTION EN COURS...** Analyse du segment {idx + 1}/{num_chunks}. ⏳"
+            # --- CORRECTION CRITIQUE DE LA FORME DE L'AUDIO (shape mismatch fix) ---
+            # S'assurer que l'array NumPy est strictement à 1 dimension (mono)
+            segment_data = segment_data.squeeze()
             # Écriture du chunk temporaire
             chunk_path = f"{os.path.splitext(os.path.basename(audio_path))[0]}_chunk_{idx}.wav"
             sf.write(chunk_path, segment_data, SR_TARGET)
             # 🚀 INFÉRENCE NEMO
             transcriptions = asr_model.transcribe([chunk_path], batch_size=1)
+            # --- GESTION DE L'OBJET HYPOTHESIS ---
             segment_text = ""
             if transcriptions and transcriptions[0]:
                 hyp_object = transcriptions[0]
+                # Accède à l'attribut .text de l'objet Hypothesis ou à la chaîne si déjà simple
                 if hasattr(hyp_object, 'text'):
                     segment_text = hyp_object.text.strip()
                 elif isinstance(hyp_object, str):
                     segment_text = hyp_object.strip()
                 elif isinstance(hyp_object, list) and hasattr(hyp_object[0], 'text'):
                     segment_text = hyp_object[0].text.strip()
             if not segment_text:
                 segment_text = "[Transcription vide]"
+            # Ajout d'un double saut de ligne pour le format "Lyrics"
             full_transcription_text += segment_text + "\n\n"
         # ----------------------------------------------------
         # 2. PRÉSENTATION LYRICS PROPRE
         output += "**RÉSULTAT DE LA TRANSCRIPTION (Lyrics) :**\n"
+        # Utilisation du bloc de citation Markdown pour une mise en évidence structurée
         output += ">>> " + transcription_text_final.replace('\n\n', '\n>>> ')
         # 3. NOTE FINALE