Spaces:

RobotsMali
/

RobotsMali_ASR_DEMO

Sleeping

App Files Files Community

binaryMao commited on Oct 17

Commit

bfedbb0

verified ·

1 Parent(s): c4470bd

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -19

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 # -*- coding: utf-8 -*-
 """RobotsMali_ASR_Demo.ipynb - Script Final pour Démo Fluide et Stable
-Version optimisée pour la RAM (découpage), la vitesse (warm-up), et la stabilité (correction de la forme audio).
 """
 import gradio as gr
 import time
@@ -20,8 +20,6 @@ ROBOTSMALI_MODELS = [
     "RobotsMali/soloba-ctc-0.6b-v0",
     "RobotsMali/soloni-114m-tdt-ctc-v1",
     "RobotsMali/soloni-114m-tdt-ctc-V0",
-    # Les modèles suivants ont historiquement eu des problèmes de chargement (vu dans les logs),
-    # mais sont inclus pour l'exhaustivité si l'utilisateur veut les tester.
     "RobotsMali/stt-bm-quartznet5x5-V0",
     "RobotsMali/stt-bm-quartznet5x5-v1",
     "RobotsMali/soloba-ctc-0.6b-v1"
@@ -57,15 +55,12 @@ def load_pipeline(model_name):
             # ----------------------------------------------------
             print(f"   [Warmup] Exécution d'une inférence à blanc...")
-            # Création et écriture d'un segment mono de 1 seconde
-            dummy_audio = np.random.randn(SR_TARGET).astype(np.float32)
             sf.write(temp_warmup_file, dummy_audio, SR_TARGET)
-            # Lancement de l'inférence
             model_instance.transcribe([temp_warmup_file], batch_size=1)
             print(f"   [Warmup] Terminé.")
-            # ----------------------------------------------------
         except Exception as e:
             if model_name in asr_pipelines:
@@ -85,7 +80,6 @@ def load_pipeline(model_name):
 def transcribe_audio(model_name: str, audio_path: str):
     """
     Effectue la transcription ASR avec découpage (chunking) et streaming d'état.
-    Intègre la correction pour la forme audio (squeeze) et gère l'objet Hypothesis.
     """
     if audio_path is None:
         yield "⚠️ Veuillez d'abord télécharger ou enregistrer un fichier audio."
@@ -104,7 +98,6 @@ def transcribe_audio(model_name: str, audio_path: str):
         # ----------------------------------------------------------------
         yield f"**[1/4] CHARGEMENT AUDIO...** Préparation du fichier original (Mono @ 16kHz). ⚙️"
-        # Le mono=True de librosa garantit le canal unique (dimension (T,))
         full_audio_data, sr = librosa.load(audio_path, sr=SR_TARGET, mono=True)
         total_duration = len(full_audio_data) / SR_TARGET
@@ -131,11 +124,9 @@ def transcribe_audio(model_name: str, audio_path: str):
         for idx, segment_data in enumerate(audio_segments):
-            # Message d'état
             yield f"**[3/4] TRANSCRIPTION EN COURS...** Analyse du segment {idx + 1}/{num_chunks}. ⏳"
-            # --- CORRECTION CRITIQUE DE LA FORME DE L'AUDIO (shape mismatch fix) ---
-            # S'assurer que l'array NumPy est strictement à 1 dimension (mono)
             segment_data = segment_data.squeeze()
             # Écriture du chunk temporaire
@@ -151,7 +142,6 @@ def transcribe_audio(model_name: str, audio_path: str):
             if transcriptions and transcriptions[0]:
                 hyp_object = transcriptions[0]
-                # Accède à l'attribut .text de l'objet Hypothesis ou à la chaîne si déjà simple
                 if hasattr(hyp_object, 'text'):
                     segment_text = hyp_object.text.strip()
                 elif isinstance(hyp_object, str):
@@ -162,7 +152,6 @@ def transcribe_audio(model_name: str, audio_path: str):
             if not segment_text:
                 segment_text = "[Transcription vide]"
-            # Ajout d'un double saut de ligne pour le format "Lyrics"
             full_transcription_text += segment_text + "\n\n"
         # ----------------------------------------------------
@@ -182,22 +171,27 @@ def transcribe_audio(model_name: str, audio_path: str):
         # 2. PRÉSENTATION LYRICS PROPRE
         output += "**RÉSULTAT DE LA TRANSCRIPTION (Lyrics) :**\n"
-        # Utilisation du bloc de citation Markdown pour une mise en évidence structurée
-        output += ">>> " + transcription_text_final.replace('\n\n', '\n>>> ')
         # 3. NOTE FINALE
         output += "\n\n*Note : Audio converti en **Mono @ 16kHz** pour la transcription.*"
-        # Le dernier 'yield' envoie le résultat final
         yield output
     except RuntimeError as e:
         yield f"❌ Erreur critique lors du chargement : {str(e)}"
     except Exception as e:
         # Affiche le texte partiel en cas d'erreur
         if 'full_transcription_text' in locals() and full_transcription_text:
-             yield f"❌ Erreur lors de la transcription, le traitement s'est arrêté. Texte partiel:\n>>> {full_transcription_text.strip().replace('\n\n', '\n>>> ')}"
         yield f"❌ Erreur générale : {e}"
     finally:
         # Nettoyage
         for chunk_path in temp_chunk_paths:
@@ -254,4 +248,4 @@ interface = gr.Interface(
     allow_flagging="never")
 print("Lancement de l'interface Gradio...")
-interface.launch(share=True)

 # -*- coding: utf-8 -*-
 """RobotsMali_ASR_Demo.ipynb - Script Final pour Démo Fluide et Stable
+Version corrigée du SyntaxError.
 """
 import gradio as gr
 import time
     "RobotsMali/soloba-ctc-0.6b-v0",
     "RobotsMali/soloni-114m-tdt-ctc-v1",
     "RobotsMali/soloni-114m-tdt-ctc-V0",
     "RobotsMali/stt-bm-quartznet5x5-V0",
     "RobotsMali/stt-bm-quartznet5x5-v1",
     "RobotsMali/soloba-ctc-0.6b-v1"
             # ----------------------------------------------------
             print(f"   [Warmup] Exécution d'une inférence à blanc...")
+            dummy_audio = np.random.randn(SR_TARGET).astype(np.float32)
             sf.write(temp_warmup_file, dummy_audio, SR_TARGET)
             model_instance.transcribe([temp_warmup_file], batch_size=1)
             print(f"   [Warmup] Terminé.")
         except Exception as e:
             if model_name in asr_pipelines:
 def transcribe_audio(model_name: str, audio_path: str):
     """
     Effectue la transcription ASR avec découpage (chunking) et streaming d'état.
     """
     if audio_path is None:
         yield "⚠️ Veuillez d'abord télécharger ou enregistrer un fichier audio."
         # ----------------------------------------------------------------
         yield f"**[1/4] CHARGEMENT AUDIO...** Préparation du fichier original (Mono @ 16kHz). ⚙️"
         full_audio_data, sr = librosa.load(audio_path, sr=SR_TARGET, mono=True)
         total_duration = len(full_audio_data) / SR_TARGET
         for idx, segment_data in enumerate(audio_segments):
             yield f"**[3/4] TRANSCRIPTION EN COURS...** Analyse du segment {idx + 1}/{num_chunks}. ⏳"
+            # --- CORRECTION DE LA FORME AUDIO (squeeze) ---
             segment_data = segment_data.squeeze()
             # Écriture du chunk temporaire
             if transcriptions and transcriptions[0]:
                 hyp_object = transcriptions[0]
                 if hasattr(hyp_object, 'text'):
                     segment_text = hyp_object.text.strip()
                 elif isinstance(hyp_object, str):
             if not segment_text:
                 segment_text = "[Transcription vide]"
             full_transcription_text += segment_text + "\n\n"
         # ----------------------------------------------------
         # 2. PRÉSENTATION LYRICS PROPRE
         output += "**RÉSULTAT DE LA TRANSCRIPTION (Lyrics) :**\n"
+        # Préparation du texte pour le Markdown (Remplacement avant le yield)
+        formatted_lyrics = transcription_text_final.replace('\n\n', '\n>>> ')
+        output += f">>> {formatted_lyrics}"
         # 3. NOTE FINALE
         output += "\n\n*Note : Audio converti en **Mono @ 16kHz** pour la transcription.*"
         yield output
     except RuntimeError as e:
         yield f"❌ Erreur critique lors du chargement : {str(e)}"
     except Exception as e:
+        # --- CORRECTION DE SYNTAXE APPLIQUÉE ICI ---
         # Affiche le texte partiel en cas d'erreur
         if 'full_transcription_text' in locals() and full_transcription_text:
+             partial_text = full_transcription_text.strip().replace('\n\n', '\n>>> ')
+             yield f"❌ Erreur lors de la transcription, le traitement s'est arrêté. Texte partiel:\n>>> {partial_text}"
         yield f"❌ Erreur générale : {e}"
     finally:
         # Nettoyage
         for chunk_path in temp_chunk_paths:
     allow_flagging="never")
 print("Lancement de l'interface Gradio...")
+interface.launch(share=True)