Spaces:

kemuriririn
/

CosyVoice2-0.5B

Runtime error

App Files Files Community

kemuriririn commited on Jun 5

Commit

a692a02

1 Parent(s): 975e651

update

Browse files

Files changed (1) hide show

cosyvoice/cli/cosyvoice.py +31 -2

cosyvoice/cli/cosyvoice.py CHANGED Viewed

@@ -26,11 +26,13 @@ class CosyVoice:
     @spaces.GPU
     def __init__(self, model_dir, load_jit=True, load_onnx=False, fp16=True):
         instruct = True if '-Instruct' in model_dir else False
         self.model_dir = model_dir
         if not os.path.exists(model_dir):
             model_dir = snapshot_download(model_dir)
         with open('{}/cosyvoice.yaml'.format(model_dir), 'r') as f:
             configs = load_hyperpyyaml(f)
         self.frontend = CosyVoiceFrontEnd(configs['get_tokenizer'],
                                           configs['feat_extractor'],
                                           '{}/campplus.onnx'.format(model_dir),
@@ -53,15 +55,25 @@ class CosyVoice:
                                 '{}/flow.encoder.fp32.zip'.format(model_dir))
         if load_onnx:
             self.model.load_onnx('{}/flow.decoder.estimator.fp32.onnx'.format(model_dir))
-        del configs
     @spaces.GPU
     def list_avaliable_spks(self):
         spks = list(self.frontend.spk2info.keys())
         return spks
     @spaces.GPU
     def inference_sft(self, tts_text, spk_id, stream=False, speed=1.0):
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
             model_input = self.frontend.frontend_sft(i, spk_id)
             start_time = time.time()
@@ -74,6 +86,7 @@ class CosyVoice:
     @spaces.GPU
     def inference_zero_shot(self, tts_text, prompt_text, prompt_speech_16k, stream=False, speed=1.0):
         prompt_text = self.frontend.text_normalize(prompt_text, split=False)
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
             if len(i) < 0.5 * len(prompt_text):
@@ -89,6 +102,7 @@ class CosyVoice:
     @spaces.GPU
     def inference_cross_lingual(self, tts_text, prompt_speech_16k, stream=False, speed=1.0):
         if self.frontend.instruct is True:
             raise ValueError('{} do not support cross_lingual inference'.format(self.model_dir))
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
@@ -103,6 +117,7 @@ class CosyVoice:
     @spaces.GPU
     def inference_instruct(self, tts_text, spk_id, instruct_text, stream=False, speed=1.0):
         assert isinstance(self.model, CosyVoiceModel), 'inference_instruct is only implemented for CosyVoice!'
         if self.frontend.instruct is False:
             raise ValueError('{} do not support instruct inference'.format(self.model_dir))
@@ -119,6 +134,7 @@ class CosyVoice:
     @spaces.GPU
     def inference_instruct2(self, tts_text, instruct_text, prompt_speech_16k, stream=False, speed=1.0):
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
             model_input = self.frontend.frontend_instruct2(i, instruct_text, prompt_speech_16k, self.sample_rate)
             start_time = time.time()
@@ -131,6 +147,7 @@ class CosyVoice:
     @spaces.GPU
     def inference_vc(self, source_speech_16k, prompt_speech_16k, stream=False, speed=1.0):
         model_input = self.frontend.frontend_vc(source_speech_16k, prompt_speech_16k, self.sample_rate)
         start_time = time.time()
         for model_output in self.model.vc(**model_input, stream=stream, speed=speed):
@@ -143,11 +160,13 @@ class CosyVoice2(CosyVoice):
     @spaces.GPU
     def __init__(self, model_dir, load_jit=False, load_onnx=False, load_trt=False):
         instruct = True if '-Instruct' in model_dir else False
         self.model_dir = model_dir
         if not os.path.exists(model_dir):
             model_dir = snapshot_download(model_dir)
         with open('{}/cosyvoice.yaml'.format(model_dir), 'r') as f:
             configs = load_hyperpyyaml(f, overrides={'qwen_pretrain_path': os.path.join(model_dir, 'CosyVoice-BlankEN')})
         # print(f"Loading configs:{configs}")
         self.frontend = CosyVoiceFrontEnd(configs['get_tokenizer'],
                                           configs['feat_extractor'],
@@ -177,4 +196,14 @@ class CosyVoice2(CosyVoice):
             self.model.load_onnx('{}/flow.decoder.estimator.fp32.onnx'.format(model_dir))
         if load_trt:
             self.model.load_trt('{}/flow.decoder.estimator.fp16.l20.plan'.format(model_dir))
-        del configs

     @spaces.GPU
     def __init__(self, model_dir, load_jit=True, load_onnx=False, fp16=True):
         instruct = True if '-Instruct' in model_dir else False
+        self.instruct = instruct
         self.model_dir = model_dir
         if not os.path.exists(model_dir):
             model_dir = snapshot_download(model_dir)
         with open('{}/cosyvoice.yaml'.format(model_dir), 'r') as f:
             configs = load_hyperpyyaml(f)
+        self.configs = configs
         self.frontend = CosyVoiceFrontEnd(configs['get_tokenizer'],
                                           configs['feat_extractor'],
                                           '{}/campplus.onnx'.format(model_dir),
                                 '{}/flow.encoder.fp32.zip'.format(model_dir))
         if load_onnx:
             self.model.load_onnx('{}/flow.decoder.estimator.fp32.onnx'.format(model_dir))
     @spaces.GPU
     def list_avaliable_spks(self):
         spks = list(self.frontend.spk2info.keys())
         return spks
+    @spaces.GPU
+    def reload_frontend(self):
+        self.frontend = CosyVoiceFrontEnd(self.configs['get_tokenizer'],
+                                          self.configs['feat_extractor'],
+                                          '{}/campplus.onnx'.format(self.model_dir),
+                                          '{}/speech_tokenizer_v1.onnx'.format(self.model_dir),
+                                          '{}/spk2info.pt'.format(self.model_dir),
+                                          self.instruct,
+                                          self.configs['allowed_special'])
     @spaces.GPU
     def inference_sft(self, tts_text, spk_id, stream=False, speed=1.0):
+        self.reload_frontend()
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
             model_input = self.frontend.frontend_sft(i, spk_id)
             start_time = time.time()
     @spaces.GPU
     def inference_zero_shot(self, tts_text, prompt_text, prompt_speech_16k, stream=False, speed=1.0):
+        self.reload_frontend()
         prompt_text = self.frontend.text_normalize(prompt_text, split=False)
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
             if len(i) < 0.5 * len(prompt_text):
     @spaces.GPU
     def inference_cross_lingual(self, tts_text, prompt_speech_16k, stream=False, speed=1.0):
+        self.reload_frontend()
         if self.frontend.instruct is True:
             raise ValueError('{} do not support cross_lingual inference'.format(self.model_dir))
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
     @spaces.GPU
     def inference_instruct(self, tts_text, spk_id, instruct_text, stream=False, speed=1.0):
+        self.reload_frontend()
         assert isinstance(self.model, CosyVoiceModel), 'inference_instruct is only implemented for CosyVoice!'
         if self.frontend.instruct is False:
             raise ValueError('{} do not support instruct inference'.format(self.model_dir))
     @spaces.GPU
     def inference_instruct2(self, tts_text, instruct_text, prompt_speech_16k, stream=False, speed=1.0):
+        self.reload_frontend()
         for i in tqdm(self.frontend.text_normalize(tts_text, split=True)):
             model_input = self.frontend.frontend_instruct2(i, instruct_text, prompt_speech_16k, self.sample_rate)
             start_time = time.time()
     @spaces.GPU
     def inference_vc(self, source_speech_16k, prompt_speech_16k, stream=False, speed=1.0):
+        self.reload_frontend()
         model_input = self.frontend.frontend_vc(source_speech_16k, prompt_speech_16k, self.sample_rate)
         start_time = time.time()
         for model_output in self.model.vc(**model_input, stream=stream, speed=speed):
     @spaces.GPU
     def __init__(self, model_dir, load_jit=False, load_onnx=False, load_trt=False):
         instruct = True if '-Instruct' in model_dir else False
+        self.instruct = instruct
         self.model_dir = model_dir
         if not os.path.exists(model_dir):
             model_dir = snapshot_download(model_dir)
         with open('{}/cosyvoice.yaml'.format(model_dir), 'r') as f:
             configs = load_hyperpyyaml(f, overrides={'qwen_pretrain_path': os.path.join(model_dir, 'CosyVoice-BlankEN')})
+        self.configs = configs
         # print(f"Loading configs:{configs}")
         self.frontend = CosyVoiceFrontEnd(configs['get_tokenizer'],
                                           configs['feat_extractor'],
             self.model.load_onnx('{}/flow.decoder.estimator.fp32.onnx'.format(model_dir))
         if load_trt:
             self.model.load_trt('{}/flow.decoder.estimator.fp16.l20.plan'.format(model_dir))
+        del configs
+    @spaces.GPU
+    def reload_frontend(self):
+        self.frontend = CosyVoiceFrontEnd(self.configs['get_tokenizer'],
+                                          self.configs['feat_extractor'],
+                                          '{}/campplus.onnx'.format(self.model_dir),
+                                          '{}/speech_tokenizer_v2.onnx'.format(self.model_dir),
+                                          '{}/spk2info.pt'.format(self.model_dir),
+                                          self.instruct,
+                                          self.configs['allowed_special'])