fix errors when recognizing non-japanese audios

2025-07-01 18:17:27 -04:00 · 2022-12-21 01:42:45 +09:00
parent 7a3575dfdf
commit d7546def91
1 changed files with 5 additions and 1 deletions
--- a/whisperx/transcribe.py
+++ b/whisperx/transcribe.py
@ -282,8 +282,12 @@ def align(
        f2 = int(t2 * SAMPLE_RATE)

        waveform_segment = audio[:, f1:f2]
+        print(language)
        with torch.inference_mode():
-            emissions = model(waveform_segment.to(device)).logits
+            if language != 'ja':
+                emissions, _ = model(waveform_segment.to(device))
+            else:
+                emissions = model(waveform_segment.to(device)).logits
            emissions = torch.log_softmax(emissions, dim=-1)
        emission = emissions[0].cpu().detach()
        transcription = segment['text'].strip()