Merge pull request #510 from MahmoudAshraf97/main

fix minimum input length for torch wav2vec2 models
2025-07-01 18:17:27 -04:00 · 2023-10-05 15:31:08 -07:00
parent c1b821a08d 8049dba2f7
commit 051047bb25
1 changed files with 9 additions and 1 deletions
--- a/whisperx/alignment.py
+++ b/whisperx/alignment.py
@ -210,7 +210,15 @@ def align(

        with torch.inference_mode():
            if model_type == "torchaudio":
-                emissions, _ = model(waveform_segment.to(device))
+                # Handle the minimum input length for torchaudio wav2vec2 models
+                if waveform_segment.shape[-1] < 400:
+                    lengths = torch.as_tensor([waveform_segment.shape[-1]]).to(device)
+                    waveform_segment = torch.nn.functional.pad(
+                        waveform_segment, (0, 400 - waveform_segment.shape[-1])
+                    )
+                else:
+                    lengths = None
+                emissions, _ = model(waveform_segment.to(device), lengths=lengths)
            elif model_type == "huggingface":
                emissions = model(waveform_segment.to(device)).logits
            else: