whisperX/whisperx/transcribe.py

import argparse
import gc
import os
import warnings

import numpy as np
import torch

from whisperx.alignment import align, load_align_model
from whisperx.asr import load_model
from whisperx.audio import load_audio
from whisperx.diarize import DiarizationPipeline, assign_word_speakers
from whisperx.types import AlignedTranscriptionResult, TranscriptionResult
from whisperx.utils import LANGUAGES, TO_LANGUAGE_CODE, get_writer


def transcribe_task(args: dict, parser: argparse.ArgumentParser):
    """Transcription task to be called from CLI.

    Args:
        args: Dictionary of command-line arguments.
        parser: argparse.ArgumentParser object.
    """
    # fmt: off

    model_name: str = args.pop("model")
    batch_size: int = args.pop("batch_size")
    model_dir: str = args.pop("model_dir")
    model_cache_only: bool = args.pop("model_cache_only")
    output_dir: str = args.pop("output_dir")
    output_format: str = args.pop("output_format")
    device: str = args.pop("device")
    device_index: int = args.pop("device_index")
    compute_type: str = args.pop("compute_type")
    verbose: bool = args.pop("verbose")

    # model_flush: bool = args.pop("model_flush")
    os.makedirs(output_dir, exist_ok=True)

    align_model: str = args.pop("align_model")
    interpolate_method: str = args.pop("interpolate_method")
    no_align: bool = args.pop("no_align")
    task: str = args.pop("task")
    if task == "translate":
        # translation cannot be aligned
        no_align = True

    return_char_alignments: bool = args.pop("return_char_alignments")

    hf_token: str = args.pop("hf_token")
    vad_method: str = args.pop("vad_method")
    vad_onset: float = args.pop("vad_onset")
    vad_offset: float = args.pop("vad_offset")

    chunk_size: int = args.pop("chunk_size")

    diarize: bool = args.pop("diarize")
    min_speakers: int = args.pop("min_speakers")
    max_speakers: int = args.pop("max_speakers")
    diarize_model_name: str = args.pop("diarize_model")
    print_progress: bool = args.pop("print_progress")
    return_speaker_embeddings: bool = args.pop("speaker_embeddings")

    if return_speaker_embeddings and not diarize:
        warnings.warn("--speaker_embeddings has no effect without --diarize")

    if args["language"] is not None:
        args["language"] = args["language"].lower()
        if args["language"] not in LANGUAGES:
            if args["language"] in TO_LANGUAGE_CODE:
                args["language"] = TO_LANGUAGE_CODE[args["language"]]
            else:
                raise ValueError(f"Unsupported language: {args['language']}")

    if model_name.endswith(".en") and args["language"] != "en":
        if args["language"] is not None:
            warnings.warn(
                f"{model_name} is an English-only model but received '{args['language']}'; using English instead."
            )
        args["language"] = "en"
    align_language = (
        args["language"] if args["language"] is not None else "en"
    )  # default to loading english if not specified

    temperature = args.pop("temperature")
    if (increment := args.pop("temperature_increment_on_fallback")) is not None:
        temperature = tuple(np.arange(temperature, 1.0 + 1e-6, increment))
    else:
        temperature = [temperature]

    faster_whisper_threads = 4
    if (threads := args.pop("threads")) > 0:
        torch.set_num_threads(threads)
        faster_whisper_threads = threads

    asr_options = {
        "beam_size": args.pop("beam_size"),
        "patience": args.pop("patience"),
        "length_penalty": args.pop("length_penalty"),
        "temperatures": temperature,
        "compression_ratio_threshold": args.pop("compression_ratio_threshold"),
        "log_prob_threshold": args.pop("logprob_threshold"),
        "no_speech_threshold": args.pop("no_speech_threshold"),
        "condition_on_previous_text": False,
        "initial_prompt": args.pop("initial_prompt"),
        "suppress_tokens": [int(x) for x in args.pop("suppress_tokens").split(",")],
        "suppress_numerals": args.pop("suppress_numerals"),
    }

    writer = get_writer(output_format, output_dir)
    word_options = ["highlight_words", "max_line_count", "max_line_width"]
    if no_align:
        for option in word_options:
            if args[option]:
                parser.error(f"--{option} not possible with --no_align")
    if args["max_line_count"] and not args["max_line_width"]:
        warnings.warn("--max_line_count has no effect without --max_line_width")
    writer_args = {arg: args.pop(arg) for arg in word_options}

    # Part 1: VAD & ASR Loop
    results = []
    tmp_results = []
    # model = load_model(model_name, device=device, download_root=model_dir)
    model = load_model(
        model_name,
        device=device,
        device_index=device_index,
        download_root=model_dir,
        compute_type=compute_type,
        language=args["language"],
        asr_options=asr_options,
        vad_method=vad_method,
        vad_options={
            "chunk_size": chunk_size,
            "vad_onset": vad_onset,
            "vad_offset": vad_offset,
        },
        task=task,
        local_files_only=model_cache_only,
        threads=faster_whisper_threads,
    )

    for audio_path in args.pop("audio"):
        audio = load_audio(audio_path)
        # >> VAD & ASR
        print(">>Performing transcription...")
        result: TranscriptionResult = model.transcribe(
            audio,
            batch_size=batch_size,
            chunk_size=chunk_size,
            print_progress=print_progress,
            verbose=verbose,
        )
        results.append((result, audio_path))

    # Unload Whisper and VAD
    del model
    gc.collect()
    torch.cuda.empty_cache()

    # Part 2: Align Loop
    if not no_align:
        tmp_results = results
        results = []
        align_model, align_metadata = load_align_model(
            align_language, device, model_name=align_model
        )
        for result, audio_path in tmp_results:
            # >> Align
            if len(tmp_results) > 1:
                input_audio = audio_path
            else:
                # lazily load audio from part 1
                input_audio = audio

            if align_model is not None and len(result["segments"]) > 0:
                if result.get("language", "en") != align_metadata["language"]:
                    # load new language
                    print(
                        f"New language found ({result['language']})! Previous was ({align_metadata['language']}), loading new alignment model for new language..."
                    )
                    align_model, align_metadata = load_align_model(
                        result["language"], device
                    )
                print(">>Performing alignment...")
                result: AlignedTranscriptionResult = align(
                    result["segments"],
                    align_model,
                    align_metadata,
                    input_audio,
                    device,
                    interpolate_method=interpolate_method,
                    return_char_alignments=return_char_alignments,
                    print_progress=print_progress,
                )

            results.append((result, audio_path))

        # Unload align model
        del align_model
        gc.collect()
        torch.cuda.empty_cache()

    # >> Diarize
    if diarize:
        if hf_token is None:
            print(
                "Warning, no --hf_token used, needs to be saved in environment variable, otherwise will throw error loading diarization model..."
            )
        tmp_results = results
        print(">>Performing diarization...")
        print(">>Using model:", diarize_model_name)
        results = []
        diarize_model = DiarizationPipeline(model_name=diarize_model_name, use_auth_token=hf_token, device=device)
        for result, input_audio_path in tmp_results:
            diarize_result = diarize_model(
                input_audio_path, 
                min_speakers=min_speakers, 
                max_speakers=max_speakers, 
                return_embeddings=return_speaker_embeddings
            )

            if return_speaker_embeddings:
                diarize_segments, speaker_embeddings = diarize_result
            else:
                diarize_segments = diarize_result
                speaker_embeddings = None

            result = assign_word_speakers(diarize_segments, result, speaker_embeddings)
            results.append((result, input_audio_path))
    # >> Write
    for result, audio_path in results:
        result["language"] = align_language
        writer(result, audio_path, writer_args)
init commit 2022-12-14 18:59:12 +00:00			`import argparse`
opti the inference loop 2023-04-09 15:58:55 +08:00			`import gc`
v3 init 2023-04-24 21:08:43 +01:00			`import os`
init commit 2022-12-14 18:59:12 +00:00			`import warnings`
v3 init 2023-04-24 21:08:43 +01:00
init commit 2022-12-14 18:59:12 +00:00			`import numpy as np`
			`import torch`
v3 init 2023-04-24 21:08:43 +01:00
refactor: update import statements to use explicit module paths across multiple files 2025-03-25 16:13:55 +01:00			`from whisperx.alignment import align, load_align_model`
			`from whisperx.asr import load_model`
			`from whisperx.audio import load_audio`
			`from whisperx.diarize import DiarizationPipeline, assign_word_speakers`
			`from whisperx.types import AlignedTranscriptionResult, TranscriptionResult`
refactor: update CLI entry point 2025-05-01 14:19:42 +02:00			`from whisperx.utils import LANGUAGES, TO_LANGUAGE_CODE, get_writer`
support batch processing 2023-02-01 19:41:20 +00:00
init commit 2022-12-14 18:59:12 +00:00
refactor: update CLI entry point 2025-05-01 14:19:42 +02:00			`def transcribe_task(args: dict, parser: argparse.ArgumentParser):`
			`"""Transcription task to be called from CLI.`
--suppress_numerals option, ensures non-numerical words, for wav2vec2 alignment 2023-06-05 15:27:42 +01:00
refactor: update CLI entry point 2025-05-01 14:19:42 +02:00			`Args:`
			`args: Dictionary of command-line arguments.`
			`parser: argparse.ArgumentParser object.`
			`"""`
			`# fmt: off`
skeleton v2 2023-03-30 05:31:57 +01:00
init commit 2022-12-14 18:59:12 +00:00			`model_name: str = args.pop("model")`
v3 init 2023-04-24 21:08:43 +01:00			`batch_size: int = args.pop("batch_size")`
Fixes --model_dir path 2023-12-27 14:03:54 -05:00			`model_dir: str = args.pop("model_dir")`
Add models_cache_only param 2025-01-27 12:16:37 +00:00			`model_cache_only: bool = args.pop("model_cache_only")`
init commit 2022-12-14 18:59:12 +00:00			`output_dir: str = args.pop("output_dir")`
skeleton v2 2023-03-30 05:31:57 +01:00			`output_format: str = args.pop("output_format")`
init commit 2022-12-14 18:59:12 +00:00			`device: str = args.pop("device")`
add device_index 2023-05-20 13:02:46 +02:00			`device_index: int = args.pop("device_index")`
pass compute_type 2023-04-24 21:26:44 +01:00			`compute_type: str = args.pop("compute_type")`
feat: add verbose output (#759) --------- Co-authored-by: Abhishek Sharma <abhishek@zipteams.com> Co-authored-by: Barabazs <31799121+Barabazs@users.noreply.github.com> 2025-01-01 17:37:52 +05:30			`verbose: bool = args.pop("verbose")`
pass compute_type 2023-04-24 21:26:44 +01:00
.wav conversion, handle audio with no detected speech 2023-03-31 23:02:38 +01:00			`# model_flush: bool = args.pop("model_flush")`
skeleton v2 2023-03-30 05:31:57 +01:00			`os.makedirs(output_dir, exist_ok=True)`
init commit 2022-12-14 18:59:12 +00:00
			`align_model: str = args.pop("align_model")`
skeleton v2 2023-03-30 05:31:57 +01:00			`interpolate_method: str = args.pop("interpolate_method")`
			`no_align: bool = args.pop("no_align")`
refactor: add type hints 2025-01-05 11:26:18 +01:00			`task: str = args.pop("task")`
add translate, fix word_timestamp error 2023-05-13 12:14:06 +01:00			`if task == "translate":`
			`# translation cannot be aligned`
			`no_align = True`

update readme, setup, add option to return char_timestamps 2023-05-07 20:28:33 +01:00			`return_char_alignments: bool = args.pop("return_char_alignments")`
skeleton v2 2023-03-30 05:31:57 +01:00
Update transcribe.py added the ability to include HF access token in order to use PyAnnote models 2023-01-26 00:42:35 +02:00			`hf_token: str = args.pop("hf_token")`
Accept alternative VAD methods. Extend to use Silero VAD. 2024-09-26 10:28:52 +02:00			`vad_method: str = args.pop("vad_method")`
skeleton v2 2023-03-30 05:31:57 +01:00			`vad_onset: float = args.pop("vad_onset")`
			`vad_offset: float = args.pop("vad_offset")`
vad filter 2023-01-20 12:54:20 +00:00
feat: Add merge chunks chunk_size as arguments. Suggest from https://github.com/m-bain/whisperX/issues/200#issuecomment-1666507780 2023-08-29 23:09:02 +08:00			`chunk_size: int = args.pop("chunk_size")`

new logic, diarization, vad filtering 2023-01-24 15:02:08 +00:00			`diarize: bool = args.pop("diarize")`
			`min_speakers: int = args.pop("min_speakers")`
			`max_speakers: int = args.pop("max_speakers")`
feat: add diarize_model arg to CLI (#1101) 2025-05-31 13:32:31 +02:00			`diarize_model_name: str = args.pop("diarize_model")`
Update transcribe.py 2023-08-16 16:22:29 +02:00			`print_progress: bool = args.pop("print_progress")`
feat: enhance diarization with optional output of speaker embeddings - Updated DiarizationPipeline to include a return_embeddings parameter for optional speaker embeddings. - Modified assign_word_speakers to accept and process speaker embeddings. - Updated CLI to support --speaker_embeddings flag for JSON output. - Ensured backward compatibility for existing functionality. 2025-03-21 13:57:47 +00:00			`return_speaker_embeddings: bool = args.pop("speaker_embeddings")`

			`if return_speaker_embeddings and not diarize:`
			`warnings.warn("--speaker_embeddings has no effect without --diarize")`
new logic, diarization, vad filtering 2023-01-24 15:02:08 +00:00
Support language names in --language. 2023-10-10 10:20:58 +02:00			`if args["language"] is not None:`
			`args["language"] = args["language"].lower()`
			`if args["language"] not in LANGUAGES:`
			`if args["language"] in TO_LANGUAGE_CODE:`
			`args["language"] = TO_LANGUAGE_CODE[args["language"]]`
			`else:`
			`raise ValueError(f"Unsupported language: {args['language']}")`

			`if model_name.endswith(".en") and args["language"] != "en":`
init commit 2022-12-14 18:59:12 +00:00			`if args["language"] is not None:`
skeleton v2 2023-03-30 05:31:57 +01:00			`warnings.warn(`
fix typo 2023-12-04 17:38:50 +03:00			`f"{model_name} is an English-only model but received '{args['language']}'; using English instead."`
skeleton v2 2023-03-30 05:31:57 +01:00			`)`
init commit 2022-12-14 18:59:12 +00:00			`args["language"] = "en"`
feat: add version and Python version arguments to CLI 2025-05-01 10:43:02 +02:00			`align_language = (`
			`args["language"] if args["language"] is not None else "en"`
			`) # default to loading english if not specified`
init commit 2022-12-14 18:59:12 +00:00
			`temperature = args.pop("temperature")`
skeleton v2 2023-03-30 05:31:57 +01:00			`if (increment := args.pop("temperature_increment_on_fallback")) is not None:`
			`temperature = tuple(np.arange(temperature, 1.0 + 1e-6, increment))`
init commit 2022-12-14 18:59:12 +00:00			`else:`
			`temperature = [temperature]`

add faster whisper threading 2023-09-14 11:47:51 +02:00			`faster_whisper_threads = 4`
skeleton v2 2023-03-30 05:31:57 +01:00			`if (threads := args.pop("threads")) > 0:`
init commit 2022-12-14 18:59:12 +00:00			`torch.set_num_threads(threads)`
add faster whisper threading 2023-09-14 11:47:51 +02:00			`faster_whisper_threads = threads`
init commit 2022-12-14 18:59:12 +00:00
v3 init 2023-04-24 21:08:43 +01:00			`asr_options = {`
			`"beam_size": args.pop("beam_size"),`
			`"patience": args.pop("patience"),`
			`"length_penalty": args.pop("length_penalty"),`
			`"temperatures": temperature,`
			`"compression_ratio_threshold": args.pop("compression_ratio_threshold"),`
			`"log_prob_threshold": args.pop("logprob_threshold"),`
			`"no_speech_threshold": args.pop("no_speech_threshold"),`
			`"condition_on_previous_text": False,`
			`"initial_prompt": args.pop("initial_prompt"),`
--suppress_numerals option, ensures non-numerical words, for wav2vec2 alignment 2023-06-05 15:27:42 +01:00			`"suppress_tokens": [int(x) for x in args.pop("suppress_tokens").split(",")],`
			`"suppress_numerals": args.pop("suppress_numerals"),`
v3 init 2023-04-24 21:08:43 +01:00			`}`
support huggingface + model select based on lang. 2022-12-20 19:54:55 +00:00
skeleton v2 2023-03-30 05:31:57 +01:00			`writer = get_writer(output_format, output_dir)`
v3 init 2023-04-24 21:08:43 +01:00			`word_options = ["highlight_words", "max_line_count", "max_line_width"]`
			`if no_align:`
			`for option in word_options:`
			`if args[option]:`
FIX warnings for word options 2023-10-31 18:55:35 +01:00			`parser.error(f"--{option} not possible with --no_align")`
v3 init 2023-04-24 21:08:43 +01:00			`if args["max_line_count"] and not args["max_line_width"]:`
			`warnings.warn("--max_line_count has no effect without --max_line_width")`
			`writer_args = {arg: args.pop(arg) for arg in word_options}`
feat: add version and Python version arguments to CLI 2025-05-01 10:43:02 +02:00
opti the inference loop 2023-04-09 15:58:55 +08:00			`# Part 1: VAD & ASR Loop`
			`results = []`
			`tmp_results = []`
v3 init 2023-04-24 21:08:43 +01:00			`# model = load_model(model_name, device=device, download_root=model_dir)`
feat: add version and Python version arguments to CLI 2025-05-01 10:43:02 +02:00			`model = load_model(`
			`model_name,`
			`device=device,`
			`device_index=device_index,`
			`download_root=model_dir,`
			`compute_type=compute_type,`
			`language=args["language"],`
			`asr_options=asr_options,`
			`vad_method=vad_method,`
			`vad_options={`
			`"chunk_size": chunk_size,`
			`"vad_onset": vad_onset,`
			`"vad_offset": vad_offset,`
			`},`
			`task=task,`
			`local_files_only=model_cache_only,`
			`threads=faster_whisper_threads,`
			`)`
handle tmp wav file better 2023-04-01 00:06:40 +01:00
v3 init 2023-04-24 21:08:43 +01:00			`for audio_path in args.pop("audio"):`
			`audio = load_audio(audio_path)`
handle tmp wav file better 2023-04-01 00:06:40 +01:00			`# >> VAD & ASR`
v3 init 2023-04-24 21:08:43 +01:00			`print(">>Performing transcription...")`
refactor: add type hints 2025-01-05 11:26:18 +01:00			`result: TranscriptionResult = model.transcribe(`
			`audio,`
			`batch_size=batch_size,`
			`chunk_size=chunk_size,`
			`print_progress=print_progress,`
			`verbose=verbose,`
			`)`
v3 init 2023-04-24 21:08:43 +01:00			`results.append((result, audio_path))`
opti the inference loop 2023-04-09 15:58:55 +08:00
			`# Unload Whisper and VAD`
			`del model`
			`gc.collect()`
			`torch.cuda.empty_cache()`

			`# Part 2: Align Loop`
			`if not no_align:`
			`tmp_results = results`
			`results = []`
feat: add version and Python version arguments to CLI 2025-05-01 10:43:02 +02:00			`align_model, align_metadata = load_align_model(`
			`align_language, device, model_name=align_model`
			`)`
v3 init 2023-04-24 21:08:43 +01:00			`for result, audio_path in tmp_results:`
opti the inference loop 2023-04-09 15:58:55 +08:00			`# >> Align`
v3 init 2023-04-24 21:08:43 +01:00			`if len(tmp_results) > 1:`
			`input_audio = audio_path`
			`else:`
			`# lazily load audio from part 1`
			`input_audio = audio`

opti the inference loop 2023-04-09 15:58:55 +08:00			`if align_model is not None and len(result["segments"]) > 0:`
			`if result.get("language", "en") != align_metadata["language"]:`
			`# load new language`
feat: add version and Python version arguments to CLI 2025-05-01 10:43:02 +02:00			`print(`
			`f"New language found ({result['language']})! Previous was ({align_metadata['language']}), loading new alignment model for new language..."`
			`)`
			`align_model, align_metadata = load_align_model(`
			`result["language"], device`
			`)`
opti the inference loop 2023-04-09 15:58:55 +08:00			`print(">>Performing alignment...")`
refactor: add type hints 2025-01-05 11:26:18 +01:00			`result: AlignedTranscriptionResult = align(`
			`result["segments"],`
			`align_model,`
			`align_metadata,`
			`input_audio,`
			`device,`
			`interpolate_method=interpolate_method,`
			`return_char_alignments=return_char_alignments,`
			`print_progress=print_progress,`
			`)`
fix long segments, break into sentences using nltk, improve align logic, improve diarize (sentence-based) 2023-05-07 15:32:58 +01:00
v3 init 2023-04-24 21:08:43 +01:00			`results.append((result, audio_path))`
opti the inference loop 2023-04-09 15:58:55 +08:00
			`# Unload align model`
			`del align_model`
			`gc.collect()`
			`torch.cuda.empty_cache()`

			`# >> Diarize`
			`if diarize:`
			`if hf_token is None:`
feat: add version and Python version arguments to CLI 2025-05-01 10:43:02 +02:00			`print(`
			`"Warning, no --hf_token used, needs to be saved in environment variable, otherwise will throw error loading diarization model..."`
			`)`
opti the inference loop 2023-04-09 15:58:55 +08:00			`tmp_results = results`
Set diarization device manually 2023-05-04 16:25:34 +02:00			`print(">>Performing diarization...")`
feat: add diarize_model arg to CLI (#1101) 2025-05-31 13:32:31 +02:00			`print(">>Using model:", diarize_model_name)`
opti the inference loop 2023-04-09 15:58:55 +08:00			`results = []`
feat: add diarize_model arg to CLI (#1101) 2025-05-31 13:32:31 +02:00			`diarize_model = DiarizationPipeline(model_name=diarize_model_name, use_auth_token=hf_token, device=device)`
opti the inference loop 2023-04-09 15:58:55 +08:00			`for result, input_audio_path in tmp_results:`
fix: speaker embedding bug (#1178) * fix: improve handling of speaker embeddings in transcribe_task * chore: bump version to 3.4.1 2025-06-25 13:55:20 +02:00			`diarize_result = diarize_model(`
feat: enhance diarization with optional output of speaker embeddings - Updated DiarizationPipeline to include a return_embeddings parameter for optional speaker embeddings. - Modified assign_word_speakers to accept and process speaker embeddings. - Updated CLI to support --speaker_embeddings flag for JSON output. - Ensured backward compatibility for existing functionality. 2025-03-21 13:57:47 +00:00			`input_audio_path,`
			`min_speakers=min_speakers,`
			`max_speakers=max_speakers,`
			`return_embeddings=return_speaker_embeddings`
feat: add version and Python version arguments to CLI 2025-05-01 10:43:02 +02:00			`)`
fix: speaker embedding bug (#1178) * fix: improve handling of speaker embeddings in transcribe_task * chore: bump version to 3.4.1 2025-06-25 13:55:20 +02:00
			`if return_speaker_embeddings:`
			`diarize_segments, speaker_embeddings = diarize_result`
			`else:`
			`diarize_segments = diarize_result`
			`speaker_embeddings = None`

feat: enhance diarization with optional output of speaker embeddings - Updated DiarizationPipeline to include a return_embeddings parameter for optional speaker embeddings. - Modified assign_word_speakers to accept and process speaker embeddings. - Updated CLI to support --speaker_embeddings flag for JSON output. - Ensured backward compatibility for existing functionality. 2025-03-21 13:57:47 +00:00			`result = assign_word_speakers(diarize_segments, result, speaker_embeddings)`
opti the inference loop 2023-04-09 15:58:55 +08:00			`results.append((result, input_audio_path))`
			`# >> Write`
			`for result, audio_path in results:`
chore(writer): Join words without spaces for ja, zh fix #248, fix #310 2023-08-26 06:48:35 +08:00			`result["language"] = align_language`
v3 init 2023-04-24 21:08:43 +01:00			`writer(result, audio_path, writer_args)`