Transformers

You are viewing main version, which requires installation from source. If you'd like regular pip install, checkout the latest stable version (v5.12.0).

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

torch.compile

torch.compile compila código de PyTorch en kernels fusionados para que se ejecute más rápido. Durante el entrenamiento, traza juntas la pasada hacia delante y la pasada hacia atrás y las compila en kernels optimizados, reduciendo la sobrecarga de lanzar operaciones por separado y fusionando operaciones para recortar el uso del ancho de banda de memoria.

Pon torch_compile=True en TrainingArguments para activarlo. El entrenamiento compila tanto la pasada hacia delante como la de hacia atrás, a diferencia de la inferencia, que solo compila la pasada hacia delante. La compilación ocurre en el primer paso de entrenamiento, así que es normal que sea bastante más lento que los pasos siguientes.

from transformers import TrainingArguments

args = TrainingArguments(
    ...,
    torch_compile=True,
    torch_compile_backend="inductor",
    torch_compile_mode="reduce-overhead",
)

Backend

El backend por defecto es inductor, que compila a kernels de Triton con AOTAutograd. Es la opción adecuada para la mayoría de las cargas de entrenamiento. Usa cudagraphs para entradas de forma fija, o ipex para entrenamiento en CPU de Intel.

Modo de compilación

Usa la siguiente tabla como ayuda para elegir un modo de torch.compile.

modo	descripción
default	equilibrio entre el tiempo de compilación y el de ejecución
reduce-overhead	reduce la sobrecarga de Python/CPU usando CUDA graphs a costa de algo más de memoria
max-autotune	prueba varias implementaciones de kernels durante la compilación y elige la más rápida (compilación más larga)
max-autotune-no-cudagraphs	igual que max-autotune pero sin CUDA graphs

Próximos pasos

Consulta la guía torch.compile para inferencia para más detalles sobre la compilación fullgraph y los benchmarks de inferencia.

Update on GitHub

←Debugging ¿Cómo puedo añadir un pipeline a 🤗 Transformers?→