Mecanismo de Atención

Cómo los transformers entienden el lenguaje

en
1 / 7

Tokenización

Las palabras se vuelven números

El primer paso es dividir el texto en tokens — pequeñas piezas que el modelo puede procesar, cada una mapeada a un número único.

"Yo comí una banana el viernes"
Dato Clave

Cada palabra recibe un ID único del vocabulario del modelo. "banana" siempre es el token #39127. Los tokenizadores reales (como BPE) pueden dividir palabras en sub-piezas — "comiendo" podría convertirse en "com" + "iendo".

Usa las flechas para navegar