Tokenización
Las palabras se vuelven números
El primer paso es dividir el texto en tokens — pequeñas piezas que el modelo puede procesar, cada una mapeada a un número único.
"Yo comí una banana el viernes"
Dato Clave
Cada palabra recibe un ID único del vocabulario del modelo. "banana" siempre es el token #39127. Los tokenizadores reales (como BPE) pueden dividir palabras en sub-piezas — "comiendo" podría convertirse en "com" + "iendo".
Usa las flechas para navegar