Tokenización

La tokenización es el proceso mediante el cual un modelo de inteligencia artificial divide un texto en pequeñas unidades llamadas tokens para poder procesarlo.

Dicho de forma sencilla: antes de que un modelo pueda entender una frase, necesita trocearla en partes más pequeñas. Esas partes son los tokens.

Los modelos de lenguaje no trabajan directamente con frases completas ni con palabras como lo hacemos los humanos. Primero convierten el texto en tokens, y después utilizan esos tokens para analizar el significado y generar respuestas.

Es el primer paso que ocurre cada vez que escribes algo a una IA.

Qué significa tokenización

La tokenización consiste en convertir texto en unidades manejables para el modelo.

Un token puede ser:

una palabra completa
una parte de una palabra
un signo de puntuación
o incluso un espacio

El modelo transforma esos tokens en representaciones numéricas que luego utiliza para procesar el lenguaje.

En otras palabras, el texto se convierte en una especie de código que el modelo puede entender.

Para qué sirve la tokenización

La tokenización permite que los modelos de lenguaje trabajen con texto de forma eficiente.

Gracias a este proceso, los modelos pueden:

analizar frases
comprender relaciones entre palabras
generar respuestas
traducir textos
resumir documentos

Sin tokenización, un modelo no podría procesar el lenguaje de forma estructurada.

Es el paso previo a casi todo lo que ocurre dentro de un LLM.

Ejemplo fácil de entender

Imagina la frase:

La inteligencia artificial está cambiando internet.

Un modelo no la procesa como una frase completa. Primero la divide en tokens. Por ejemplo:

La
inteligencia
artificial
está
cambiando
internet
.

Dependiendo del sistema de tokenización, algunas palabras también pueden dividirse en partes.

Por ejemplo:

intelig
encia

Eso permite que el modelo maneje mejor vocabulario nuevo o palabras poco comunes.

Qué relación tiene con los tokens

La tokenización es el proceso que genera los tokens.

Es decir:

tokenización → el proceso
tokens → el resultado

Cada vez que introduces texto en un modelo de IA, primero se tokeniza y después se procesa.

Por eso el número de tokens es importante en aspectos como:

coste de uso de APIs
longitud de las respuestas
límite de contexto del modelo

Por qué la tokenización es importante

Porque determina cómo el modelo interpreta el texto.

Una buena tokenización permite:

representar mejor el lenguaje
manejar vocabulario desconocido
reducir la complejidad del procesamiento
optimizar el rendimiento del modelo

También influye en algo muy práctico: el número de tokens que consume una consulta.

Y eso afecta directamente a la ventana de contexto y al coste de uso de muchos modelos.

Confusión habitual

Una confusión común es pensar que un token equivale siempre a una palabra.

No es así.

Un token puede ser una palabra completa, pero también puede ser una parte de una palabra o incluso un signo de puntuación.

Por ejemplo, en inglés una palabra larga puede dividirse en varios tokens.

Por eso cuando una herramienta habla de “límite de tokens”, no se refiere exactamente al número de palabras.

Relación con otros conceptos

La tokenización se conecta directamente con varios conceptos del diccionario de IA:

Tokens
LLM
Ventana de contexto
Embeddings
Transformer

Todos estos conceptos forman parte del proceso mediante el cual un modelo analiza y genera lenguaje.

Conclusión

La tokenización es el proceso mediante el cual un modelo de inteligencia artificial divide el texto en unidades más pequeñas llamadas tokens para poder procesarlo.

Es uno de los primeros pasos que ocurre cuando interactúas con un modelo de lenguaje, y una pieza fundamental para que la IA pueda entender y generar texto.

Aunque normalmente ocurre en segundo plano, sin tokenización los modelos de lenguaje simplemente no podrían trabajar con el lenguaje humano.