Un token es la unidad mínima en la que un modelo de lenguaje «trocea» tu texto para entenderlo y responder. Es la verdadera moneda de la IA: cada token que entra y sale tiene un coste. Escribe abajo y observa, en vivo, cómo se parte tu texto.
Piensa en los tokens como la gasolina del motor. Cada palabra que el modelo lee y cada palabra que escribe consume tokens. Mensajes pequeños gastan poco; documentos enormes, muchísimo.
A veces un token es una palabra entera; otras, solo un trozo. Las palabras largas o raras —y los acentos y la ñ— se parten en varios tokens. Por eso «importa cómo escribes», no solo cuánto.
Cada conversación tiene un presupuesto de tokens. Cuando se llena, el modelo empieza a «olvidar» lo primero que se dijo para no salirse del límite. Eso es el famoso «se me olvidó».
Escribe o pega cualquier texto. Cada recuadro de color es un token. Cambia el modelo y el tamaño de la ventana de contexto para ver cómo afecta.
Baja el tamaño de la ventana para simular un presupuesto pequeño. Si tu texto lo supera, el modelo «olvidaría» los tokens más antiguos (en gris).
La eficiencia se nota: una petición clara y concisa cuesta menos tokens que una vaga y enrevesada. Edita ambas cajas y compara.
Todo se reduce a una pregunta: ¿cómo evito malgastar tokens? Estas son las palancas principales.
Para lo ligero, un modelo eficiente (Haiku/Sonnet); reserva el más potente (Opus) para lo difícil. No lleves un Ferrari a comprar el pan.
Di qué quieres, para quién y con qué detalle. Las peticiones vagas generan respuestas vagas y rondas de aclaración que cuestan tokens.
Varias preguntas en un solo mensaje gastan mucho menos que ir una a una, porque cada turno relee toda la conversación previa.
Al cambiar de tema, abre una conversación limpia. Así no pagas por arrastrar todo lo anterior, que el modelo relee en cada mensaje.