La eficiencia de tokens es un problema de contexto

La mayoría de los agentes de IA desperdician tokens por una razón: recargan el mismo contexto en cada paso en lugar de referenciarlo. La solución no es un prompt más corto, es mover tus archivos, datos y estado compartido a una sola capa que el agente lee por referencia. Esta guía explica a dónde se van realmente los tokens y por qué una capa de datos compartida elimina el desperdicio.

¿A dónde se van realmente los tokens?

El gasto de tokens rara vez es el "razonamiento" del modelo. Es contexto redundante, cargado una y otra vez. Las cuatro fuentes principales:

Fuente del desperdicioPor qué ocurreCosto típico
Releer el mismo archivoEl agente no recuerda que ya lo leyó2.000+ tokens por relectura
Escaneos completos de archivos o herramientasEl agente lista todo para encontrar una cosa10.000 a 20.000 tokens por comando
Pérdida de contexto entre sesionesUna sesión nueva relee todo el proyecto30.000 a 50.000 tokens antes del trabajo real
Salida cruda de herramientas y capturasVolcada literalmente en el promptHasta 60 a 70 por ciento del gasto en algunos agentes

¿Por qué una ventana de contexto más grande no lo soluciona?

Una ventana más grande no elimina el desperdicio, lo redistribuye. Sigues pagando por cada token que cargas, y la atención en contextos largos se degrada en el centro de la ventana, así que el agente cuesta más y razona peor. Cargar más no es lo mismo que cargar lo correcto.

¿Por qué el desperdicio de tokens es en realidad un problema de contexto?

La causa raíz es dónde vive tu contexto. Si vive solo dentro de la conversación, cada paso tiene que recargarlo. Si vive en una capa compartida con direcciones estables, el agente lo referencia una vez y apunta a él en lugar de volver a ingerirlo. La eficiencia de tokens es por tanto una cuestión de arquitectura, no un truco de prompting.

¿Cómo elimina el desperdicio una capa de datos compartida?

adlass es una capa de datos compartida donde tú, tu equipo y sus agentes trabajan sobre los mismos archivos, conjuntos de datos y estado, conectados por MCP. El agente lee un documento o un conjunto de datos por referencia, una vez, desde la capa, en lugar de meter su contenido completo en cada prompt. Las relecturas se vuelven búsquedas baratas, los escaneos se vuelven consultas dirigidas, y una sesión nueva continúa desde el estado compartido en lugar de releer el proyecto.

Guías más a fondo

  • ¿Por qué mi agente relee el mismo archivo y desperdicia tokens?
  • ¿Por qué mi agente pierde el contexto entre sesiones?

En esta guía

Preguntas frecuentes

¿Un prompt más corto reduce el uso de tokens?
Un poco, pero trata el síntoma. La mayor parte del desperdicio viene de recargar archivos, escaneos y contexto perdido entre sesiones, no de tus instrucciones. Mover ese contexto a una capa compartida que el agente referencia elimina mucho más que recortar el prompt.
¿Una capa de datos compartida es lo mismo que RAG?
No. RAG recupera fragmentos de un corpus estático hacia el prompt. Una capa de datos compartida mantiene archivos, datos y estado vivos que tanto agentes como personas leen y escriben por referencia. Aún puedes hacer recuperación dentro de la capa.
¿El caché de prompts solucionará las relecturas de archivos?
El caché ayuda cuando el contexto es estable, pero cuesta más por token que el contexto nuevo y se rompe cuando los archivos cambian. Una capa basada en referencias evita volver a ingerir el archivo desde el principio.

Trabaja con tus agentes sobre los mismos datos

adlass es la capa de datos compartida donde tú, tu equipo y sus agentes trabajan sobre los mismos documentos y conjuntos de datos.