BLOG POST
POR FRANCISCO GALLEGOS
Interrupt dÍA 1: AgentEs 101
Al entrar al Midway en San Francisco para la conferencia Interrupt de LangChain, lo primero que noté no fue la tecnología de la que todos hablaban, sino quiénes la estaban discutiendo. La composición demográfica era notable: predominantemente norteamericanos y europeos, con una representación significativa de asiáticos—particularmente desarrolladorxs de origen indio y del este asiático. Durante los dos días del evento, logré conversar o identificar apenas 11 latinoamericanxs entre casi mil asistentes. Estimo que un 12% eran mujeres, una minoría que se reflejaba también en los paneles de ponentes, mientras que la mayoría se identificaban como desarrolladorxs especializadxs en IA, CTOs, CEOs o fundadorxs de startups tecnológicas.
Esta homogeneidad no es solo una curiosidad sociológica—es importante porque estas son las personas que están “definiendo” cómo los agentes de IA van a interactuar con el resto del mundo.
Cuando la IA deja de ser solo conversación
¿Qué exactamente hace que algo sea un "agente" y no simplemente otra aplicación de IA? La diferencia es fundamental y vale la pena explicarla claramente. Cuando usas ChatGPT o aplicaciones similares, esencialmente estás teniendo una conversación muy sofisticada con una calculadora inteligente. Le das un input, procesa la información, te da un output, y el único contexto es la propia conversación. Es impresionante, pero fundamentalmente reactivo y lo que en el mundo del desarrollo se conoce como "monolítico"—todo el proceso ocurre en un solo bloque cerrado.
Un agente de IA representa un salto conceptual diferente. Es la diferencia entre tener un asistente que solo puede responder preguntas cuando se las haces directamente, versus tener un colaborador que puede tomar iniciativa, planificar, acceder a memoria o contexto, usar herramientas y ejecutar acciones concretas.
Imagina que estás investigando soluciones para energía renovable en comunidades rurales. Con una aplicación tradicional monolítica, subirías algunos papers académicos, harías preguntas específicas, y recibirías respuestas basadas solo en esa información. Fin del proceso. Un agente de IA abordaría esto de manera completamente diferente. Podría comenzar buscando investigación actual sobre el tema, luego identificar qué enfoques han sido exitosos en contextos similares, conectarse con bases de datos de proyectos implementados, analizar factores climáticos y geográficos relevantes, y actualizar o compartir información. Todo esto sucedería de manera coordinada, con el agente manteniendo el hilo de la investigación, adaptándose a las necesidades y herramientas para establecer un flujo de trabajo completo que involucre al humano en el proceso exploratorio o creativo.
Los cinco pilares de los sistemas de agentes
Durante las conferencias técnicas del primer día, quedó claro que los agentes efectivos necesitan cinco componentes trabajando en armonía.
Primero está la orquestación—la capacidad de coordinar múltiples pasos hacia un objetivo. Un agente analizando datos no solo genera un reporte. Primero decide qué datos necesita, luego orquesta una secuencia: conectarse a la base de datos, limpiar la información, identificar patrones, cruzar con datos externos si es necesario, y tal vez incluso decidir qué visualizaciones serían más útiles para tu contexto específico. Esta capacidad de planificar y ejecutar secuencias complejas es lo que separa un agente de una herramienta reactiva.
La memoria es el segundo componente crítico, y aquí hay una distinción importante. Los agentes necesitan tanto memoria a corto plazo como a largo plazo. La memoria a corto plazo mantiene el hilo de la conversación o el estado de la tarea actual—como cuando recuerdas de qué estabas hablando con un colega hace cinco minutos. La memoria a largo plazo es más profunda: patrones que ha aprendido, preferencias que has expresado en el pasado, decisiones anteriores que han funcionado bien o mal. Sin memoria, cada interacción con un agente es como empezar desde cero con un amnésico muy inteligente.
Las herramientas representan el tercer elemento—la capacidad del agente de interactuar con el “mundo exterior”. Esto va mucho más allá de buscar información en internet. Un agente puede conectarse a APIs, ejecutar código, manipular bases de datos, enviar emails, crear documentos, o incluso controlar otros software. Tuve la oportunidad de conversar directamente con el equipo de desarrolladores de LangChain, particularmente estaba interesado en protocolos MCP (Model Context Protocol) y A2A (Agent-to-Agent), algo que no se profundizó en las charlas. Estos protocolos básicamente representan un tipo de herramienta que extiende las posibilidades del agente. Estos estándares permitirán que agentes compartan contexto e información entre diferentes sistemas o aplicaciones de manera fluida, creando ecosistemas interconectados que van mucho más allá de las herramientas aisladas actuales.
Human-in-the-loop—la capacidad de pausar la ejecución autónoma para solicitar input humano cuando es necesario. Este concepto es tan fundamental para LangChain que literalmente nombraron su conferencia en referencia a la función de LangGraph interrupt( ) que permite esta interacción. Un agente puede estar procesando una tarea compleja, reconocer que necesita clarificación o aprobación humana, pausar su ejecución, hacer la pregunta necesaria, y luego continuar con la respuesta recibida. Es la diferencia entre automatización ciega y colaboración inteligente.
Finalmente está la observabilidad y evaluación—algo que suena técnico pero es fundamentalmente sobre confianza. Si un agente va a tomar decisiones autónomas, necesitas poder entender por qué tomó ciertas decisiones, qué tan confiables son sus conclusiones, y cuándo algo está yendo mal. Es la diferencia entre una caja negra de alta variabilidad, versus un sistema controlado y transparente sobre su progreso y “razonamiento”.
La brecha entre capacidad técnica y realidad humana
Aquí es donde mis conversaciones con otros asistentes tomaron un giro más crítico. Mientras los desarrolladores estaban emocionados discutiendo capacidades técnicas cada vez más impresionantes, noté que las conversaciones sobre diseño de interacción humano-máquina necesitan mayor protagonismo en el desarrollo de agentes.
Las interfaces generativas y la multimodalidad están redefiniendo cómo interactuamos con estos sistemas de una manera tan reciente que apenas comenzamos a entender sus implicaciones. Las capacidades técnicas existen—LangGraph maneja pausas, supervisión, y coordinación de tareas paralelas—pero el desafío real es cómo diseñar experiencias de usuario efectivas que aprovechen estas nuevas modalidades de interacción en contextos diversos.
Cuando puedes hablar, mostrar, o incluso cargar archivos para comunicarte con un agente, ¿cómo diseñamos interfaces que se sientan naturales pero mantengan la precisión necesaria? ¿Cómo balanceamos la autonomía del sistema con la necesidad humana de control contextual? Estos desafíos de diseño centrado en el usuario merecen tanta investigación como los avances en el marco de desarrollo. La IA generativa está madurando como tecnología, la implementación de agentes es un signo de esto. Es importante redefinir cómo los humanos y las máquinas colaboramos. En la segunda parte de este blog, hablaremos sobre los casos de uso más relevantes en el segundo día de conferencias.
AGENDA DÍA 1 ⇗Regresar ⇐