Diseño de un Sistema Multi-Agente para el Soporte de Ingeniería a Escala: Un Caso de Estudio de Grab
Diseño de un Sistema Multi-Agente para el Soporte de Ingeniería a Escala: Un Caso de Estudio de Grab
El equipo de Analytics Data Warehouse (ADW) de Grab ha introducido un sistema AI multi-agente para automatizar los flujos de trabajo de soporte de ingeniería dentro de su plataforma de datos a escala, con el objetivo de reducir el trabajo operativo repetitivo y mejorar la eficiencia de resolución. El sistema está diseñado para gestionar las solicitudes de soporte de ingeniería internas que cubren la resolución de problemas del almacén de datos, la depuración de SQL y el soporte de la plataforma, mientras que los ingenieros se desplazan hacia trabajos de desarrollo de mayor valor.
La plataforma ADW soporta más de 1.000 usuarios internos y gestiona más de 15.000 tablas, funcionando como un componente de infraestructura analítica de base dentro de Grab. A medida que la demanda crecía, el equipo de ingeniería observaba que una parte significativa del esfuerzo operativo estaba siendo consumida por tareas de soporte repetitivas y investigaciones ad hoc, limitando el tiempo disponible para mejorar la plataforma y el trabajo de diseño de sistema.
Sneh Agrawa, Head of Analytics @ Grab, en un post de LinkedIn destacó, El equipo de datos central de Grab está aprovechando un sistema multi-agente para automatizar el trabajo operativo repetitivo, recuperando centenares de horas de ingeniería cada mes. Este desplazamiento está desbloqueando la banda de ingeniería crítica y permitiendo una transición de un combate reactiva a un sistema de construcción de mayor valor.
Para abordar esto, el equipo implementó una arquitectura multi-agente que separa las solicitudes de soporte de ingeniería entrantes en dos flujos de trabajo primarios: investigación y mejora. Los flujos de trabajo de investigación están diseñados para tareas diagnósticas como el análisis de consultas, la búsqueda de registros, la búsqueda de esquemas y la resumen de problemas. Los flujos de trabajo de mejora se centran en la generación de salidas accionables, incluyendo cambios de código, correcciones SQL y solicitudes de merge automatizadas para la revisión.
Arquitectura técnica del sistema multi-agente (Fuente: Post del blog técnico de Grab)
El sistema está orquestado utilizando un motor de flujo de trabajo basado en LangGraph combinado con servicios FastAPI que coordinan la ruta, la ejecución de herramientas y la gestión del estado entre los agentes. Las solicitudes se clasifican y luego se envían a agentes especializados responsables de tareas como la búsqueda de contexto, la búsqueda de código o la generación de soluciones. Cada agente opera con responsabilidades concedidas para reducir la ambigüedad y mejorar la previsibilidad de los resultados.
Flujos de trabajo de los agentes, utilizando un Supervisor que controla el flujo de comunicación y la delegación de tareas (Fuente: Post del blog técnico de Grab)
Según los ingenieros de Grab, La separación de los caminos de investigación y mejora nos ayudó a reducir la complejidad de la razón de los agentes y mejorar la confiabilidad de los flujos de trabajo en producción.
Una decisión arquitectónica clave fue la consolidación del ecosistema de herramientas. El sistema inicialmente expuso más de 30 herramientas internas across data access, logging y code systems. Esto fue posteriormente reducido a un conjunto de herramientas más pequeño y curado para mejorar la mantenibilidad y reducir la selección de herramientas impredecible por parte de los agentes. La capa de herramientas incluye la ejecución SQL controlada, el acceso a metadatos, los sistemas de recuperación de registros y la integración con flujos de trabajo Git para la gestión de cambios.
La seguridad y la gobernanza fueron integradas en el proyecto de sistema. La ejecución SQL está limitada a través de capas de validación y el manejo de datos sensibles incluye mecanismos para detectar y mitigar los riesgos de exposición. Además, todos los flujos de trabajo de mejora que producen cambios de código requieren la revisión en presencia de un ingeniero antes de la distribución, garantizando que los resultados automatizados permanezcan sujetos a un control de ingeniería.
La gestión del contexto emergió como un desafío técnico significativo, ya que los agentes debían comprender el contexto de cada solicitud para proporcionar respuestas precisas y relevantes. Para abordar esto, el equipo desarrolló un sistema de gestión del contexto que utiliza el procesamiento del lenguaje natural (NLP) para analizar la solicitud y identificar el contexto relevante.
El sistema multi-agente ha sido distribuido en producción y ha mostrado mejoras significativas en la eficiencia de resolución y la reducción del trabajo operativo repetitivo. El equipo planea continuar iterando y mejorando el sistema para mejorar aún más sus capacidades y escalabilidad.
Comentarios (0)
Login or Register to apply