Conception d'un Système Multi-Agent pour le Support Informatique à Échelle : Une Étude de Cas de Grab
Conception d'un Système Multi-Agent pour le Support Informatique à Échelle : Une Étude de Cas de Grab
L'équipe d'Analytics Data Warehouse (ADW) de Grab a introduit un système AI multi-agent pour automatiser les flux de travail de support informatique à l'intérieur de sa grande plateforme de données, avec l'objectif de réduire les travaux répétitifs opérationnels et d'améliorer l'efficacité de résolution. Le système est conçu pour gérer les demandes de support informatique internes qui couvrent la résolution de problèmes de données, la débogage SQL et le support de la plateforme, tandis que les ingénieurs sont déplacés vers des travaux de développement de plus grande valeur.
La plateforme ADW soutient plus de 1.000 utilisateurs internes et gère plus de 15.000 tables, ce qui en fait un composant d'infrastructure analytique de base au sein de Grab. À mesure que la demande croît, l'équipe d'ingénierie observe que une partie significative de l'effort opérationnel est consommée par des tâches de support répétitives et des investigations ad-hoc, limitant le temps disponible pour améliorer la plateforme et le travail de conception de système.
Sneh Agrawa, Head of Analytics @ Grab, dans un post de LinkedIn a mis en avant, L'équipe de données centrale de Grab utilise un système multi-agent pour automatiser les travaux opérationnels répétitifs, récupérant ainsi des centaines d'heures d'ingénierie chaque mois. Ce déplacement bloque les bandes d'ingénierie critiques et permet une transition de combats réactifs à des projets de construction de système de plus grande valeur.
Pour aborder cela, l'équipe a mis en place une architecture multi-agent qui sépare les demandes de support informatique entrantes en deux flux de travail principaux : investigation et amélioration. Les flux de travail d'investigation sont conçus pour des tâches diagnostiques comme l'analyse de requêtes, la recherche de journaux, la recherche de schémas et la synthèse de problèmes. Les flux de travail d'amélioration se concentrent sur la génération de sorties actionnables, y compris des modifications de code, des correctifs SQL et des demandes de merge automatiques pour la revue.
Architecture technique du système multi-agent (Source : Post du blog technique de Grab)
Le système est orchestré en utilisant un moteur de flux de travail basé sur LangGraph combiné avec des services FastAPI qui coordonnent la routage, l'exécution de outils et la gestion de l'état entre les agents. Les demandes sont classifiées et ensuite envoyées à des agents spécialisés responsables de tâches comme la recherche de contexte, la recherche de code ou la génération de solutions. Chaque agent opère avec des responsabilités limitées pour réduire l'ambiguïté et améliorer la prévisibilité des résultats.
Flux de travail des agents, avec un superviseur qui contrôle le flux de communication et la délegation des tâches (Source : Post du blog technique de Grab)
Selon les ingénieurs de Grab, La séparation des chemins d'investigation et d'amélioration nous a aidés à réduire la complexité de la logique des agents et à améliorer la fiabilité des flux de travail en production.
Une décision architecturale clé a été la consolidation de l'écosystème des outils. Le système a initialement exposé plus de 30 outils internes across data access, logging et code systems. Cela a été plus tard réduit à un ensemble d'outils plus petit et curé pour améliorer la maintenance et réduire la sélection d'outils imprévisible par les agents. La couche d'outils comprend l'exécution SQL contrôlée, l'accès aux métadonnées, les systèmes de récupération de journaux et l'intégration avec des flux de travail Git pour la gestion des modifications.
La sécurité et la gouvernance ont été intégrées dans le projet de système. L'exécution SQL est limitée par des couches de validation et le traitement des données sensibles comprend des mécanismes pour détecter et atténuer les risques d'exposition. De plus, tous les flux de travail d'amélioration qui produisent des modifications de code nécessitent une revue par un ingénieur avant la publication, pour s'assurer que les résultats automatiques restent soumis à un contrôle ingénierie.
La gestion du contexte a émergé comme un défi technique important, car les agents devaient comprendre le contexte de chaque demande pour fournir des réponses précises et pertinentes. Pour aborder cela, l'équipe a développé un système de gestion du contexte qui utilise le traitement du langage naturel (NLP) pour analyser la demande et identifier le contexte pertinent.
Le système multi-agent a été publié en production et a montré des améliorations significatives dans l'efficacité de résolution et la réduction des travaux opérationnels répétitifs. L'équipe prévoit continuer à améliorer et à scaler le système pour améliorer ses capacités et sa scalabilité.
Commentaires (0)
Login or Register to apply