Progettazione di un Sistema Multi-Agente per il Supporto Ingegneristico a Scala: Un Caso di Studio da Grab

Entwurf eines Multi-Agenten-Systems für Ingenieurunterstützung auf Skala: Ein Fallstudie von Grab

Das Analytics Data Warehouse-Team (ADW) von Grab hat ein AI-Multi-Agenten-System eingeführt, um Ingenieurunterstützungsflüsse innerhalb seiner großen Datenplattform zu automatisieren, mit dem Ziel, wiederholtes operatives Arbeiten zu reduzieren und die Lösungseffizienz zu verbessern. Das System ist für die Verwaltung von internen Ingenieurunterstützungsanfragen konzipiert, die die Lösung von Datenbankproblemen, die SQL-Debugging und die Plattformunterstützung umfassen, während Ingenieure zu höherwertigen Entwicklungsarbeiten umgestellt werden.

Die ADW-Plattform unterstützt mehr als 1.000 interne Benutzer und verwalte mehr als 15.000 Tabellen, wodurch sie ein grundlegendes Analyseinfrastrukturkomponenten innerhalb von Grab ist. Mit der wachsenden Nachfrage beobachtete das Ingenieurteam, dass ein erheblicher Teil des operativen Aufwands von wiederholten Supportaufgaben und ad-hoc-Untersuchungen konsumiert wurde, was die Zeit für die Verbesserung der Plattform und den Entwurf von Systemen begrenzte.

Sneh Agrawa, Head of Analytics @ Grab, in einem LinkedIn-Post hervorgehoben, Das zentrale Daten-Team von Grab nutzt ein Multi-Agenten-System, um wiederholtes operatives Arbeiten zu automatisieren, und erlangt so Hunderte von Ingenieurstunden pro Monat zurück. Dieser Wechsel blockiert kritische Ingenieurbänder und ermöglicht eine Transition von reaktiven Feuerwehraktionen zu höherwertigen Systembauprojekten.

Um dies anzugehen, implementierte das Team eine Multi-Agenten-Architektur, die eingehende Ingenieurunterstützungsanfragen in zwei primäre Workflows aufteilt: Untersuchung und Verbesserung. Die Untersuchungsworkflows sind für diagnostische Aufgaben wie die Analyse von Abfragen, die Suche nach Log-Dateien, die Suche nach Schemata und die Zusammenfassung von Problemen konzipiert. Die Verbesserungsworkflows konzentrieren sich auf die Generierung von handlungsorientierten Ausgängen, einschließlich Codeänderungen, SQL-Fixes und automatisierten Merge-Anfragen für die Überprüfung.

Technische Architektur des Multi-Agenten-Systems (Quelle: Post des Grab-Tech-Blogs)

Das System wird mit einem LangGraph-basierten Workflow-Engine kombiniert mit FastAPI-Diensten orchestriert, die die Routing, die Ausführung von Werkzeugen und die Zustandsverwaltung zwischen Agenten koordinieren. Die Anfragen werden zuerst klassifiziert und dann an spezialisierte Agenten weitergeleitet, die für Aufgaben wie die Kontextsuche, die Code-Suche oder die Lösungsgenerierung verantwortlich sind. Jeder Agent operiert mit eingeschränkten Verantwortlichkeiten, um die Ambiguität zu reduzieren und die Vorhersagbarkeit der Ergebnisse zu verbessern.

Agenten-Workflows, mit einem Supervisor, der die Kommunikationsfluss und die Aufgaben delegiert (Quelle: Post des Grab-Tech-Blogs)

Laut den Ingenieuren von Grab, Die Trennung der Untersuchungs- und Verbesserungswege half uns, die Komplexität der Agenten-Logik zu reduzieren und die Zuverlässigkeit der Produktionsworkflows zu verbessern.

Eine wichtige architektonische Entscheidung war die Konsolidierung des Werkzeug-Ökosystems. Das System hat ursprünglich mehr als 30 interne Werkzeuge über Data-Access, Logging und Code-Systeme ausgesetzt. Dies wurde später auf ein kleineres, curiertes Werkzeugset reduziert, um die Wartbarkeit zu verbessern und die unvorhersehbare Werkzeugauswahl durch Agenten zu reduzieren. Die Werkzeugschicht umfasst die kontrollierte SQL-Ausführung, den Zugriff auf Metadaten, die Log-Recuperierungssysteme und die Integration mit Git-basierten Workflows für die Änderungsverwaltung.

Sicherheit und Governance wurden in das Systemdesign integriert. Die SQL-Ausführung ist durch Validierungsschichten limitiert und der sensible Datenverkehr umfasst Mechanismen zur Erkennung und Milderung von Expositionsrisiken. Darüber hinaus erfordern alle Verbesserungsworkflows, die Codeänderungen produzieren, eine Überprüfung durch einen Ingenieur vor der Veröffentlichung, um sicherzustellen, dass automatisierte Ergebnisse unter Ingenieurkontrolle bleiben.

Die Kontextverwaltung erwies sich als ein bedeutender technischer Herausforderung, da Agenten das Kontext der jeweiligen Anfrage verstehen mussten, um genaue und relevante Antworten zu liefern. Um dies anzugehen, entwickelte das Team ein Kontextverwaltungssystem, das den natürlichen Sprachverarbeitung (NLP) verwendet, um die Anfrage zu analysieren und den relevanten Kontext zu identifizieren.

Das Multi-Agenten-System wurde in Produktion veröffentlicht und zeigte signifikante Verbesserungen in der Lösungseffizienz und der Reduzierung wiederholter operativer Arbeiten. Das Team plant, das System weiter zu verbessern und zu skalieren, um seine Fähigkeiten zu verbessern.

Entwurf eines Multi-Agenten-Systems für Ingenieurunterstützung auf Skala: Ein Fallstudie von Grab

Entwurf eines Multi-Agenten-Systems für Ingenieurunterstützung auf Skala: Ein Fallstudie von Grab

Kommentare (0)