Episode 8: Ein Score ist noch keine Erklärung, Gregor Lyttek

Ein Anomaliescore sagt mir, dass ein Modell etwas ungewöhnlich findet. Er sagt mir noch nicht, welche Frage ich als Nächstes prüfen soll.

Quelle: Han et al., DeepAID: Interpreting and Improving Deep Learning-based Anomaly Detection in Security Applications, ACM CCS 2021.

Im Threat Hunting ist diese Lücke entscheidend. Ein Signal wird erst dann zum Arbeitsmittel, wenn ein Mensch die Abweichung nachvollziehen, gegen die Umgebung prüfen und gegebenenfalls widerlegen kann.

Ein Alert braucht eine prüfbare Begründung

„Host X ist anomal“ ist eine Bewertung. „Host X baut erstmals Verbindungen zu 47 externen Zielen auf, obwohl seine bekannte Baseline nur drei interne Gegenstellen enthält“ ist eine prüfbare Begründung. Der zweite Satz öffnet einen Hunt. Der erste verschiebt nur die Black Box in den Alert.

Das macht Genauigkeit nicht unwichtig. Es trennt aber zwei Fragen: Wie oft liegt das Modell richtig, und kann ein Analyst seine konkrete Entscheidung untersuchen? Ein guter Gesamtwert beantwortet die zweite Frage nicht.

Was DeepAID tatsächlich zeigt

DeepAID ist eine Erklärungsschicht für unüberwachte Deep-Learning-Modelle in Sicherheitsanwendungen. Das Paper beschreibt Anwendungen für Netzwerk- und Log-Anomalien sowie Threat Intelligence. Die Autoren berichten, dass ihre Erklärungen Modellentscheidungen verständlicher machen, Fehlerdiagnose und Feedback unterstützen und in Anwendungsfällen zur Reduktion von Fehlalarmen beitragen können.

Das ist ein Forschungsbefund, kein Beweis, dass jede Erklärung im SOC automatisch gut ist. DeepAID zeigt vielmehr, dass Erklärbarkeit als eigenes technisches Problem behandelt werden kann, statt sie mit einem Score oder einer Feature-Liste gleichzusetzen.

Der operative Test

Ich würde eine Erklärung an drei Dingen messen. Sie muss die beobachtete Abweichung benennen. Sie muss auf Daten verweisen, die der Analyst selbst prüfen kann. Und sie muss eine plausible nächste Untersuchung ermöglichen, ohne das Ergebnis vorwegzunehmen.

Eine Erklärung fällt durch, wenn nur Data Scientists sie lesen können, wenn sie nach einer Modellaktualisierung nicht mehr zum aktuellen Normalzustand passt oder wenn sie den Analysten mit einer scheinbar präzisen Ursache in die falsche Richtung lenkt.

Wo die KI endet

Die automatisierte Erkennung kann Kandidaten priorisieren. Der Threat Hunter prüft Kontext, Gegenbelege und Wirkung. Diese Übergabe ist der Punkt, an dem Episode 3 mit ihren zwei Analyseschleifen praktisch wird.

Mein Beschaffungskriterium wäre deshalb nicht nur: Wie genau ist das Modell? Ich würde auch fragen: Kann mein Team erklären, warum genau dieser Alert jetzt relevant sein soll, und kann es diese Erklärung widerlegen?

Gregor Lyttek ist Security Architect & AI Strategist und Threat Hunter im Versicherungsumfeld.

→ lyttek.org · gregor@lyttek.org