Mein Kampf gegen intermittierende KI-Fehler: ein detaillierter Blick auf das Debugging

📖 11 min read•2,019 words•Updated Mar 28, 2026

Hallo zusammen, Morgan hier, zurück mit einem weiteren Blick in die chaotische, oft frustrierende, aber letztendlich bereichernde Welt des Debuggens von KI. Heute möchte ich über etwas sprechen, das mich in letzter Zeit stark beschäftigt, besonders während ich mit einem besonders widerspenstigen generativen KI-Projekt kämpfe:

Der Silent Killer: Debuggen der intermittierenden Fehler von KI

Ihr wisst, um welchen Typ es sich handelt. Nicht der Typ „Ihr Modell ist sofort abgestürzt“. Nicht einmal der Typ „Die Ausgabe ist systematisch falsch“. Ich spreche von den Fehlern, die einmal alle zehn Ausführungen auftreten oder nur, wenn ihr eine bestimmte Kombination aus Eingaben berührt, die schwer zu reproduzieren ist. Diejenigen, die euch an eurem geistigen Zustand, eurem Verständnis des eigenen Codes und manchmal, an der Struktur der Realität selbst zweifeln lassen. Das sind die intermittierenden Fehler der KI, und ganz ehrlich, es sind die schlimmsten.

Meine letzte Begegnung mit diesem speziellen Biest fand während der Entwicklung eines kleinen experimentellen Text-zu-Bild-Generator statt. Das Ziel war einfach: Eine kurze Texteingabe nehmen, in ein latentes Diffusionsmodell injizieren und ein cooles Bild erhalten. 95 % der Zeit funktionierte das wunderbar. Aber von Zeit zu Zeit, ohne ersichtlichen Grund, war das Ausgangsbild völlig weiß oder einfach ein statisches Rauschfeld. Keine Fehlermeldung, kein Absturz, einfach… nichts. Oder schlimmer, manchmal erzeugte es ein Bild, aber das war korrupt – ein störendes Artefakt, eine seltsame Farbverlagerung, die keinen Sinn ergab. Es war wie ein Geist in der Maschine.

Ich verbrachte ein ganzes Wochenende damit, zu versuchen, das zu lösen. Mein erster Gedanke war: „Okay, vielleicht liegt es am GPU.“ Ich überprüfte die Treiber, die Speichernutzung und tauschte sogar die Grafikkarten aus (ja, ich habe ein paar herumliegen für solche Gelegenheiten). Nichts. Dann dachte ich: „Liegt es am Laden der Daten?“ Ich überprüfte mein Datenset, kontrollierte auf korrupte Dateien, richtete eine bessere Fehlerbehandlung beim Lesen der Bilder ein. Trotzdem blieb der Geist.

Diese Erfahrung ließ mich wirklich erkennen, dass das Debuggen von intermittierenden KI-Fehlern einen ganz anderen Denkansatz erfordert als das Debuggen von deterministischen Fehlern. Man kann nicht einfach den Ausführungsfluss einmal nachverfolgen und erwarten, das Problem zu finden. Man muss ein Detektiv werden, nicht nur ein Mechaniker. Und man braucht Werkzeuge und Strategien, die darauf ausgelegt sind, die schwer fassbaren Probleme zu erfassen.

Die Frustration des unsichtbaren Fehlers

Ich erinnere mich an einen Freitagnachmittag, gegen 16 Uhr, als ich absolut überzeugt war, das Problem gefunden zu haben. Ich hatte eine Print-Anweisung hinzugefügt, die den Zustand von `torch.isnan()` eines bestimmten Tensors in dem U-Net meines Diffusionsmodells anzeigte. Und, oh Wunder, als das weiße Bild erschien, war dieser Tensor voller NaNs! „Aha!“ dachte ich, „Numerische Instabilität! Ich werde einfach ein wenig Gradient-Clipping oder ein kleines Epsilon zu meinen Nennern hinzufügen, und wir sind fertig.“

Ich verbrachte die nächsten zwei Stunden damit, sorgfältig verschiedene numerische Stabilitätskorrekturen anzuwenden. Ich führte 50 Tests durch. Alles schien gut zu sein. „Endlich!“ Ich räumte alles auf und fühlte mich triumphierend. Am nächsten Morgen, gleich früh, führte ich eine neue Testreihe durch. Zwei weiße Bilder in den ersten 20. Die NaNs waren verschwunden, aber die weißen Bilder waren zurück. Es war frustrierend. Ich hatte ein Symptom gelöst, nicht die zugrunde liegende Ursache. Die NaNs waren nur ein *anderes* Symptom, nicht die Ursünde.

Das ist die heimtückische Natur der intermittierenden Fehler: Sie haben oft mehrere oberflächliche Erscheinungsformen, und eine davon zu beheben bedeutet nicht, dass man das zugrunde liegende Problem gelöst hat. Es kann sich anfühlen, als würde man mit einem unsichtbaren Hammer ein Wack-a-Mole-Spiel spielen.

Strategien zum Auffangen der ausweichenden KI-Fehler

Nach viel Frustration und Kaffeekonsum begann ich, einen systematischeren Ansatz für diese intermittierenden Albträume zu entwickeln. Hier sind einige Strategien, die mir wirklich geholfen haben:

1. Alles intelligent protokollieren

Wenn ein Fehler intermittierend ist, kann man sich nicht darauf verlassen, anwesend zu sein, um ihn zu sehen, wie er auftritt. Man benötigt, dass der Code einem sagt, was passiert ist. Aber man sollte nicht einfach Megabytes an nutzlosen Logs produzieren. Seid strategisch. Meine Philosophie hat sich von „protokolliere, was möglicherweise falsch ist“ zu „protokolliere, was ich brauche, um den Zustand vor dem Fehler wiederherzustellen“ entwickelt.

Für mein Text-zu-Bild-Gestaltungsmodell bedeutete das:

Die genaue Eingabeaufforderung protokollieren.
Die für die Generierung verwendete Zufallszahl speichern oder hashen (wichtig für die Reproduzierbarkeit!).
Wichtige Statistiken der Tensors (min, max, mean, std, NaN/Inf-Zählungen) zu kritischen Zeitpunkten im Vorwärtsdurchlauf protokollieren, insbesondere nach nichtlinearen Operationen oder benutzerdefinierten Schichten.
Die GPU-Speichernutzung vor und nach speicherintensiven Rechenschritten protokollieren.
Das Ausgangsbild erfassen (auch wenn es weiß oder korrupt ist) und mit den Logdaten verknüpfen.

Hier ist ein vereinfachtes Beispiel, wie ich die Statistiken der Tensors protokollieren könnte:


import torch
import logging

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

def log_tensor_stats(tensor, name):
 if not torch.is_tensor(tensor):
 logging.warning(f"Versuch, ein nicht-Tensorobjekt für {name} zu protokollieren")
 return
 
 stats = {
 'shape': list(tensor.shape),
 'dtype': str(tensor.dtype),
 'min': tensor.min().item() if tensor.numel() > 0 else float('nan'),
 'max': tensor.max().item() if tensor.numel() > 0 else float('nan'),
 'mean': tensor.mean().item() if tensor.numel() > 0 else float('nan'),
 'std': tensor.std().item() if tensor.numel() > 1 else float('nan'),
 'has_nan': torch.isnan(tensor).any().item(),
 'has_inf': torch.isinf(tensor).any().item(),
 }
 logging.info(f"Tensorsstatistiken für {name}: {stats}")

# Beispiel für die Verwendung im Vorwärtsdurchlauf eines Modells
# class MyModel(torch.nn.Module):
# def forward(self, x):
# x = self.conv1(x)
# log_tensor_stats(x, "nach_conv1")
# x = self.relu(x)
# log_tensor_stats(x, "nach_relu")
# return x

Diese granulare Protokollierung half mir zu präzisieren, dass das Problem nicht so sehr die numerische Instabilität *an sich* war, sondern vielmehr ein Problem mit der Generierung des anfänglichen latenten Vektors in bestimmten Grenzfällen, was dann in NaNs weiterverarbeitet wurde.

2. Reproduzierbarkeit annehmen (mit Vorsicht)

Wenn ihr einen intermittierenden Fehler habt, ist der Traum, einen spezifischen Eingang zu finden, der ihn *immer* auslöst. Hier werden feste Zufallszahlen euer bester Verbündeter. Für mein Text-zu-Bild-Generator-Modell begann ich, die Zufallszahl für jede Generierung zu protokollieren. Wenn ein Fehler auftrat, startete ich sofort die Generierung mit dieser Zufallszahl und dieser genauen Eingabeaufforderung neu. Die meiste Zeit konnte ich den Fehler so reproduzieren.

Die „Vorsicht“ besteht darin, dass manchmal, selbst mit der gleichen Zufallszahl, der Fehler *immer noch nicht reproduzierbar war*. Das weist in der Regel auf externe Faktoren hin: Fragmentierung des GPU-Speichers, Konkurrenzbedingungen beim Laden der Daten oder sogar subtile Unterschiede im Zustand der Umgebung. In diesen Fällen müsstet ihr möglicherweise versuchen, eine Reihe von Generierungen mit der *gleichen Zufallszahl* in einer engen Schleife durchzuführen, um zu sehen, ob der umgebungsabhängige Faktor schließlich übereinstimmt.

3. Binäre Suche nach dem fehlerhaften Bestandteil

Das ist eine klassische Debugging-Technik, aber sie ist besonders leistungsstark für KI. Sobald ihr den Fehler mit einem spezifischen Eingang und einer spezifischen Zufallszahl reproduzieren könnt, könnt ihr anfangen, einzugrenzen, wo das Problem in eurem komplexen Modell liegt. Meine Methode für das Bildgenerierungsmodell war:

Das vollständige Modell ausführen, den Fehler erhalten.
Die zweite Hälfte des U-Nets kommentieren. Tritt der Fehler immer noch auf (oder stürzt er nur früher ab)?
Wenn nicht, befindet sich der Fehler in der zweiten Hälfte. Wenn ja, liegt er in der ersten Hälfte.
Wiederholen, indem ihr den problematischen Abschnitt in zwei Teile teilt, bis ihr die genaue Schicht oder den Block zielt.

Hier werden die Logs der Tensorstatistiken aus Schritt 1 unschätzbar wertvoll. Ihr könnt genau sehen, welcher Tensor nach welcher Operation problematisch ist. Für meinen Bildgenerator konnte das Problem schließlich auf einen benutzerdefinierten Aufmerksamkeitsmechanismus zurückverfolgt werden, den ich implementiert hatte. Er hatte einen subtilen Fehler, bei dem, wenn die Eingabesequenz zu kurz war (was in bestimmten Tokenisierungen selten vorkam), die Aufmerksamkeitsgewichte alle null werden konnten, wodurch die folgenden Merkmale effektiv mit null multipliziert wurden und zu einer weißen Ausgabe führten.


# Vereinfachter Auszug aus dem fehlerhaften Aufmerksamkeitsmechanismus (konzeptionell)
def custom_attention(query, key, value):
 scores = torch.matmul(query, key.transpose(-2, -1))
 
 # Fehler: Wenn sequence_length < 2, können die scores nach softmax alle null werden, wenn die Temperatur niedrig ist
 # Zum Beispiel: wenn scores = [-100, -100] -> softmax([0,0]) -> tatsächlich null
 attention_weights = torch.softmax(scores / self.temperature, dim=-1)
 
 # Wenn die attention_weights alle null sind, wird die Ausgabe auch null sein.
 output = torch.matmul(attention_weights, value)
 return output

# Die Lösung bestand darin, ein kleines Epsilon hinzuzufügen oder die Aufmerksamkeitsgewichte einzuschränken, um 
# zu vermeiden, dass sie in extremen Fällen zu absoluten Nullen werden, oder sehr kurze Sequenzen anders zu behandeln.

4. Visualisieren der Zwischenausgaben

Künstliche Intelligenz Modelle sind oft Black Boxes, aber wir können sie transparenter machen. Für Aufgaben der Computer Vision kann das Visualisieren der Zwischenmerkmalskarten unglaublich aufschlussreich sein. Als ich ein beschädigtes Bild erhielt, begann ich, die Merkmalskarten *nach* jedem wichtigen Block im Decoder zu speichern. Wenn die Beschädigung auftrat, konnte ich sie buchstäblich in einem bestimmten Stadium sehen. Für mein Bild-zu-Text-Generierungsmodell zeigte mir das, dass der ursprüngliche latente Raum nicht immer richtig verteilt war; bestimmte Bereiche waren von Anfang an einfach “tot”, was zu den weißen Bereichen führte.

Für die Verarbeitung natürlicher Sprache kann das Visualisieren der Aufmerksamkeitskarten, der Einbettungsvektoren (über t-SNE oder UMAP) oder sogar einfach der rohen Token-IDs helfen, nachzuvollziehen, wo das Verständnis des Modells möglicherweise fehlerhaft ist.

5. Isolieren und Vereinfachen

Wenn Sie den Fehler in Ihrem vollständigen Modell nicht reproduzieren können, versuchen Sie, die verdächtige Komponente zu isolieren und in einem minimalen, eigenständigen Skript zu testen. Entfernen Sie alle unnötigen Abhängigkeiten, das Laden von Daten und andere Ablenkungen. Wenn der Fehler weiterhin in der isolierten Komponente auftritt, haben Sie ein viel kleineres Problem zu lösen. Wenn er verschwindet, ist der Fehler wahrscheinlich darauf zurückzuführen, wie diese Komponente mit anderen Teilen Ihres größeren Systems interagiert.

In meinem Fall nahm ich meine benutzerdefinierte Aufmerksamkeitschicht, erstellte einen falschen Eingabetensor und führte sie in einer Schleife mit verschiedenen Größen und Werten aus. So identifizierte ich schließlich den Grenzfall mit sehr kurzen Eingabesequenzen, der zu allen nullen Aufmerksamkeitsgewichten führte.

Umsetzbare Einblicke

Der Umgang mit intermittierenden KI-Fehlern ist ein rite de passage für jeden Entwickler in diesem Bereich. Sie sind frustrierend, zeitaufwändig und können Sie an Ihren Fähigkeiten zweifeln lassen. Aber mit einem methodischen Ansatz sind sie lösbar. Hier sind einige Erkenntnisse, die ich gewonnen habe und die Sie bei Ihrem nächsten Kampf gegen spukende Fehler anwenden können:

Investieren Sie in intelligente Protokolle: Konzentrieren Sie sich nicht nur auf das Protokollieren von Fehlern. Protokollieren Sie Schlüsselzustandsvariablen, Tensorstatistiken und alles, was helfen kann, die Umgebung vor dem Fehler wiederherzustellen. Zeitstempelte und durchsuchbare Protokolle sind ein Rettungsanker.
Priorisieren Sie die Reproduzierbarkeit: Protokollieren Sie immer die Zufallszahlen. Wenn ein Fehler auftritt, versuchen Sie, ihn sofort mit derselben Zufallszahl und demselben Eingang zu reproduzieren. Wenn er nicht reproduzieren lässt, betrachten Sie externe Faktoren.
Adoptieren Sie eine “Binary Search”-Einstellung: Reduzieren Sie systematisch den problematischen Abschnitt Ihres Modells, indem Sie Komponenten aktivieren/deaktivieren oder die Zwischenoutputs überprüfen.
Visualisieren, visualisieren, visualisieren: Gehen Sie nicht davon aus, dass Ihr Modell intern wie erwartet funktioniert. Betrachten Sie die Zwischenmerkmalskarten, die Aufmerksamkeitsgewichte und die Einbettungen.
Isolieren und Überleben: Extrahieren Sie verdächtige Komponenten und testen Sie sie isoliert mit minimalem Code.
Seien Sie geduldig und beharrlich: Diese Fehler lösen sich selten schnell. Machen Sie Pausen, holen Sie sich frische Meinungen und scheuen Sie sich nicht, eine Weile wegzugehen.

Intermittierende KI-Fehler sind schwierig, aber jedes Mal, wenn Sie einen beseitigen, korrigieren Sie nicht nur einen Fehler; Sie erwerben ein tieferes Verständnis für Ihr Modell und die komplexen Wege, auf denen KI-Systeme scheitern können. Und das, meine Freunde, ist unbezahlbar. Viel Erfolg beim Debuggen!

🕒 Published: March 28, 2026

✍️

Written by Jake Chen

AI technology writer and researcher.

Learn more →