So automatisieren Sie die Codeüberprüfung mit Claude Code

Erfahren Sie, wie Sie die Codeüberprüfung mit Claude Code automatisieren können. In diesem Handbuch geht es um die Einrichtung von PR-Reviews, die Subagent-Architektur und darum, wie man visuelle QA hinzufügt, die erfasst, was bei einer diffbasierten Überprüfung übersehen wird.
Advanced computer use agent
Production-grade reliability
Transparent Execution

Der Code-Review-Engpass, über den niemand spricht

Verhaltensorientierte PR-Überprüfung
Wenn eine PR geöffnet wird, liest Sai nicht nur den Unterschied — es öffnet deine Vorschau-Bereitstellung, loggt sich in ein Testkonto ein und klickt sich Schritt für Schritt durch die betroffenen Nutzerabläufe. Es macht Screenshots von jedem Zustandsübergang und kennzeichnet alles, was nicht funktioniert. So erhalten die Prüfer visuelle Beweise statt Codekommentare.
Automatisierte Fehlerreproduktion anhand von Screenshots
Fügen Sie den Bug-Screenshot eines Benutzers in Sai ein. Es untersucht die App, ermittelt die genaue Reihenfolge der Klicks, die das Problem ausgelöst haben, und generiert ein für die Entwicklung geeignetes Ticket mit Schritten zur Reproduktion, erwartetem Verhalten und kommentierten Screenshots. So werden vage Berichte in einen umsetzbaren Kontext für Claude Code umgewandelt.
Fix-Verifizierung im geschlossenen Regelkreis
Nachdem Claude Code den Code gepatcht hat, führt Sai denselben Testablauf automatisch erneut aus. Es erfasst Vorher-Nachher-Screenshots, überprüft Sentry auf neue Fehler und veröffentlicht einen strukturierten Bericht über bestanden/nicht bestanden auf Slack oder GitHub. So führt dein Team nie einen Fix zusammen, ohne zu bestätigen, dass er tatsächlich im Produkt funktioniert.

Der Code-Review-Engpass, über den niemand spricht

Ihr Team versendet schneller als es überprüft.

KI-Codierungsagenten — Claude Code, Cursor, GitHub Copilot — generieren Pull-Requests schneller, als ein menschlicher Reviewer sie lesen kann. Ein leitender Ingenieur, der früher vor dem Mittagessen drei PRs überprüft hat, sieht sich jetzt zwölf gegenüber. Der Code sieht sauber aus. Die Tests bestehen. Der Linter ist leise.

Aber die Checkout-Seite ist kaputt.

Dies ist die Lücke bei der Codeüberprüfung im Jahr 2025: der Abstand zwischen „Der Code ist korrekt“ und „Das Produkt funktioniert“. Herkömmliche Code-Reviews — ob durch Menschen oder KI — ergeben Unterschiede. Es überprüft Logik, Muster und Syntax. Es öffnet nicht die App, klickt nicht durch den Checkout-Prozess, wendet einen Coupon an und stellt fest, dass der Gesamtbetrag auf minus vier Dollar sinkt.

Die meisten KI-Code-Review-Tools vergrößern diese Lücke, nicht kleiner. Sie generieren mehr Kommentare, mehr Vorschläge, mehr Lärm. Techniker auf Reddit beschreiben das Muster so: „Die Überprüfung durch KI verursacht mehr Arbeit als sie spart, weil für jeden Kommentar ein Mensch benötigt wird, um zu überprüfen, ob er echt ist.“

Das Problem ist nicht, dass die Codeüberprüfung zu langsam ist. Das Problem ist, dass die Codeüberprüfung unvollständig ist. Es überprüft den Code. Niemand bewertet das Produkt.

In diesem Handbuch werden drei Stufen der Automatisierung der Codeüberprüfung beschrieben:

  1. Manuelle Überprüfung — wie die meisten Teams das heute machen
  2. Bewertung von Claude Code — automatisierte Diff-Analyse mit /rezension und GitHub-Aktionen
  3. Verhaltensorientierte Überprüfung — Claude Code liest den Code, während Sai das Produkt testet

Am Ende werden Sie genau wissen, wie Sie die einzelnen Stufen einrichten, wann Sie welche verwenden müssen und woher die tatsächlichen Zeiteinsparungen kommen.

Wie Claude Code Pull-Requests überprüft

Claude Code ist der KI-Codierungsagent von Anthropic, der in Ihrem Terminal läuft. Es liest Ihre Codebasis, versteht den Projektkontext und kann Code auf einer Ebene überprüfen, die weit über einfaches Linting hinausgeht.

Der Befehl /review

Der schnellste Weg, um eine Claude Code-Bewertung zu erhalten, ist der integrierte /rezension Befehl:

# Review your current working changes
claude review

# Review a specific PR
claude review --pr 142

Claude Code analysiert den Unterschied mithilfe mehrerer spezialisierter Subagenten:

  • Logikprüfer — Prüfungen auf Richtigkeit, Randfälle und Regressionen
  • Sicherheitsprüfer — Scans nach Sicherheitslücken, geheimen Enthüllungen und Injektionsvektoren
  • Stilprüfer — setzt Namenskonventionen, Muster und Lesbarkeitsstandards durch
  • Architekturgutachter — weist auf strukturelle Probleme und Musterverstöße hin

Jeder Subagent konzentriert sich auf seine Domäne und berichtet unabhängig. Das Ergebnis ist eine strukturierte Überprüfung mit kategorisierten Ergebnissen, Schweregraden und Lösungsvorschlägen.

Claude Code als GitHub-Aktion

Für die automatische PR-Überprüfung bei jedem Push bietet Claude Code eine GitHub-Aktion an:

name: Claude Code Review
on:
  pull_request:
    types: [opened, synchronize]

jobs:
  review:
    runs-on: ubuntu-latest
    steps:
      - uses: anthropics/claude-code-action@v1
        with:
          trigger: "review"

Einmal konfiguriert, Claude Code:

  1. Erhält den PR-Webhook von GitHub
  2. Klont das Repository und checkt den PR-Branch aus
  3. Liest den vollständigen Diff plus den umgebenden Kontext
  4. Veröffentlichen Sie Inline-Kommentare zu bestimmten Zeilen
  5. Fügt einen zusammenfassenden Kommentar mit Gesamtbewertung hinzu

Sie können Bewertungen auch manuell auslösen, indem Sie einen Kommentar abgeben @claude Bewertung auf jeder PR.

Was Claude Code Review gut macht

Die Bewertung von Claude Code ist wirklich nützlich für:

  • Logikfehler erkennen das erfordert das Verständnis des Codebasiskontextes, nicht nur der geänderten Zeilen
  • Identifizierung fehlender Fehlerbehandlung — es liest den umgebenden Code und bemerkt, wenn eine Funktion, die werfen kann, ohne Try/Catch aufgerufen wird
  • Regressionen erkennen — es versteht, was der Code zuvor gemacht hat, und meldet, wenn neue Änderungen das bestehende Verhalten beeinträchtigen
  • Verringerung der Übermüdung der Prü — es kümmert sich um die mechanischen Prüfungen, sodass sich menschliche Prüfer auf Architektur- und Produktentscheidungen konzentrieren können
Was Claude Code Review nicht kann

Claude Code überprüft den Code. Es führt keinen Code aus. Das bedeutet, dass es nicht:

  • Öffnen Sie einen Browser und testen Sie die eigentliche Benutzeroberfläche
  • Stellen Sie sicher, dass eine CSS-Änderung auf verschiedenen Bildschirmgrößen korrekt aussieht
  • Prüfen Sie, ob ein Zahlungsfluss von Anfang bis Ende abgeschlossen ist
  • Beachten Sie, dass eine Schaltfläche jetzt hinter einem anderen Element versteckt ist
  • Reproduzieren Sie einen Fehler aus einem Benutzer-Screenshot
  • Greifen Sie auf Tools mit Autorenwänden wie Sentry, Datadog oder Admin-Dashboards zu

Dies ist keine spezielle Einschränkung von Claude Code — es ist die grundlegende Einschränkung der differenzbasierten Überprüfung. Kein Tool, das nur Code liest, kann Ihnen sagen, ob das Produkt funktioniert.

The Gap: Was AI Code Review immer noch vermisst

Hier ist ein reales Szenario. Ihr Team verwendet Claude Code Review bei jeder PR. Es ist konfiguriert, läuft und fängt echte Bugs ab. Dann passiert das:

PR #247: Gutscheinlogik für Warenkorrabatte aktualisieren

Claude Code überprüft den Unterschied und findet:

  • Keine Logikfehler bei der Rabattberechnung
  • Korrekte Nullprüfungen für das Coupon-Objekt
  • Die Tests bestehen, um den Gutschein anzuwenden/zu entfernen
  • Keine Sicherheitsprobleme

Die PR wird zusammengeführt.

Zwei Stunden später berichtet ein Nutzer: „Ich habe einen Gutschein im Wert von 5$ auf meinen Warenkorb angewendet und dann einen Artikel entfernt. Der Gesamtbetrag ist jetzt negativ. Ich kann nicht auschecken.“

Was ist passiert? Die Coupon-Logik war für sich genommen richtig. Doch die Interaktion zwischen Coupon-Anwendung und Entfernung des Warenkorb-Artikels führte zu einem Zustand, den kein Test abdeckte und kein anderer Prüfer — ob Mensch oder KI — allein durch das Lesen des Codes auffangen konnte.

Dies ist die Klasse von Bugs, die wächst, wenn Codebasen komplexer werden:

  • Fehler bei der staatlichen Interaktion — zwei Funktionen, die unabhängig voneinander funktionieren, aber zusammenbrechen
  • Visuelle Regressionen — Layoutverschiebungen, überlappende Elemente, kaputtes responsives Design
  • Flussabhängige Fehler — Probleme, die erst nach einer bestimmten Abfolge von Benutzeraktionen auftreten
  • Umgebungsspezifische Fehler — Inszenierung verhält sich anders als lokal

Diese Bugs haben ein gemeinsames Merkmal: Sie können sie nur finden, indem Sie das Produkt verwenden.

The Full Loop: So führt Sai + Claude Code Code-Reviews durch

Sai ist ein KI-Agent das läuft auf einem Cloud-Desktop. Es kann Browser öffnen, sich durch Anwendungen klicken, Screenshots machen, Fehlerprotokolle lesen und mit Tools wie Sentry, Slack und GitHub interagieren — und das alles, während es autonom läuft.

In Kombination mit Claude Code, der Review-Loop ändert sich grundlegend:

Traditionelle KI-Überprüfung: PR öffnet → KI liest Diff → KI veröffentlicht Kommentare → Mensch verifiziert

Bewertung von Sai + Claude Code: PR öffnet → Claude Code liest Diff → Sai öffnet die App → Sai testet die Flows → Probleme mit den Screenshots von Sai → Claude Code korrigiert den Code → Sai testet erneut → Strukturierter Bericht veröffentlicht

Der entscheidende Unterschied: Claude Code überprüft den Code. Sai rezensiert das Produkt.

So funktioniert der 8-Stufen-Loop

Schritt 1: Trigger

Die Schleife beginnt an einer von drei Quellen:

  • Ein GitHub-PR wird geöffnet oder aktualisiert (Webhook-Trigger)
  • Ein Nutzer meldet einen Bug („Die Summe der Kaufabwicklung ist negativ, nachdem ein Coupon eingelöst wurde“)
  • Ein Sentry-Alarm wird mit einem neuen Fehler ausgelöst

Traditionelle Bewertungen beginnen mit dem Unterschied. Diese Schleife kann von der Benutzererfahrung ausgehen.

Schritt 2: Claude Code analysiert den Code

Claude Code liest den PR-Diff, versteht den Codebasiskontext und identifiziert potenzielle Probleme auf Codeebene — Logikfehler, fehlende Randfälle, Sicherheitsbedenken.

Schritt 3: Sai öffnet die Vorschau-Bereitstellung

Während Claude Code den Code liest, öffnet Sai die Vorschau-URL in einem echten Browser auf seinem Cloud-Desktop. Es meldet sich mit einem Testkonto an und navigiert zum betroffenen Bereich.

Schritt 4: Sai testet die tatsächlichen Benutzerströme

Dies ist der entscheidende Schritt, den kein anderes KI-Review-Tool durchführt. Ich sagte:

  • Fügt Artikel zum Einkaufswagen hinzu
  • Wendet den Gutscheincode an
  • Ändert Mengen und entfernt Artikel
  • Erlös zur Kasse
  • Überprüft, ob Gesamtbeträge, Steuern und Rabatte korrekt berechnet werden
  • Screenshots bei jedem Schritt

Schritt 5: Sai generiert Schritte zur Reproduktion

Wenn etwas kaputt geht, Sai erstellt einen für die Entwicklung geeigneten Fehlerbericht:

Schritte zur Reproduktion:1. Füge 3 Orangen zu je 2$ hinzu. Gesamtbetrag des Einkaufswagens: 6,002$. Wenden Sie den Gutscheincode SAVE5 an. Gesamtbetrag des Warenkorbs: 1.003$. Entferne eine Orange. Gesamtbetrag des Warenkorbs: -1.004 $. Klicken Sie auf Zur Kasse. Fehler: „Negative Summe kann nicht verarbeitet werden“
Erwartet: Der Gesamtbetrag sollte als 4,00$ neu berechnet werden — 4,00$ (begrenzt) = 0,00$ Aktuell: Insgesamt wird angezeigt -1,00 $ Screenshots: [before_coupon.png] [after_remove.png] Konsolenfehler: NoneSentry: Keine neuen Fehler protokolliert

Dies ist kein vager Kommentar zu einem Unterschied. Das ist ein QA-Ticket mit Beweisen.

Schritt 6: Claude Code korrigiert den Code

Claude Code erhält die strukturierten Reproduktionsschritte, Screenshots und den Fehlerkontext von Sai. Anstatt zu erraten, was falsch sein könnte, weiß es genau:

  • Welche Seite ist betroffen
  • Welche Operationssequenz löst den Bug aus?
  • Was sollte das erwartete Verhalten sein
  • Was ist das tatsächliche Verhalten

Es generiert eine gezielte Lösung — keinen spekulativen Vorschlag.

Schritt 7: Sai testet den Fix erneut

Nachdem Claude Code den Code gepatcht hat, führt Sai dieselbe Testsequenz erneut aus:

  • Gutschein einlösen → Artikel entfernen → Gesamtsumme überprüfen
  • Stellen Sie sicher, dass die Summe nicht mehr negativ wird
  • Vorher/Nachher-Screenshots aufnehmen
  • Sentry auf neue Fehler überprüfen

Schritt 8: Strukturierter Bericht an Slack/GitHub

Das Endergebnis ist ein strukturierter QA-Bericht, der auf dem Kanal deines Teams veröffentlicht wird:

Sai QA Review: PR #247 — Coupon Discount Logic

Status: ✅ Fixed and verified

Issue found:
Cart total became negative when removing items after applying coupon.

Root cause:
Coupon discount was applied as fixed amount without 
recalculating against updated cart total.

Fix applied:
Added cap logic — discount cannot exceed current cart subtotal.

Verification:
- Before fix: Total = -$1.00 after removing item [screenshot]
- After fix: Total = $0.00, coupon capped correctly [screenshot]
- Sentry: No new errors
- Checkout flow: Completes successfully

Schritt für Schritt: Claude Code Review mit Sai einrichten

Voraussetzungen

  • Ein GitHub-Repository mit Vorschaubereitstellungen (Vercel, Netlify oder ähnlich)
  • Ein Claude Code-Konto (zur Codeanalyse)
  • Ein Sai-Account (für visuelle Qualitätssicherung und Browsertests)

Schritt 1: Claude Code GitHub Action einrichten

Füge die Claude Code-Review-Aktion zu deinem Repository hinzu:

# .github/workflows/claude-review.yml
name: Claude Code Review
on:
  pull_request:
    types: [opened, synchronize]
  issue_comment:
    types: [created]

jobs:
  review:
    if: |
      github.event_name == 'pull_request' ||
      contains(github.event.comment.body, '@claude')
    runs-on: ubuntu-latest
    steps:
      - uses: anthropics/claude-code-action@v1
        with:
          trigger: "review"
          anthropic_api_key: ${{ secrets.ANTHROPIC_API_KEY }}

Auf diese Weise erhalten Sie eine automatische Überprüfung jeder PR auf Diff-Level.

Schritt 2: Verbinde Sai mit deinem GitHub-Repository

Richten Sie in Sai einen Webhook-Workflow ein, der bei PR-Ereignissen ausgelöst wird:

  1. Öffnen Sie Sai → Einstellungen → Workflows
  2. Erstellen Sie einen neuen Webhook-Workflow
  3. Wähle GitHub als Anbieter
  4. Wähle dein Repositorium
  5. Setze das Triggerereignis auf pull_request.geöffnet

Schritt 3: Testabläufe definieren

Sag Sai, was er testen soll, wenn eine PR bestimmte Bereiche berührt:

When a PR modifies files in /src/checkout/:
1. Open preview deployment URL
2. Log in with test account
3. Add 3 items to cart
4. Apply coupon TESTCOUPON
5. Modify quantities
6. Remove one item
7. Proceed to checkout
8. Screenshot each step
9. Report any total that is negative or mismatched

Schritt 4: Reporting konfigurieren

Wählen Sie aus, wohin Sai die Ergebnisse sendet:

  • GitHub PR-Kommentar — im Einklang mit dem Code-Review
  • Slack-Kanal — für Teamsichtbarkeit
  • Lineares Ticket — für Blocker, die Tracking benötigen

Schritt 5: Ausführen und iterieren

Die ersten PRs kalibrieren das System. Sai lernt, in welchen Strömen Materie fließt, wie „richtig“ aussieht und wo falsch positive Ergebnisse auftreten. Nach einer Woche verfügen Sie über eine Überprüfungspipeline, die sowohl Probleme auf Codeebene als auch auf Produktebene automatisch erkennt.

Aspect Tier 1: Manual Tier 2: Claude Code Tier 3: Claude Code + Sai
Setup time None 15 min (GitHub Action) 30 min (webhook + flows)
Review speed 30-60 min / PR 2-5 min / PR 3-7 min / PR
Catches logic bugs
Catches visual bugs
Tests user flows
Provides evidence Text comments Inline comments Screenshots + STR
Verifies fixes Manual re-review ✅ Automated re-test
Human time / PR 30-60 min 10-15 min 2-5 min

Fünf reale Szenarien

Szenario 1: E-Commerce-Checkout-Bug

Auslöser: PR aktualisiert die Logik der Zahlungsabwicklung.

Claude Code findet: Fehlende Fehlerbehandlung für abgelehnte Karten.

Sai findet: Nach einer abgelehnten Karte bleibt die Schaltfläche „Bestellung aufgeben“ deaktiviert, auch wenn der Benutzer eine gültige Karte eingibt. Der Ladespinner wird nie gelöscht.

Ergebnis: Claude Code behebt die Fehlerbehandlung. Sai überprüft, ob die Schaltfläche nach einer erfolgreichen Karteneingabe wieder aktiviert wird. Ein auf Slack veröffentlichter Bericht.

Szenario 2: Unterbrechung des responsiven Designs im Dashboard

Auslöser: PR überarbeitet das Dashboard-Rasterlayout.

Claude Code findet: Keine Logikprobleme. CSS-Änderungen sehen korrekt aus.

Sai findet: Im Tablet-Viewport (768 Pixel) überlappt die Seitenleiste den Hauptinhaltsbereich. Zwei Diagramm-Widgets sind vollständig hinter dem Navigationsbereich versteckt.

Ergebnis: Sai zeigt die Überlappung an drei Haltepunkten. Claude Code passt die Raster-Breakpoint-Werte an. Sai testet erneut und bestätigt, dass das Layout bei allen Größen sauber ist.

Szenario 3: Regression des Authentifizierungsflusses

Auslöser: PR aktualisiert die OAuth-Integration für Google Sign-In.

Claude Code findet: Die Token-Aktualisierungslogik sieht korrekt aus. Die Bereiche sind ordnungsgemäß konfiguriert.

Sai findet: Nach der Anmeldung bei Google landet die Weiterleitung auf einer 404-Seite, da die Rückruf-URL im Code, aber nicht in der Google Cloud Console-Konfiguration aktualisiert wurde.

Ergebnis: Sai macht Screenshots von der 404. Das Team aktualisiert die Google Cloud Console. Sai testet erneut den gesamten OAuth-Ablauf — Anmeldung, Weiterleitung, Sitzungserstellung — und bestätigt, dass er durchgängig funktioniert.

Szenario 4: Reproduzieren eines Benutzerfehlerberichts anhand eines Screenshots

Auslöser: Ein Nutzer veröffentlicht einen Screenshot in Slack: „Diese Seite sieht kaputt aus.“

Claude Code allein: Ein Screenshot kann nicht verarbeitet werden. Benötigt Codekontext.

Sagte: Öffnet dieselbe Seite, identifiziert das defekte Layout und klickt sich durch, um den genauen Status zu reproduzieren. Generiert die Schritte zur Reproduktion mit drei kommentierten Screenshots. Übergibt Claude Code die Dateipfade, die Seiten-URL und das erwartete Verhalten im Vergleich zum tatsächlichen Verhalten.

Ergebnis: Claude Code identifiziert einen Z-Index-Konflikt in einer kürzlich zusammengeführten PR. Behebt ihn. Sai überprüft, ob die Seite korrekt gerendert wird.

Szenario 5: API-Änderung unterbricht das Frontend stillschweigend

Auslöser: Backend-PR ändert die Antwortform von /api/orders — benennt um total_betrag zu Gesamtbetrag.

Claude Code findet: Die API-Änderung entspricht der neuen Namenskonvention. Die Backend-Tests bestehen.

Sai findet: Auf der Frontend-Bestellhistorie-Seite wird für jede Bestellsumme „$NaN“ angezeigt. Der Frontend-Code verweist immer noch total_betrag.

Ergebnis: Sai macht einen Screenshot der defekten Bestellhistorie. Claude Code findet die Frontend-Referenz und aktualisiert sie. Sai testet die Seite mit dem Bestellverlauf erneut mit echten Daten.

Stop doing repetitive tasks. Let Sai handle them for you.

Sai is your AI computer use agent — it operates your apps, automates your workflows, and gets work done while you focus on what matters.

Try Sai

FAQS