EN Login

Pipeline-Stufe 4 — Caption-Generierung mit GPT/Claude

Caption-Layer ist 2026 ein algorithmischer Hebel und eine Übersetzungs-Aufgabe zugleich. Die Roh-Caption aus Whisper ist wortgetreu, aber für Plattform-Display zu lang und unstrukturiert. Pipeline-Stufe 4 verdichtet, segmentiert und positioniert — typisch mit LLM-Unterstützung. Eine gute Stufe-4-Pipeline produziert SRT-Dateien in Plattform-konformer Format-Logik.

Caption-Layer ist 2026 ein algorithmischer Hebel und eine Übersetzungs-Aufgabe zugleich. Die Roh-Caption aus Whisper ist wortgetreu, aber für Plattform-Display zu lang, unstrukturiert und ohne Pacing-Logik. Pipeline-Stufe 4 verdichtet, segmentiert und positioniert — typisch mit LLM-Unterstützung. Eine gut konstruierte Stufe-4-Pipeline produziert SRT-Dateien (Caption-Format) in plattform-konformer Format-Logik, die in den Roh-Cut eingebrannt werden können.

Was hier untersucht wird

Dieser Tiefe-2-Artikel zerlegt die Caption-Generierungs-Stufe. Die Caption-Mechanik-Vor-Vertiefung in T2-A03-03 hat die Plattform-spezifischen Caption-Architekturen beschrieben. Hier wird die Frage gestellt: wie wird automatisiert aus Whisper-Roh-Transkripten plattform-konformer Caption-Code produziert?

Die drei Caption-Verarbeitungs-Schritte

Schritt eins: Whisper-Output-Validierung. Whisper produziert Transkripte mit Timestamps. Für deutsche Plenar-Sprache ist die Genauigkeit 2026 typisch über 90 Prozent — aber nicht 100 Prozent. Ein Pre-Validation-LLM-Pass mit dem Plenar-Protokoll (offizieller Wortlaut) als Referenz prüft und korrigiert Whisper-Fehler.

Schritt zwei: Verdichtung. Plenar-Sprache ist verbal-redundant (“Sehr geehrte Frau Präsidentin, sehr geehrte Damen und Herren”). Für Plattform-Captions wird verdichtet: drei bis fünf Wörter pro Caption-Block, max. zwei Zeilen pro Block. LLM-Prompt verlangt: “Komprimiere wortgetreu auf Plattform-Caption-Format. Keine Sinn-Veränderung.”

Schritt drei: Pacing-Synchronisation. Captions werden in Audio-Beat-konformen Blöcken segmentiert. Pro Caption-Block typisch 1,5 bis 3 Sekunden Display-Dauer.

Der LLM-Prompt für Caption-Verdichtung

Eine bewährte Prompt-Struktur 2026:

Du bist ein Caption-Editor für politische Kurzvideo-Cuts.

Gegeben: Whisper-Roh-Transkript mit Zeitstempeln 
(in JSON-Format).

Aufgabe: Erzeuge eine plattform-konforme SRT-Caption-Datei für TikTok/Reels/Shorts.

Regeln:
1. Maximal 5 Wörter pro Zeile.
2. Maximal 2 Zeilen pro Caption-Block.
3. Caption-Block-Dauer: 1.5 bis 3 Sekunden.
4. Keine Sinn-Veränderung gegenüber Whisper-Original.
5. Falls Whisper-Fehler erkennbar: korrigieren 
   und in Kommentar markieren.
6. Block-Übergänge bei natürlichen Sprech-Pausen.
7. Verbose-Floskeln entfernen ("nun, also, ähm").

Output-Format: gültiges SRT plus Korrektur-Log als JSON.

Modell-Wahl: Claude 4 für höhere Genauigkeit bei politischen Texten, GPT-4 als Alternative.

Die Plattform-Spezifika in der Caption

Die Pipeline-Stufe 4 produziert eine Basis-SRT. Plattform-Anpassungen passieren in Stufe 5:

TikTok-Variante: Caption-Position Y 800-1100, Hintergrund-Stroke schwarz, Schrift weiß. — Reels-Variante: Caption-Position Y 200-600 für Hook-Captions, Y 1100-1400 für Body. — Shorts-Variante: zentriert, mit animierter Word-by-Word-Reveal (siehe T2-A03-03).

Diese Plattform-Varianten werden 2026 durch eine einzige SRT-Datei plus drei plattform-spezifische FFmpeg-Burn-In-Befehle erzeugt.

Compliance bei Caption-Generierung

Drei Compliance-Punkte.

Wortlaut-Treue zum Plenarprotokoll. Bei Plenarrede-Cuts ist die Caption die wortgetreue Wiedergabe der Plenar-Aussage. Eine LLM-getriebene “Verbesserung” der Formulierung kann als Verfälschung gewertet werden (siehe T2-A03-06).

KI-Disclosure ab 2.8.2026. Wenn die Caption durch ein LLM signifikant umformuliert wurde (über reine Verdichtung hinaus), greift potenziell EU-AI-Act-Art. 50. Empfehlung: Verdichtung ja, Umformulierung nein.

DSGVO bei externer LLM-Verarbeitung. Plenar-Transkripte enthalten oft Bezug zu benannten Personen. Bei Verarbeitung über externe LLM-APIs (OpenAI, Anthropic) ist ein Auftragsverarbeitungs-Vertrag erforderlich; idealerweise EU-Region-Verarbeitung.

Operative Konsequenzen

Drei priorisierte Empfehlungen.

Priorität A: SRT-Verdichtungs-Prompt etablieren. Bewährter Prompt im Pipeline-Workflow integriert. Aufwand: rund 4 Stunden Entwicklung plus Test-Iterationen.

Priorität B: Plenarprotokoll-Cross-Check. Wenn der LLM-Pass den Whisper-Output korrigiert, wird gegen das offizielle Plenar-Protokoll verglichen. Aufwand: zusätzliche 10 bis 15 Minuten pro Cut.

Priorität C: KI-Disclosure-Marker ab 2.8.2026. Falls Captions LLM-bearbeitet sind: Kennzeichnung in der Cut-Beschreibung. Aufwand: minimal, automatisierbar.

Empfehlungen mit Priorität

Priorität A: SRT-Verdichtungs-Prompt. — Priorität B: Plenarprotokoll-Cross-Check. — Priorität C: KI-Disclosure-Marker.

Wo das hingehört

Tiefe-1 Sieben-Stufen-Pipeline: T1-C09. Vor-Stufen: T2-C09-01 bis T2-C09-03. Caption-Mechanik: T2-A03-03. EU-AI-Act: T1-C19.

Codex AI-Automation Sektion 4.

Was du als nächstes tust

Diese Woche: SRT-Verdichtungs-Prompt mit Claude oder GPT testen. Über drei Plenarrede-Whisper-Transkripte laufen lassen. Output-Qualität gegen manuelle Caption-Erstellung vergleichen.

Quellen

  1. Anthropic, Claude API Documentation, Permalink, Abruf 18.05.2026.

  2. OpenAI, Whisper Speech-to-Text plus GPT-4 Post-Processing, Permalink, Abruf 18.05.2026.

  3. SubRip File Format Documentation, SRT File Specifications, Permalink, Abruf 18.05.2026.

  4. EU-Verordnung 2024/1689, AI Act Art. 50 — Transparenzpflichten, Permalink, Abruf 18.05.2026.