Pipeline-Stufe 4 — Caption-Generierung mit GPT/Claude
Caption-Layer ist 2026 ein algorithmischer Hebel und eine Übersetzungs-Aufgabe zugleich. Die Roh-Caption aus Whisper ist wortgetreu, aber für Plattform-Display zu lang und unstrukturiert. Pipeline-Stufe 4 verdichtet, segmentiert und positioniert — typisch mit LLM-Unterstützung. Eine gute Stufe-4-Pipeline produziert SRT-Dateien in Plattform-konformer Format-Logik.
Caption-Layer ist 2026 ein algorithmischer Hebel und eine Übersetzungs-Aufgabe zugleich. Die Roh-Caption aus Whisper ist wortgetreu, aber für Plattform-Display zu lang, unstrukturiert und ohne Pacing-Logik. Pipeline-Stufe 4 verdichtet, segmentiert und positioniert — typisch mit LLM-Unterstützung. Eine gut konstruierte Stufe-4-Pipeline produziert SRT-Dateien (Caption-Format) in plattform-konformer Format-Logik, die in den Roh-Cut eingebrannt werden können.
Was hier untersucht wird
Dieser Tiefe-2-Artikel zerlegt die Caption-Generierungs-Stufe. Die Caption-Mechanik-Vor-Vertiefung in T2-A03-03 hat die Plattform-spezifischen Caption-Architekturen beschrieben. Hier wird die Frage gestellt: wie wird automatisiert aus Whisper-Roh-Transkripten plattform-konformer Caption-Code produziert?
Die drei Caption-Verarbeitungs-Schritte
Schritt eins: Whisper-Output-Validierung. Whisper produziert Transkripte mit Timestamps. Für deutsche Plenar-Sprache ist die Genauigkeit 2026 typisch über 90 Prozent — aber nicht 100 Prozent. Ein Pre-Validation-LLM-Pass mit dem Plenar-Protokoll (offizieller Wortlaut) als Referenz prüft und korrigiert Whisper-Fehler.
Schritt zwei: Verdichtung. Plenar-Sprache ist verbal-redundant (“Sehr geehrte Frau Präsidentin, sehr geehrte Damen und Herren”). Für Plattform-Captions wird verdichtet: drei bis fünf Wörter pro Caption-Block, max. zwei Zeilen pro Block. LLM-Prompt verlangt: “Komprimiere wortgetreu auf Plattform-Caption-Format. Keine Sinn-Veränderung.”
Schritt drei: Pacing-Synchronisation. Captions werden in Audio-Beat-konformen Blöcken segmentiert. Pro Caption-Block typisch 1,5 bis 3 Sekunden Display-Dauer.
Der LLM-Prompt für Caption-Verdichtung
Eine bewährte Prompt-Struktur 2026:
Du bist ein Caption-Editor für politische Kurzvideo-Cuts.
Gegeben: Whisper-Roh-Transkript mit Zeitstempeln
(in JSON-Format).
Aufgabe: Erzeuge eine plattform-konforme SRT-Caption-Datei für TikTok/Reels/Shorts.
Regeln:
1. Maximal 5 Wörter pro Zeile.
2. Maximal 2 Zeilen pro Caption-Block.
3. Caption-Block-Dauer: 1.5 bis 3 Sekunden.
4. Keine Sinn-Veränderung gegenüber Whisper-Original.
5. Falls Whisper-Fehler erkennbar: korrigieren
und in Kommentar markieren.
6. Block-Übergänge bei natürlichen Sprech-Pausen.
7. Verbose-Floskeln entfernen ("nun, also, ähm").
Output-Format: gültiges SRT plus Korrektur-Log als JSON.
Modell-Wahl: Claude 4 für höhere Genauigkeit bei politischen Texten, GPT-4 als Alternative.
Die Plattform-Spezifika in der Caption
Die Pipeline-Stufe 4 produziert eine Basis-SRT. Plattform-Anpassungen passieren in Stufe 5:
— TikTok-Variante: Caption-Position Y 800-1100, Hintergrund-Stroke schwarz, Schrift weiß. — Reels-Variante: Caption-Position Y 200-600 für Hook-Captions, Y 1100-1400 für Body. — Shorts-Variante: zentriert, mit animierter Word-by-Word-Reveal (siehe T2-A03-03).
Diese Plattform-Varianten werden 2026 durch eine einzige SRT-Datei plus drei plattform-spezifische FFmpeg-Burn-In-Befehle erzeugt.
Compliance bei Caption-Generierung
Drei Compliance-Punkte.
— Wortlaut-Treue zum Plenarprotokoll. Bei Plenarrede-Cuts ist die Caption die wortgetreue Wiedergabe der Plenar-Aussage. Eine LLM-getriebene “Verbesserung” der Formulierung kann als Verfälschung gewertet werden (siehe T2-A03-06).
— KI-Disclosure ab 2.8.2026. Wenn die Caption durch ein LLM signifikant umformuliert wurde (über reine Verdichtung hinaus), greift potenziell EU-AI-Act-Art. 50. Empfehlung: Verdichtung ja, Umformulierung nein.
— DSGVO bei externer LLM-Verarbeitung. Plenar-Transkripte enthalten oft Bezug zu benannten Personen. Bei Verarbeitung über externe LLM-APIs (OpenAI, Anthropic) ist ein Auftragsverarbeitungs-Vertrag erforderlich; idealerweise EU-Region-Verarbeitung.
Operative Konsequenzen
Drei priorisierte Empfehlungen.
— Priorität A: SRT-Verdichtungs-Prompt etablieren. Bewährter Prompt im Pipeline-Workflow integriert. Aufwand: rund 4 Stunden Entwicklung plus Test-Iterationen.
— Priorität B: Plenarprotokoll-Cross-Check. Wenn der LLM-Pass den Whisper-Output korrigiert, wird gegen das offizielle Plenar-Protokoll verglichen. Aufwand: zusätzliche 10 bis 15 Minuten pro Cut.
— Priorität C: KI-Disclosure-Marker ab 2.8.2026. Falls Captions LLM-bearbeitet sind: Kennzeichnung in der Cut-Beschreibung. Aufwand: minimal, automatisierbar.
Empfehlungen mit Priorität
— Priorität A: SRT-Verdichtungs-Prompt. — Priorität B: Plenarprotokoll-Cross-Check. — Priorität C: KI-Disclosure-Marker.
Wo das hingehört
Tiefe-1 Sieben-Stufen-Pipeline: T1-C09. Vor-Stufen: T2-C09-01 bis T2-C09-03. Caption-Mechanik: T2-A03-03. EU-AI-Act: T1-C19.
Codex AI-Automation Sektion 4.
Was du als nächstes tust
Diese Woche: SRT-Verdichtungs-Prompt mit Claude oder GPT testen. Über drei Plenarrede-Whisper-Transkripte laufen lassen. Output-Qualität gegen manuelle Caption-Erstellung vergleichen.
Quellen
Anthropic, Claude API Documentation, Permalink, Abruf 18.05.2026.
OpenAI, Whisper Speech-to-Text plus GPT-4 Post-Processing, Permalink, Abruf 18.05.2026.
SubRip File Format Documentation, SRT File Specifications, Permalink, Abruf 18.05.2026.
EU-Verordnung 2024/1689, AI Act Art. 50 — Transparenzpflichten, Permalink, Abruf 18.05.2026.