T2-C09-03 tactics

Pipeline-Stufe 3 — FFmpeg-Pipelines für Roh-Editing

Aus den Zeit-Stempeln der LLM-Scoring-Stufe werden in Stufe 3 die Roh-Cuts erzeugt — automatisiert, ohne Editor-Eingriff. FFmpeg ist 2026 das industrieübliche Werkzeug für diese Pipeline-Schicht. Eine gut konstruierte FFmpeg-Pipeline kann aus einem Plenarrede-Transkript binnen Minuten Roh-Cuts in Plattform-Auflösung erzeugen — die dann in Stufe 4 und 5 manuell verfeinert werden.

Aus den Zeit-Stempeln der LLM-Scoring-Stufe werden in Pipeline-Stufe 3 die Roh-Cuts erzeugt — automatisiert, ohne Editor-Eingriff. FFmpeg ist 2026 das industrieübliche Werkzeug für diese Pipeline-Schicht. Eine gut konstruierte FFmpeg-Pipeline kann aus einem Plenarrede-Transkript binnen Minuten Roh-Cuts in Plattform-Auflösung erzeugen — die dann in den späteren Stufen manuell verfeinert werden.

Was hier untersucht wird

Dieser Tiefe-2-Artikel zerlegt die FFmpeg-basierte Roh-Editing-Stufe. Die LLM-Scoring-Vor-Vertiefung in T2-C09-02 hat die Kandidaten-Identifikation beschrieben. Hier wird die Frage gestellt: wie wird aus dem Zeit-Stempel und der Quelle ein Roh-Cut in 9:16-Format produziert?

Die fünf FFmpeg-Operationen

Operation eins: Trim. Aus der vollen Plenarrede wird ein Zeit-Abschnitt herausgeschnitten. FFmpeg-Syntax:

ffmpeg -ss 01:23:45 -i quelle.mp4 -t 30 -c copy roh.mp4

Schnell, verlustfrei, in Sekunden ausgeführt.

Operation zwei: Vertical-Reframe. Das ursprünglich horizontale 16:9-Bundestags-Webcam-Material wird auf 9:16-Vertikal-Format zugeschnitten. Empfehlung: nicht statisch zentriert, sondern mit Sprecher-Tracking. FFmpeg plus Sprecher-Detection (z.B. via YOLOv8 oder Face-Detection-Modell).

Operation drei: Audio-Normalisierung. Plenarsaal-Audio variiert in der Lautstärke. FFmpeg-Loudnorm-Filter setzt eine konsistente Loudness (typisch -16 LUFS).

ffmpeg -i roh.mp4 -af loudnorm=I=-16:TP=-1.5:LRA=11 normalisiert.mp4

Operation vier: Plattform-Encoding. Pro Ziel-Plattform (TikTok, Reels, Shorts) wird in der entsprechenden Auflösung und Bitrate encoded.

Operation fünf: Caption-Vorbereitung. Untertitel werden als SRT-Datei vorbereitet (aus der Whisper-Transkription), aber noch nicht eingebrannt — das passiert in Stufe 4.

Die Pipeline-Architektur

Eine produktive FFmpeg-Pipeline 2026:

INPUT: Zeit-Stempel + Quell-Video + LLM-Metadaten
↓
1. Trim
↓
2. Vertical-Reframe (mit Sprecher-Tracking)
↓
3. Audio-Normalisierung
↓
4. Plattform-Encoding (3 Varianten: TikTok, Reels, Shorts)
↓
5. SRT-Datei aus Whisper-Transkription
↓
OUTPUT: 3 Roh-Cuts plus SRT-Datei

Diese Pipeline läuft typisch in 3 bis 8 Minuten pro Cut auf einem mittelmäßigen Server.

Sprecher-Tracking im Detail

Wenn die Bundestags-Webcam zentral auf den Redner gerichtet ist, ist Sprecher-Tracking unnötig. Bei Wahlkreis-Vlogs oder anderem Material mit beweglicher Kamera:

— YOLOv8 oder MediaPipe für Face-Detection. — Re-Frame-Logik: das Detection-Center wird zur 9:16-Crop-Position. — Smoothing: Kamera-Bewegungen werden über mehrere Frames geglättet, um Ruckler zu vermeiden.

Aufwand: einmalige Pipeline-Einrichtung, dann automatisch.

Die typischen FFmpeg-Fehler

Drei Fehler-Muster.

— Fehler eins: zu hohe Bitrate. TikTok-Upload akzeptiert Cuts bis 1 GB, aber TikToks interne Re-Encoding nivelliert Bitrate. Bitrate über 8 Mbps ist Verschwendung.

— Fehler zwei: falscher Audio-Codec. AAC ist Standard, manche Encoder produzieren AC3 oder MP3 — was Plattform-seitig zu Audio-Sync-Problemen führen kann.

— Fehler drei: keine Audio-Normalisierung. Roh-Cut hat unterschiedliche Lautstärken; Caption-Auto-Sync-Tools (in CapCut etc.) schlagen fehl.

Operative Konsequenzen

Drei priorisierte Empfehlungen.

— Priorität A: FFmpeg-Pipeline-Skript schreiben. Bash- oder Python-Skript, das die fünf Operationen orchestriert. Aufwand: rund 16 Stunden initiale Entwicklung. Effekt: automatisierte Roh-Cut-Produktion.

— Priorität B: Sprecher-Tracking für Wahlkreis-Material. YOLOv8 oder MediaPipe in die Pipeline integrieren. Aufwand: 8 Stunden zusätzlich. Effekt: bessere Vertical-Reframe-Qualität bei beweglicher Kamera.

— Priorität C: Plattform-Encoding-Presets. Drei Encoding-Presets (TikTok, Reels, Shorts) als Pipeline-Parameter. Aufwand: 2 Stunden. Effekt: korrekte Plattform-Specs ohne manuelle Auswahl.

Empfehlungen mit Priorität

— Priorität A: FFmpeg-Pipeline-Skript. — Priorität B: Sprecher-Tracking für Wahlkreis-Material. — Priorität C: Plattform-Encoding-Presets.

Wo das hingehört

Tiefe-1 Sieben-Stufen-Pipeline: T1-C09. Vor-Stufen: T2-C09-01, T2-C09-02. Folge: T2-C09-04 — Caption-Generierung.

Codex AI-Automation Sektion 4.

Was du als nächstes tust

Diese Woche: einfaches FFmpeg-Trim-Skript schreiben (Zeit-Stempel als Input, 9:16-Crop, AAC-Audio). Test mit einer Plenarrede.

Quellen

FFmpeg, Official Documentation, Permalink, Abruf 18.05.2026.
Ultralytics, YOLOv8 Object Detection für Video-Analyse, Permalink, Abruf 18.05.2026.
Google MediaPipe, Face Detection and Tracking, Permalink, Abruf 18.05.2026.