Pipeline-Stufe 3 — FFmpeg-Pipelines für Roh-Editing
Aus den Zeit-Stempeln der LLM-Scoring-Stufe werden in Stufe 3 die Roh-Cuts erzeugt — automatisiert, ohne Editor-Eingriff. FFmpeg ist 2026 das industrieübliche Werkzeug für diese Pipeline-Schicht. Eine gut konstruierte FFmpeg-Pipeline kann aus einem Plenarrede-Transkript binnen Minuten Roh-Cuts in Plattform-Auflösung erzeugen — die dann in Stufe 4 und 5 manuell verfeinert werden.
Aus den Zeit-Stempeln der LLM-Scoring-Stufe werden in Pipeline-Stufe 3 die Roh-Cuts erzeugt — automatisiert, ohne Editor-Eingriff. FFmpeg ist 2026 das industrieübliche Werkzeug für diese Pipeline-Schicht. Eine gut konstruierte FFmpeg-Pipeline kann aus einem Plenarrede-Transkript binnen Minuten Roh-Cuts in Plattform-Auflösung erzeugen — die dann in den späteren Stufen manuell verfeinert werden.
Was hier untersucht wird
Dieser Tiefe-2-Artikel zerlegt die FFmpeg-basierte Roh-Editing-Stufe. Die LLM-Scoring-Vor-Vertiefung in T2-C09-02 hat die Kandidaten-Identifikation beschrieben. Hier wird die Frage gestellt: wie wird aus dem Zeit-Stempel und der Quelle ein Roh-Cut in 9:16-Format produziert?
Die fünf FFmpeg-Operationen
Operation eins: Trim. Aus der vollen Plenarrede wird ein Zeit-Abschnitt herausgeschnitten. FFmpeg-Syntax:
ffmpeg -ss 01:23:45 -i quelle.mp4 -t 30 -c copy roh.mp4
Schnell, verlustfrei, in Sekunden ausgeführt.
Operation zwei: Vertical-Reframe. Das ursprünglich horizontale 16:9-Bundestags-Webcam-Material wird auf 9:16-Vertikal-Format zugeschnitten. Empfehlung: nicht statisch zentriert, sondern mit Sprecher-Tracking. FFmpeg plus Sprecher-Detection (z.B. via YOLOv8 oder Face-Detection-Modell).
Operation drei: Audio-Normalisierung. Plenarsaal-Audio variiert in der Lautstärke. FFmpeg-Loudnorm-Filter setzt eine konsistente Loudness (typisch -16 LUFS).
ffmpeg -i roh.mp4 -af loudnorm=I=-16:TP=-1.5:LRA=11 normalisiert.mp4
Operation vier: Plattform-Encoding. Pro Ziel-Plattform (TikTok, Reels, Shorts) wird in der entsprechenden Auflösung und Bitrate encoded.
Operation fünf: Caption-Vorbereitung. Untertitel werden als SRT-Datei vorbereitet (aus der Whisper-Transkription), aber noch nicht eingebrannt — das passiert in Stufe 4.
Die Pipeline-Architektur
Eine produktive FFmpeg-Pipeline 2026:
INPUT: Zeit-Stempel + Quell-Video + LLM-Metadaten
↓
1. Trim
↓
2. Vertical-Reframe (mit Sprecher-Tracking)
↓
3. Audio-Normalisierung
↓
4. Plattform-Encoding (3 Varianten: TikTok, Reels, Shorts)
↓
5. SRT-Datei aus Whisper-Transkription
↓
OUTPUT: 3 Roh-Cuts plus SRT-Datei
Diese Pipeline läuft typisch in 3 bis 8 Minuten pro Cut auf einem mittelmäßigen Server.
Sprecher-Tracking im Detail
Wenn die Bundestags-Webcam zentral auf den Redner gerichtet ist, ist Sprecher-Tracking unnötig. Bei Wahlkreis-Vlogs oder anderem Material mit beweglicher Kamera:
— YOLOv8 oder MediaPipe für Face-Detection. — Re-Frame-Logik: das Detection-Center wird zur 9:16-Crop-Position. — Smoothing: Kamera-Bewegungen werden über mehrere Frames geglättet, um Ruckler zu vermeiden.
Aufwand: einmalige Pipeline-Einrichtung, dann automatisch.
Die typischen FFmpeg-Fehler
Drei Fehler-Muster.
— Fehler eins: zu hohe Bitrate. TikTok-Upload akzeptiert Cuts bis 1 GB, aber TikToks interne Re-Encoding nivelliert Bitrate. Bitrate über 8 Mbps ist Verschwendung.
— Fehler zwei: falscher Audio-Codec. AAC ist Standard, manche Encoder produzieren AC3 oder MP3 — was Plattform-seitig zu Audio-Sync-Problemen führen kann.
— Fehler drei: keine Audio-Normalisierung. Roh-Cut hat unterschiedliche Lautstärken; Caption-Auto-Sync-Tools (in CapCut etc.) schlagen fehl.
Operative Konsequenzen
Drei priorisierte Empfehlungen.
— Priorität A: FFmpeg-Pipeline-Skript schreiben. Bash- oder Python-Skript, das die fünf Operationen orchestriert. Aufwand: rund 16 Stunden initiale Entwicklung. Effekt: automatisierte Roh-Cut-Produktion.
— Priorität B: Sprecher-Tracking für Wahlkreis-Material. YOLOv8 oder MediaPipe in die Pipeline integrieren. Aufwand: 8 Stunden zusätzlich. Effekt: bessere Vertical-Reframe-Qualität bei beweglicher Kamera.
— Priorität C: Plattform-Encoding-Presets. Drei Encoding-Presets (TikTok, Reels, Shorts) als Pipeline-Parameter. Aufwand: 2 Stunden. Effekt: korrekte Plattform-Specs ohne manuelle Auswahl.
Empfehlungen mit Priorität
— Priorität A: FFmpeg-Pipeline-Skript. — Priorität B: Sprecher-Tracking für Wahlkreis-Material. — Priorität C: Plattform-Encoding-Presets.
Wo das hingehört
Tiefe-1 Sieben-Stufen-Pipeline: T1-C09. Vor-Stufen: T2-C09-01, T2-C09-02. Folge: T2-C09-04 — Caption-Generierung.
Codex AI-Automation Sektion 4.
Was du als nächstes tust
Diese Woche: einfaches FFmpeg-Trim-Skript schreiben (Zeit-Stempel als Input, 9:16-Crop, AAC-Audio). Test mit einer Plenarrede.