T2-A03-03 tactics 8 Min Lesezeit

Plenarrede-Untertitel-Mechanik — drei Plattformen, drei Safe-Zones, drei Schriftgrößen

Über 85 Prozent der Plenarrede-Sicht erfolgt 2026 ohne Ton. Die Untertitel sind die Haupterzählschicht, nicht das Accessibility-Add-on. Wer Captions falsch platziert, verliert nach Plattformdaten bis zu 22 Prozent Completion-Rate.

Über 85 Prozent der Social-Video-Sicht erfolgt 2026 ohne Ton.^[1] Für Plenarrede-Cuts heißt das: die Untertitel sind die Haupterzählschicht, nicht ein Accessibility-Add-on. TikTok-Plattformdaten zeigen, dass Reels mit Text außerhalb der Safe-Zones rund 22 Prozent niedrigere Completion-Rates erreichen als korrekt platzierte Edits.^[2] Die drei großen Plattformen — TikTok, Reels, Shorts — haben drei unterschiedliche UI-Layouts und damit drei unterschiedliche Caption-Geometrien. Wer einen Universaluntertitel für alle drei nutzt, verschenkt auf mindestens zwei davon strukturelle Reichweite.

Was hier untersucht wird

Dieser Tiefe-2-Artikel zerlegt die Caption-Mechanik in drei plattformspezifische Profile. Die Tiefe-1-Architektur in T1-A03 — Plenarrede zu 30 Millionen hat das Plenarrede-System auf hoher Abstraktionsebene beschrieben. Die vorhergehende Vertiefung T2-A03-02 — Plenarrede-Schnitt-Geschwindigkeit hat das Pacing pro Plattform analysiert. Hier wird die Textebene — Schriftgröße, Position, Safe-Zones, Wortdichte, Animation — als eigenständige Produktionsdisziplin behandelt.

Die zentrale These vorweg: Captions sind 2026 kein Schnitt-Subprozess, sondern eine eigenständige Produktions-Stufe in der Plenarrede-Pipeline. Wer das nicht so behandelt, baut systematische Reichweiten-Verluste in jeden Cut ein.

Caption-Mechanik auf TikTok

Die TikTok-Safe-Zone für Text ist 2026 klar definiert. Bei der Standard-Auflösung 1080×1920 Pixel ist die nutzbare Text-Fläche rund 1080×1420 Pixel.^[3] Konkret heißt das: die unteren 240 bis 350 Pixel müssen frei bleiben für die TikTok-Navigations-Buttons (Like, Comment, Share, Audio-Track), die oberen rund 150 Pixel für Username und Statusbar.

Schriftgröße und Schriftart folgen einer klaren Regel: Sans-Serif-Schriften (Helvetica, Arial, Montserrat) in Bold oder Semi-Bold, Zeilenabstand rund 1,3-fach, hoher Kontrast (weiß auf schwarzem Stroke).^[4] Der Hintergrund: TikTok komprimiert Videos im Upload-Pipeline; dünne Schriften verlieren dabei Klarheit und werden grau-schwammig. Wer eine elegante Display-Schrift wählt, optimiert für sich selbst, nicht für den Zuschauer.

Wortdichte pro Frame: drei bis fünf Wörter pro Caption-Block, maximal zwei Zeilen pro Frame, synchron zum Audio-Beat. Die Caption-Position liegt zwischen oberem Drittel und Bildmitte — nie auf den unteren 25 Prozent. Bewährte Position: Y-Achse rund 800 bis 1100 Pixel (bei 1920px Höhe), zentriert.

Praxisrelevante TikTok-Besonderheit: die plattform-eigene auto-generierte Caption-Funktion liefert für deutsche Plenarrede-Audio in 2026 noch immer Transkriptions-Qualität unter 90 Prozent. Wer auf die TikTok-Auto-Caption setzt, hat statistisch Fehler in mindestens jedem zehnten Wort. Diese Fehler-Quote ist für politische Cuts inakzeptabel — eine fehltranskribierte Aussage in einer Plenarrede kann den ganzen Cut entgleisen lassen. Empfehlung: manuelles Untertitel-Mastering oder Whisper-large mit Korrektur-Pass.

Caption-Mechanik auf Instagram Reels

Die Reels-Safe-Zone unterscheidet sich strukturell von TikTok. Rund 20 Prozent der oberen Fläche, 15 Prozent der rechten Seite und 25 Prozent der unteren Fläche werden 2026 von Instagram-UI überlagert.^[2] Die rechte Seitenleiste ist 90 Pixel breit (Engagement-Icons). Die unteren 280 Pixel sind kritisch — dort liegen Caption-Eingabe und Audio-Track-Info.

Schriftgröße: Subtitle-Höhe soll dem 1,3-fachen der Font-Größe entsprechen, maximal zwei Zeilen pro Beat. Position: zentriertes Drittel des Frames, primärer Hook-Text zwischen Y-Achse 200 und 600 Pixel, Mindestabstand 280 Pixel zum unteren Rand.^[2]

Quantitativer Reichweiten-Effekt: hochperformante Accounts mit Text innerhalb der Safe-Zone erreichen rund 22 Prozent höhere Completion-Rates als Accounts mit Text in der UI-Overlap-Zone.^[2] Diese Zahl ist nicht trivial — sie übersteigt fast alle anderen einzelnen Optimierungs-Hebel in der Pipeline.

Reels-spezifische Caption-Logik: weil Reels frontgewichtetes Pacing belohnt (siehe T2-A03-02), ist die Caption-Dichte in den ersten drei Sekunden besonders hoch. Empfehlung: in der Eröffnungsphase eine Caption alle 0,8 Sekunden, danach Caption-Synchronisation zum Audio-Cue im mittleren Pacing (alle 2 bis 3 Sekunden).

Praxis-Hinweis: die Instagram-eigene Caption-Funktion ist 2026 deutlich präziser als TikToks, aber sie liefert Captions immer am unteren Rand — also genau dort, wo sie von UI-Elementen verdeckt werden. Empfehlung: Captions nicht über das Instagram-Tool, sondern in der Schnitt-Software (CapCut, Premiere, DaVinci Resolve) hartgebrannt und im Safe-Zone-Bereich positionieren.

Caption-Mechanik auf YouTube Shorts

Shorts hat die strengste Safe-Zone-Geometrie. Die oberen 20 Prozent zeigen Titel und Kanalname; die unteren 25 Prozent halten Like-Comment-Share-Buttons.^[5] Captions müssen in das zentrale Drittel — Empfehlung: “fast genau in der Mitte” statt unten.^[5]

Schriftgröße: mindestens 24 bis 32 Punkt, um auf Mobiltelefonen lesbar zu sein. Keine Zeile über 42 Zeichen. Wort-Cluster pro Frame: ein bis vier Wörter.^[5] Diese Dichte ist niedriger als auf TikTok oder Reels, weil Shorts-Zuschauer länger pro Frame verharren (das Plattform-eigene Loop-Verhalten begünstigt langsamere Caption-Übergänge).

Shorts-spezifische Caption-Mechanik: animierte Captions sind hier nicht nur dekorativ, sondern algorithmisch belohnt. Dynamische Caption-Animationen (Word-by-Word-Reveal, sanfte Skalierung, Hervorhebung des betonten Wortes) erhöhen messbar die Engagement-Rate auf Shorts.^[5] Das ist eine bemerkenswerte Plattform-Differenz: auf TikTok funktionieren statische Caption-Blöcke gut, auf Shorts werden animierte bevorzugt.

Test-Routine: vor dem Upload jeden Shorts-Cut auf mindestens zwei verschiedenen Geräten ansehen — großes Smartphone und kleines Smartphone oder Tablet. Den Cut tonlos abspielen. Wenn die inhaltliche Bedeutung ohne Audio unklar wird, muss die Caption-Schicht überarbeitet werden.

Plattform-übergreifende Caption-Disziplinen

Drei Regeln gelten 2026 für alle drei Plattformen.

Erstens: dyslexie-freundliche Schriften mit offenen Punzen. Helvetica, Arial, Montserrat in Bold oder Semi-Bold. Keine dekorativen Schriften, keine Skripts, keine Serifen. Diese Empfehlung gilt 2026 für alle drei Plattformen einheitlich.^[4]

Zweitens: kein Auto-Caption ohne Korrektur-Pass. Die plattform-eigenen Caption-Tools haben für deutsche politische Sprache 2026 strukturelle Fehler-Raten zwischen 7 und 15 Prozent. Für Plenarrede-Cuts, deren ganzer Wert in der präzisen Wiedergabe einer politischen Aussage liegt, ist das nicht akzeptabel. Die Caption-Pipeline läuft über Whisper-large oder einen vergleichbaren ASR-Stack mit manueller Korrektur.

Drittens: harte Captions, nicht weiche. “Soft Subs” (von der Plattform zuschaltbare Untertitel) werden 2026 von den meisten Zuschauern nicht aktiviert. “Burned-in” Captions (in das Video gerendert) sind sichtbar für alle, immer. Für politische Plenarrede-Cuts ist Burned-in-Caption der Default. Soft-Subs werden zusätzlich gesetzt für Accessibility-Konformität (siehe BITV und EU-Barrierefreiheitsgesetz), ersetzen aber nicht den hartgebrannten Untertitel.

Operative Konsequenzen für die Pipeline

Drei produktionspolitische Empfehlungen.

— Priorität A: Caption-Stage als eigene Pipeline-Stufe. In der Sieben-Stufen-Pipeline (siehe T1-C09) wird Stufe sechs (“Schnitt”) aufgespalten in Stufe 6a (Video-Schnitt) und Stufe 6b (Caption-Layer). Aufwand: rund 30 bis 45 Minuten pro Cut zusätzlich, abhängig von Rede-Länge. Effekt: erschließt die 85 Prozent stumme Sicht systematisch.

— Priorität B: ASR-Korrektur-Workflow. Whisper-large oder gleichwertiges Modell läuft als Standard-Transkription, ein Editor liest gegen das Plenarrede-Wortprotokoll des Bundestags (bundestag.de, Plenarprotokolle) gegen. Aufwand: 15 Minuten pro Cut. Effekt: schließt die Fehler-Quoten-Lücke der plattform-eigenen Auto-Caption.

— Priorität C: Safe-Zone-Vorlage pro Plattform. In der Schnitt-Software werden drei Caption-Vorlagen angelegt — TikTok-Profil (Caption-Block Y 800-1100), Reels-Profil (Y 200-600 für Hook, Y 1100-1400 für Body), Shorts-Profil (zentriert, animiert). Aufwand einmalig: zwei Stunden Setup. Effekt: schließt die häufigste Fehlerquelle (Editor positioniert Captions per Augenmaß und landet in UI-Overlap).

Compliance-Hinweis Barrierefreiheit

Seit dem Inkrafttreten des Barrierefreiheitsstärkungsgesetzes (BFSG) am 28. Juni 2025 sind digitale Angebote politischer Akteure zunehmend auf BITV-Konformität auszurichten.^[6] Plenarrede-Cuts auf Social Media fallen nicht unmittelbar unter die BITV-Pflicht (die Plattformen selbst sind die regulierten Anbieter), aber:

— Mandatsträger-Websites mit eingebetteten Video-Cuts unterliegen der BITV-Anforderung Untertitel und Audiodeskription. — Eine vollständige Caption-Schicht in Social-Media-Cuts erleichtert die Nutzung derselben Cuts auf der mandatseigenen Website, ohne Nachproduktion.

Operative Konsequenz: die Caption-Layer wird so produziert, dass derselbe Cut sowohl auf TikTok/Reels/Shorts läuft, als auch in einem BITV-konformen Player auf der mandatseigenen Website. Doppelproduktion entfällt.

Wo das hingehört

Tiefe-1-Plenarrede-Architektur: T1-A03 — Plenarrede zu 30 Millionen. Vorhergehende Vertiefungen: T2-A03-01 — Plenarrede-Hooks, T2-A03-02 — Plenarrede-Schnitt-Geschwindigkeit. Edit-Mechanik-Grundlagen: T1-B03 — Edit-Mechanik.

Codex Fraktionsangebote Sektion 4 enthält die volle Pipeline-Architektur. BFSG/BITV-Kontext in der Compliance-Sammlung.

Was du als nächstes tust

Diese Woche: Caption-Audit der letzten zehn Plenarrede-Cuts deines Mandatsträgers. Pro Cut auf jeder der drei Plattformen prüfen: liegt der Text im Safe-Zone-Bereich? Schriftgröße ausreichend? Wortdichte plattform-konform? Wenn mehr als drei der zehn Cuts Text in der UI-Overlap-Zone haben, ist das die größte einzelne Reichweiten-Reserve in der Caption-Schicht.

Im zweiten Schritt — bei der nächsten Plenarsitzungs-Woche — wird die Caption-Stage in die Pipeline integriert. Erwartung: messbare Completion-Rate-Verbesserung um 10 bis 20 Prozent auf Reels innerhalb von 14 Tagen, kleinere Effekte auf TikTok und Shorts (dort sind die Plattform-Defaults schon näher am Optimum).

Quellen

Edición Video Pro, Instagram Reels Editing That Increases Retention 60% — 2026, Permalink, Abruf 18.05.2026.
TryMyPost, Instagram Reels Safe Zones & Text Placement Guide 2026, Permalink, Abruf 18.05.2026.
Kreatli, TikTok Safe Zone (2026) — Dimensions, Text Safe Area, Overlay & Template, Permalink, Abruf 18.05.2026.
OpusClip, TikTok Caption & Subtitle Best Practices in 2026, Permalink, Abruf 18.05.2026.
OpusClip, YouTube Shorts Caption & Subtitle Best Practices in 2026, Permalink, Abruf 18.05.2026.
Bundesfachstelle Barrierefreiheit, Barrierefreiheitsstärkungsgesetz BFSG — Geltung ab 28.06.2025, Permalink, Abruf 18.05.2026.