Pipeline-Stufe 2 — LLM-Scoring-Prompts für Clipping-Kandidaten
Aus dem Roh-Material einer 8-stündigen Plenarsitzung müssen 3 bis 10 Clipping-Kandidaten identifiziert werden. Die manuelle Sichtung dauert Stunden; ein gut konstruierter LLM-Scoring-Workflow reduziert das auf 30 bis 60 Minuten. Der Prompt-Aufbau, die Scoring-Kriterien und die Cut-Off-Schwellen entscheiden über die Pipeline-Qualität.
Aus dem Roh-Material einer 8-stündigen Plenarsitzung müssen 3 bis 10 Clipping-Kandidaten identifiziert werden. Die manuelle Sichtung dauert mehrere Stunden; ein gut konstruierter LLM-Scoring-Workflow reduziert das 2026 auf 30 bis 60 Minuten. Der Prompt-Aufbau, die Scoring-Kriterien und die Cut-Off-Schwellen entscheiden über die Pipeline-Qualität — und über die Frage, ob die identifizierten Kandidaten tatsächlich die wirksamsten sind.
Was hier untersucht wird
Dieser Tiefe-2-Artikel zerlegt die LLM-basierte Clipping-Kandidaten-Identifikation. Die Vor-Vertiefung T2-C09-01 hat die Roh-Material-Erfassung beschrieben. Hier wird die Frage gestellt: wie wird aus einem 8-Stunden-Transkript eine prioritäre Kandidaten-Liste?
Die Scoring-Kriterien
Ein guter Clipping-Kandidat hat 2026 typisch sechs Kriterien.
— Kriterium eins: prägnante Kernaussage. Eine klare, in einem Satz transportierbare Aussage. Vermeidet Pipeline-Verarbeitung mehrteiliger, komplexer Argumentations-Ketten.
— Kriterium zwei: emotionaler Anker. Konflikt, Kritik, Empörung, Begeisterung — irgendein emotionaler Ton-Anker. Reine Sach-Aussagen ohne emotionalen Ton performen algorithmisch schwächer.
— Kriterium drei: Hook-Potenzial in den ersten 3 Sekunden. Der Cut-Start muss algorithmisch funktionieren (siehe T2-A03-01). Eine “Sehr geehrte Frau Präsidentin”-Eröffnung ist kein Hook-Material.
— Kriterium vier: thematische Relevanz für die Audience. Tags die Audience des Accounts kennen will. Klima-Cut für einen Klima-Schwerpunkt-MdB, nicht für einen Wirtschafts-Schwerpunkt-MdB.
— Kriterium fünf: Cut-Länge-Eignung. Der relevante Inhalts-Abschnitt sollte in 15 bis 45 Sekunden komprimierbar sein.
— Kriterium sechs: Compliance-Sauberkeit. Keine offensichtlichen strafrechtlichen Schwellen, keine Persönlichkeitsrechts-Probleme.
Der Scoring-Prompt-Aufbau
Eine bewährte Prompt-Struktur 2026:
Du bist ein politischer Content-Analyst für [Name des MdB],
[Partei], Themen-Schwerpunkt [X, Y, Z].
Analysiere das folgende Plenarprotokoll-Transkript.
Identifiziere 5 bis 10 Clipping-Kandidaten für TikTok/Reels/Shorts.
Pro Kandidat:
1. Zeit-Stempel (Anfang bis Ende, in Sekunden)
2. Kernaussage in einem Satz
3. Scoring nach 6 Kriterien:
- Prägnanz (1-5)
- Emotion (1-5)
- Hook-Potenzial (1-5)
- Audience-Relevanz (1-5)
- Cut-Länge (1-5, bevorzugt 15-45 Sekunden)
- Compliance (binär: OK / Vorsicht / Stopp)
4. Empfohlene Cut-Variante:
konfrontativ / sachlich / emotional / mixed
5. Begründung in maximal drei Sätzen
Antworte als strukturiertes JSON.
Dieser Prompt wird mit Claude 4 oder GPT-4-Class-Modellen verwendet. Token-Aufwand: rund 100.000 Input-Tokens pro Plenarsitzung, 5.000 bis 15.000 Output-Tokens.
Die Scoring-Logik im Detail
Nach Erhalt der LLM-Ergebnisse wird ein finaler Score berechnet:
finaler_score = (prägnanz × 0.20 + emotion × 0.15
+ hook × 0.25 + audience × 0.20
+ cut_länge × 0.15 + compliance_factor)
Compliance-Faktor: OK = 1.0, Vorsicht = 0.7, Stopp = 0.0.
Kandidaten werden nach finalem Score sortiert. Die Top-3 bis Top-7 gehen in Stufe 3 (FFmpeg-Schnitt). Die Cut-Off-Schwelle 2026 liegt typisch bei finalem Score über 3.5 von 5.0.
Die typischen Fehlpriorisierungen
Drei Fehler-Muster bei LLM-Scoring 2026.
— Fehler eins: zu viel Gewicht auf “wichtig”. LLMs neigen dazu, sachlich-substanzielle Aussagen hoch zu bewerten. Aber substanzielle Aussagen ohne Emotion performen algorithmisch schwächer. Lösung: Hook-Potenzial und Emotion stärker gewichten als reine “Wichtigkeit”.
— Fehler zwei: Compliance zu locker. Default-LLMs unterschätzen strafrechtliche Schwellen. Lösung: Compliance-Prüfung in der Prompt-Definition explizit machen, Beispiele für problematische Formulierungen geben.
— Fehler drei: Audience-Mismatch. Wenn der Prompt nicht die spezifische Audience des MdB kennt, schlägt das Scoring auf “generische Politik-Interessierte” zu. Lösung: Audience-Profil im System-Prompt detailliert beschreiben.
Operative Konsequenzen
Drei priorisierte Empfehlungen.
— Priorität A: System-Prompt mit Audience-Profil und Brand-Voice. Der Prompt enthält MdB-spezifische Audience-Beschreibung plus Brand-Voice (siehe T2-B04-01). Aufwand: einmaliger Aufbau, 4 Stunden. Effekt: Audience-tauglichere Kandidaten.
— Priorität B: Compliance-Kriterien explizit im Prompt. Beispiele für problematische Aussagen werden im Prompt einbettet. Aufwand: 2 Stunden. Effekt: weniger Compliance-Risiko-Kandidaten in der Top-Liste.
— Priorität C: Iterative Prompt-Optimierung. Alle 4 bis 8 Wochen wird der Prompt auf Basis der bisherigen Performance angepasst. Aufwand: 90 Minuten pro Iteration. Effekt: Scoring-Qualität verbessert sich kontinuierlich.
Empfehlungen mit Priorität
— Priorität A: Audience-Profil und Brand-Voice im System-Prompt. — Priorität B: Compliance-Kriterien explizit. — Priorität C: Iterative Prompt-Optimierung.
Wo das hingehört
Tiefe-1 Sieben-Stufen-Pipeline: T1-C09. Stufe 1: T2-C09-01. Folge: T2-C09-03 — FFmpeg, T2-C09-04 — Caption-Generierung. Brand-Voice: T2-B04-01.
Codex AI-Automation Sektion 4.
Was du als nächstes tust
Diese Woche: ersten Test-Prompt für den eigenen MdB schreiben. Über eine Plenarrede laufen lassen. Kandidaten manuell gegenchecken — wie viele wären auch in der manuellen Sichtung Top-Kandidaten gewesen?