EN Login

Pipeline-Stufe 2 — LLM-Scoring-Prompts für Clipping-Kandidaten

Aus dem Roh-Material einer 8-stündigen Plenarsitzung müssen 3 bis 10 Clipping-Kandidaten identifiziert werden. Die manuelle Sichtung dauert Stunden; ein gut konstruierter LLM-Scoring-Workflow reduziert das auf 30 bis 60 Minuten. Der Prompt-Aufbau, die Scoring-Kriterien und die Cut-Off-Schwellen entscheiden über die Pipeline-Qualität.

Aus dem Roh-Material einer 8-stündigen Plenarsitzung müssen 3 bis 10 Clipping-Kandidaten identifiziert werden. Die manuelle Sichtung dauert mehrere Stunden; ein gut konstruierter LLM-Scoring-Workflow reduziert das 2026 auf 30 bis 60 Minuten. Der Prompt-Aufbau, die Scoring-Kriterien und die Cut-Off-Schwellen entscheiden über die Pipeline-Qualität — und über die Frage, ob die identifizierten Kandidaten tatsächlich die wirksamsten sind.

Was hier untersucht wird

Dieser Tiefe-2-Artikel zerlegt die LLM-basierte Clipping-Kandidaten-Identifikation. Die Vor-Vertiefung T2-C09-01 hat die Roh-Material-Erfassung beschrieben. Hier wird die Frage gestellt: wie wird aus einem 8-Stunden-Transkript eine prioritäre Kandidaten-Liste?

Die Scoring-Kriterien

Ein guter Clipping-Kandidat hat 2026 typisch sechs Kriterien.

Kriterium eins: prägnante Kernaussage. Eine klare, in einem Satz transportierbare Aussage. Vermeidet Pipeline-Verarbeitung mehrteiliger, komplexer Argumentations-Ketten.

Kriterium zwei: emotionaler Anker. Konflikt, Kritik, Empörung, Begeisterung — irgendein emotionaler Ton-Anker. Reine Sach-Aussagen ohne emotionalen Ton performen algorithmisch schwächer.

Kriterium drei: Hook-Potenzial in den ersten 3 Sekunden. Der Cut-Start muss algorithmisch funktionieren (siehe T2-A03-01). Eine “Sehr geehrte Frau Präsidentin”-Eröffnung ist kein Hook-Material.

Kriterium vier: thematische Relevanz für die Audience. Tags die Audience des Accounts kennen will. Klima-Cut für einen Klima-Schwerpunkt-MdB, nicht für einen Wirtschafts-Schwerpunkt-MdB.

Kriterium fünf: Cut-Länge-Eignung. Der relevante Inhalts-Abschnitt sollte in 15 bis 45 Sekunden komprimierbar sein.

Kriterium sechs: Compliance-Sauberkeit. Keine offensichtlichen strafrechtlichen Schwellen, keine Persönlichkeitsrechts-Probleme.

Der Scoring-Prompt-Aufbau

Eine bewährte Prompt-Struktur 2026:

Du bist ein politischer Content-Analyst für [Name des MdB], 
[Partei], Themen-Schwerpunkt [X, Y, Z].

Analysiere das folgende Plenarprotokoll-Transkript.
Identifiziere 5 bis 10 Clipping-Kandidaten für TikTok/Reels/Shorts.

Pro Kandidat:
1. Zeit-Stempel (Anfang bis Ende, in Sekunden)
2. Kernaussage in einem Satz
3. Scoring nach 6 Kriterien:
   - Prägnanz (1-5)
   - Emotion (1-5)
   - Hook-Potenzial (1-5)
   - Audience-Relevanz (1-5)
   - Cut-Länge (1-5, bevorzugt 15-45 Sekunden)
   - Compliance (binär: OK / Vorsicht / Stopp)
4. Empfohlene Cut-Variante: 
   konfrontativ / sachlich / emotional / mixed
5. Begründung in maximal drei Sätzen

Antworte als strukturiertes JSON.

Dieser Prompt wird mit Claude 4 oder GPT-4-Class-Modellen verwendet. Token-Aufwand: rund 100.000 Input-Tokens pro Plenarsitzung, 5.000 bis 15.000 Output-Tokens.

Die Scoring-Logik im Detail

Nach Erhalt der LLM-Ergebnisse wird ein finaler Score berechnet:

finaler_score = (prägnanz × 0.20 + emotion × 0.15 
                + hook × 0.25 + audience × 0.20 
                + cut_länge × 0.15 + compliance_factor)

Compliance-Faktor: OK = 1.0, Vorsicht = 0.7, Stopp = 0.0.

Kandidaten werden nach finalem Score sortiert. Die Top-3 bis Top-7 gehen in Stufe 3 (FFmpeg-Schnitt). Die Cut-Off-Schwelle 2026 liegt typisch bei finalem Score über 3.5 von 5.0.

Die typischen Fehlpriorisierungen

Drei Fehler-Muster bei LLM-Scoring 2026.

Fehler eins: zu viel Gewicht auf “wichtig”. LLMs neigen dazu, sachlich-substanzielle Aussagen hoch zu bewerten. Aber substanzielle Aussagen ohne Emotion performen algorithmisch schwächer. Lösung: Hook-Potenzial und Emotion stärker gewichten als reine “Wichtigkeit”.

Fehler zwei: Compliance zu locker. Default-LLMs unterschätzen strafrechtliche Schwellen. Lösung: Compliance-Prüfung in der Prompt-Definition explizit machen, Beispiele für problematische Formulierungen geben.

Fehler drei: Audience-Mismatch. Wenn der Prompt nicht die spezifische Audience des MdB kennt, schlägt das Scoring auf “generische Politik-Interessierte” zu. Lösung: Audience-Profil im System-Prompt detailliert beschreiben.

Operative Konsequenzen

Drei priorisierte Empfehlungen.

Priorität A: System-Prompt mit Audience-Profil und Brand-Voice. Der Prompt enthält MdB-spezifische Audience-Beschreibung plus Brand-Voice (siehe T2-B04-01). Aufwand: einmaliger Aufbau, 4 Stunden. Effekt: Audience-tauglichere Kandidaten.

Priorität B: Compliance-Kriterien explizit im Prompt. Beispiele für problematische Aussagen werden im Prompt einbettet. Aufwand: 2 Stunden. Effekt: weniger Compliance-Risiko-Kandidaten in der Top-Liste.

Priorität C: Iterative Prompt-Optimierung. Alle 4 bis 8 Wochen wird der Prompt auf Basis der bisherigen Performance angepasst. Aufwand: 90 Minuten pro Iteration. Effekt: Scoring-Qualität verbessert sich kontinuierlich.

Empfehlungen mit Priorität

Priorität A: Audience-Profil und Brand-Voice im System-Prompt. — Priorität B: Compliance-Kriterien explizit. — Priorität C: Iterative Prompt-Optimierung.

Wo das hingehört

Tiefe-1 Sieben-Stufen-Pipeline: T1-C09. Stufe 1: T2-C09-01. Folge: T2-C09-03 — FFmpeg, T2-C09-04 — Caption-Generierung. Brand-Voice: T2-B04-01.

Codex AI-Automation Sektion 4.

Was du als nächstes tust

Diese Woche: ersten Test-Prompt für den eigenen MdB schreiben. Über eine Plenarrede laufen lassen. Kandidaten manuell gegenchecken — wie viele wären auch in der manuellen Sichtung Top-Kandidaten gewesen?

Quellen

  1. Anthropic, Claude API — Prompt Engineering Guide, Permalink, Abruf 18.05.2026.

  2. OpenAI, Best Practices for Prompt Engineering with GPT-4, Permalink, Abruf 18.05.2026.

  3. Codex AI-Automation (intern), Pipeline-Prompts für politische Content-Produktion, Abruf 18.05.2026.