Pipeline-Stufe 1 — Quellenerfassung im Detail (Bundestags-API, Plenarstreams, RSS)
Die erste Pipeline-Stufe entscheidet, welches Material in die Schnitt-Phase eingeht. 2026 stehen drei Hauptquellen für deutsche Mandatsträger-Pipelines zur Verfügung: die Bundestags-Open-Data-API, die Plenarstream-Archive, klassische RSS-Feeds. Jede Quelle hat eine andere Datentyp-Klassifikation, Verzögerung und juristische Rechtslage.
Die erste Pipeline-Stufe entscheidet, welches Material in die Schnitt-Phase eingeht. 2026 stehen für deutsche Mandatsträger-Pipelines drei Hauptquellen zur Verfügung: die Bundestags-Open-Data-API (strukturierte Daten zu Drucksachen, Reden, Abstimmungen), die Plenarstream-Archive (Video- und Audio-Material), klassische RSS-Feeds (Medien-Berichte, eigene Pressemitteilungen). Jede Quelle hat eine andere Datentyp-Klassifikation, Verzögerung und juristische Rechtslage.
Was hier untersucht wird
Dieser Tiefe-2-Artikel zerlegt Pipeline-Stufe 1 im Detail. Die Tiefe-1-Architektur in T1-C09 — Sieben-Stufen-Pipeline hat die volle Pipeline beschrieben. Hier wird die Quellenerfassung als eigenständige technische Disziplin behandelt.
Die drei Hauptquellen
Quelle eins: Bundestags-Open-Data-API. Die Bundestags-Verwaltung stellt 2026 strukturierte Daten zu Drucksachen, Plenarreden (mit Zeitstempeln), Abstimmungen, Anträgen und Fraktions-Mitgliederlisten über offene APIs zur Verfügung. Format: JSON, XML. Vorteil: strukturiert, sofort maschinen-verwertbar. Nachteil: keine Video-Daten direkt; verlinkt auf Stream-Archive.
Quelle zwei: Plenarstream-Archive. Die Bundestags-Mediathek stellt Live-Streams und Archiv-Streams zur Verfügung. Pro Plenarsitzung gibt es typisch 8 bis 12 Stunden Stream-Material in HD. Vorteil: Volltext-Audio plus Video. Nachteil: keine automatischen Zeit-Marker auf Sprecher-Wechsel; manuelle oder LLM-basierte Zuordnung nötig.
Quelle drei: RSS-Feeds. Medien-Pressemitteilungen, eigene Bundestags-Pressemeldungen, Fraktions-Pressestellen-RSS. Vorteil: schnelle aktuelle Themen-Beobachtung. Nachteil: heterogene Datentypen, oft unvollständige Strukturierung.
Die Datenfluss-Architektur
Eine effiziente Stufe-1-Architektur 2026 nutzt:
— n8n oder vergleichbares Workflow-Tool für Daten-Orchestrierung. Workflows holen Bundestags-API-Daten alle 30 Minuten, Plenarstream-Daten nach Sitzungsende, RSS-Feeds alle 5 bis 10 Minuten. — Object-Storage für Roh-Video-Material (S3-kompatibler Speicher, in EU-Region für DSGVO-Konformität). — PostgreSQL oder vergleichbare Datenbank für strukturierte Metadaten.
Aufwand für initiale Einrichtung: rund 16 bis 32 Stunden technische Arbeit, idealerweise von einem Pipeline-Engineer oder einer technisch geübten Personalpauschale-Kraft.
Bundestags-API im Detail
Die wichtigsten Endpoints 2026:
— /drucksachen — Listen aller Drucksachen mit Metadaten.
— /aktivitaeten — alle parlamentarischen Aktivitäten eines Abgeordneten.
— /plenarprotokolle — Wortprotokolle der Plenarsitzungen.
— /abstimmungen — namentliche Abstimmungen mit Stimm-Verhalten.
— /personen — Stammdaten der Abgeordneten.
Authentifizierung: typisch über API-Token (manchmal frei zugänglich). Rate-Limits sollten beachtet werden.
Plenarstream-Verarbeitung
Plenar-Streams sind nicht mit automatischen Zeit-Markern versehen. Eine effiziente Verarbeitung 2026 nutzt:
— Whisper-large für Audio-Transkription. Genauigkeit für deutsche Plenar-Sprache typisch über 90 Prozent. — Speaker-Diarization für automatische Sprecher-Wechsel-Identifikation. Vorteil: jede Plenarrede wird einem Sprecher zugeordnet. — LLM-Post-Processing (Claude oder GPT) für inhaltliche Strukturierung und erste Themen-Klassifikation.
Aufwand pro Plenarsitzung (8 Stunden Video): rund 2 bis 4 Stunden GPU-Zeit für vollständige Transkription, plus 30 bis 60 Minuten LLM-Post-Processing.
Compliance-Hinweise
Drei Compliance-Punkte für die Quellenerfassung.
— Nutzungsbedingungen der Bundestags-Mediathek. Plenarsaal-Material darf 2026 zu Zwecken der politischen Berichterstattung verwendet werden (siehe T2-A03-06). Mandatsträger-Berichterstattung über eigene Plenarreden fällt in diesen Rahmen.
— DSGVO bei externer Quellen-Verarbeitung. Wenn Plenarstream-Verarbeitung über Drittanbieter läuft (z.B. Whisper API von OpenAI), kann ein Auftragsverarbeitungs-Vertrag und ggf. DSGVO-Folge-Abschätzung erforderlich sein. Empfehlung: selbst-gehostete Whisper-Variante oder EU-basierte Anbieter.
— Urheberrecht bei RSS-Quellen. RSS-Inhalte sind formal urheberrechtlich geschützt. Verarbeitung zu eigenen Cuts läuft auf §51-UrhG-Zitat-Rahmen — Kommentar-Charakter erforderlich, Substanz-Bezug zur Quelle.
Operative Konsequenzen
Drei priorisierte Empfehlungen.
— Priorität A: n8n-Workflow für Bundestags-API-Daten. Workflow für Drucksachen-Beobachtung und Plenarprotokoll-Erfassung. Aufwand: rund 8 bis 16 Stunden initiale Einrichtung. Effekt: strukturierte Themen-Beobachtung statt manueller Sichtung.
— Priorität B: Plenarstream-Verarbeitungs-Pipeline. Whisper plus Speaker-Diarization plus LLM-Post-Processing. Aufwand: 16 bis 24 Stunden initiale Einrichtung. Effekt: jede Plenarrede automatisch transkribiert und themen-klassifiziert.
— Priorität C: RSS-Feed-Tracker. Liste von 10 bis 20 RSS-Quellen mit kontinuierlicher Beobachtung. Aufwand: rund vier Stunden initiale Konfiguration. Effekt: schnelle Themen-Aufgreifung über Mainstream-Medien-Beobachtung.
Empfehlungen mit Priorität
— Priorität A: Bundestags-API-Workflow. — Priorität B: Plenarstream-Verarbeitungs-Pipeline. — Priorität C: RSS-Feed-Tracker.
Wo das hingehört
Tiefe-1 Sieben-Stufen-Pipeline: T1-C09. Folge-Stufen: T2-C09-02 — LLM-Scoring, T2-C09-03 — FFmpeg. Plenarrede-Pipeline: T1-A03.
Codex AI-Automation Sektion 4.
Was du als nächstes tust
Diese Woche: Bundestags-API-Endpoints für den eigenen Mandatsträger testen. n8n-Workflow für /aktivitaeten aufbauen.