EN Login

Pipeline-Stufe 1 — Quellenerfassung im Detail (Bundestags-API, Plenarstreams, RSS)

Die erste Pipeline-Stufe entscheidet, welches Material in die Schnitt-Phase eingeht. 2026 stehen drei Hauptquellen für deutsche Mandatsträger-Pipelines zur Verfügung: die Bundestags-Open-Data-API, die Plenarstream-Archive, klassische RSS-Feeds. Jede Quelle hat eine andere Datentyp-Klassifikation, Verzögerung und juristische Rechtslage.

Die erste Pipeline-Stufe entscheidet, welches Material in die Schnitt-Phase eingeht. 2026 stehen für deutsche Mandatsträger-Pipelines drei Hauptquellen zur Verfügung: die Bundestags-Open-Data-API (strukturierte Daten zu Drucksachen, Reden, Abstimmungen), die Plenarstream-Archive (Video- und Audio-Material), klassische RSS-Feeds (Medien-Berichte, eigene Pressemitteilungen). Jede Quelle hat eine andere Datentyp-Klassifikation, Verzögerung und juristische Rechtslage.

Was hier untersucht wird

Dieser Tiefe-2-Artikel zerlegt Pipeline-Stufe 1 im Detail. Die Tiefe-1-Architektur in T1-C09 — Sieben-Stufen-Pipeline hat die volle Pipeline beschrieben. Hier wird die Quellenerfassung als eigenständige technische Disziplin behandelt.

Die drei Hauptquellen

Quelle eins: Bundestags-Open-Data-API. Die Bundestags-Verwaltung stellt 2026 strukturierte Daten zu Drucksachen, Plenarreden (mit Zeitstempeln), Abstimmungen, Anträgen und Fraktions-Mitgliederlisten über offene APIs zur Verfügung. Format: JSON, XML. Vorteil: strukturiert, sofort maschinen-verwertbar. Nachteil: keine Video-Daten direkt; verlinkt auf Stream-Archive.

Quelle zwei: Plenarstream-Archive. Die Bundestags-Mediathek stellt Live-Streams und Archiv-Streams zur Verfügung. Pro Plenarsitzung gibt es typisch 8 bis 12 Stunden Stream-Material in HD. Vorteil: Volltext-Audio plus Video. Nachteil: keine automatischen Zeit-Marker auf Sprecher-Wechsel; manuelle oder LLM-basierte Zuordnung nötig.

Quelle drei: RSS-Feeds. Medien-Pressemitteilungen, eigene Bundestags-Pressemeldungen, Fraktions-Pressestellen-RSS. Vorteil: schnelle aktuelle Themen-Beobachtung. Nachteil: heterogene Datentypen, oft unvollständige Strukturierung.

Die Datenfluss-Architektur

Eine effiziente Stufe-1-Architektur 2026 nutzt:

n8n oder vergleichbares Workflow-Tool für Daten-Orchestrierung. Workflows holen Bundestags-API-Daten alle 30 Minuten, Plenarstream-Daten nach Sitzungsende, RSS-Feeds alle 5 bis 10 Minuten. — Object-Storage für Roh-Video-Material (S3-kompatibler Speicher, in EU-Region für DSGVO-Konformität). — PostgreSQL oder vergleichbare Datenbank für strukturierte Metadaten.

Aufwand für initiale Einrichtung: rund 16 bis 32 Stunden technische Arbeit, idealerweise von einem Pipeline-Engineer oder einer technisch geübten Personalpauschale-Kraft.

Bundestags-API im Detail

Die wichtigsten Endpoints 2026:

/drucksachen — Listen aller Drucksachen mit Metadaten. — /aktivitaeten — alle parlamentarischen Aktivitäten eines Abgeordneten. — /plenarprotokolle — Wortprotokolle der Plenarsitzungen. — /abstimmungen — namentliche Abstimmungen mit Stimm-Verhalten. — /personen — Stammdaten der Abgeordneten.

Authentifizierung: typisch über API-Token (manchmal frei zugänglich). Rate-Limits sollten beachtet werden.

Plenarstream-Verarbeitung

Plenar-Streams sind nicht mit automatischen Zeit-Markern versehen. Eine effiziente Verarbeitung 2026 nutzt:

Whisper-large für Audio-Transkription. Genauigkeit für deutsche Plenar-Sprache typisch über 90 Prozent. — Speaker-Diarization für automatische Sprecher-Wechsel-Identifikation. Vorteil: jede Plenarrede wird einem Sprecher zugeordnet. — LLM-Post-Processing (Claude oder GPT) für inhaltliche Strukturierung und erste Themen-Klassifikation.

Aufwand pro Plenarsitzung (8 Stunden Video): rund 2 bis 4 Stunden GPU-Zeit für vollständige Transkription, plus 30 bis 60 Minuten LLM-Post-Processing.

Compliance-Hinweise

Drei Compliance-Punkte für die Quellenerfassung.

Nutzungsbedingungen der Bundestags-Mediathek. Plenarsaal-Material darf 2026 zu Zwecken der politischen Berichterstattung verwendet werden (siehe T2-A03-06). Mandatsträger-Berichterstattung über eigene Plenarreden fällt in diesen Rahmen.

DSGVO bei externer Quellen-Verarbeitung. Wenn Plenarstream-Verarbeitung über Drittanbieter läuft (z.B. Whisper API von OpenAI), kann ein Auftragsverarbeitungs-Vertrag und ggf. DSGVO-Folge-Abschätzung erforderlich sein. Empfehlung: selbst-gehostete Whisper-Variante oder EU-basierte Anbieter.

Urheberrecht bei RSS-Quellen. RSS-Inhalte sind formal urheberrechtlich geschützt. Verarbeitung zu eigenen Cuts läuft auf §51-UrhG-Zitat-Rahmen — Kommentar-Charakter erforderlich, Substanz-Bezug zur Quelle.

Operative Konsequenzen

Drei priorisierte Empfehlungen.

Priorität A: n8n-Workflow für Bundestags-API-Daten. Workflow für Drucksachen-Beobachtung und Plenarprotokoll-Erfassung. Aufwand: rund 8 bis 16 Stunden initiale Einrichtung. Effekt: strukturierte Themen-Beobachtung statt manueller Sichtung.

Priorität B: Plenarstream-Verarbeitungs-Pipeline. Whisper plus Speaker-Diarization plus LLM-Post-Processing. Aufwand: 16 bis 24 Stunden initiale Einrichtung. Effekt: jede Plenarrede automatisch transkribiert und themen-klassifiziert.

Priorität C: RSS-Feed-Tracker. Liste von 10 bis 20 RSS-Quellen mit kontinuierlicher Beobachtung. Aufwand: rund vier Stunden initiale Konfiguration. Effekt: schnelle Themen-Aufgreifung über Mainstream-Medien-Beobachtung.

Empfehlungen mit Priorität

Priorität A: Bundestags-API-Workflow. — Priorität B: Plenarstream-Verarbeitungs-Pipeline. — Priorität C: RSS-Feed-Tracker.

Wo das hingehört

Tiefe-1 Sieben-Stufen-Pipeline: T1-C09. Folge-Stufen: T2-C09-02 — LLM-Scoring, T2-C09-03 — FFmpeg. Plenarrede-Pipeline: T1-A03.

Codex AI-Automation Sektion 4.

Was du als nächstes tust

Diese Woche: Bundestags-API-Endpoints für den eigenen Mandatsträger testen. n8n-Workflow für /aktivitaeten aufbauen.

Quellen

  1. Deutscher Bundestag, Open-Data-Portal, Permalink, Abruf 18.05.2026.

  2. Deutscher Bundestag, Mediathek-API für Plenar-Streams, Permalink, Abruf 18.05.2026.

  3. OpenAI, Whisper Speech-to-Text Documentation, Permalink, Abruf 18.05.2026.

  4. n8n, Workflow-Automation-Plattform, Permalink, Abruf 18.05.2026.