Die Masterarbeit

Diese Webseite sowie die für diese benötigten Daten sind im Rahmen einer Masterarbeit entstanden. In der Arbeit sind die Funktionsweise der Software für die automatische Auszeichnung der Bundestagsplenarprotokolle sowie die der Webanwendung beschrieben. Die Arbeit kann hier gelesen werden.

Weiter unten sind einige grundlegende Aspekte des Projekts kurz beschrieben. Ebenfalls kann dort der Quellcode der Webanwendung und der Software für die automatische Auszeichnung heruntergeladen werden.

Datengrundlage

Die Ausgangsdaten, welche für das Projekt genutzt wurden, sind für alle Bürger und Bürgerinnen auf der Webseite des Bundestag frei zugänglich.

Im Rahmen einer Open Data-Initiative stellt der deutsche Bundestag alle Plenarprotokolle sowie die biografischen Daten aller Abgeordneten seit 1949 als XML-Dateien zur Verfügung.

Das Projekt Bundesdata umfasst alle XML-Protokolle der Wahlperioden 1. bis 18. und deckt somit den Zeitraum von 1949 bis 2017 ab.

Automatische Auszeichnung

Da die von derBundesregierung bereitstellen XML-Protokolle nur wenig bis keine maschinenlesbare Informationen dazu enthalten, welcher Abgeordnete oder welche Abgeordnete zu welchem Zeitpunkt einen Redebeitrag im Bundestag hatte, sind die Ausgangsdaten im Rahmen des Projekts automatisch mit weiteren Informationen angereichert und strukturiert worden. Hierfür wurde eine eigene Software entwickelt, die die öffentlich verfügbaren XML-Protokolle automatisch mit zusätzliche Metadaten auszeichnet. Diese Auszeichnung ermöglicht es die Protokolle auf der Website strukturiert darzustellen und durchsuchbar zu machen. Ebenfalls können so auch erst die N-Gramme für den Ngram Viewer berechnet werden.

Quellcode für Software und Webanwendung

Der Quellcode für die eigens entwickelte Software, welche die automatische Auszeichnung erstellt hat, kann auf Gitea eingesehen und heruntergeladen werden. Der Quellcode für die Webseite ist ebenfalls auf Gitea verfügbar.

Download der ausgezeichneten Daten

Die für das Projekt mittels der eigenen Software erstellten XML-Protokolle sowie weitere Forschungsdaten können hier heruntergeladen werden.

Fehlerquoten und Probleme der Ausgangsdaten

Die automatische Auszeichnung der Protokolle ist nicht gänzlich fehlerfrei. Somit können Fehler bei der Darstellung der Reden auf der Website auftreten. Wie hoch genau die einzelen Fehlerqouten sind, ist in der Masterarbeit beschrieben