Suchoptionen
search


Korpus:
Case-sensitive Suche:
Aus Ein
Erweiterter Suchsyntax: info_outline
Aus Ein
Fehlende Daten ignorieren: info_outline
Aus Ein
  • info_outlineWas ist das hier?

    Mit diesem Tool können alle Protokolle von 1949 bis 2017 nach verschiedenen Begriffen durchsucht werden. Für jeden Begriff wird pro Jahr dargestellt wie häufig dieser von den Rednern und MdBs im deutschen Bundestag in deren Reden und Redebeiträge insgesamt verwendet wurde.

    Begriffe bzw. Phrasen können ein bis fünf Wörter lang sein. Eine weitere Suchanfrage wäre z.B. "Steuer erhöhen, Steuer senken, schwarze Null"

  • searchMuster der Suchanfrage

    Eine Suchanfrage ist eine durch Kommata getrennte Zeichenkette. Durch die Kommata werden verschiedene Begriffe voneinander getrennt und einzeln abgefragt.

    Die beispielhafte Suchanfrage "Kroatien, Krieg, Asyl" fragt somit die Häufigkeit der drei verschiedenen Wörter ab. Es können beliebig viele Begriffe aneinander gereit werden.

    Eine weitere Suchanfrage wäre z.B. "Kroatien, Krieg, Asyl, Syrien, Europa"

    Es können nicht nur einzelne Wörter, sondern je nach Korpus Phrasen mit einer Länge von bis zu fünf Wörtern abgefragt werden. Eine beispielhafte Suchanfrage wäre z.B. "Steuer erhöhen, Steuer senken, schwarze Null". Es können gleichzeitig Phrasen verschiedener Länge abgefragt werden. Ein Beispiel hierfür ist "Steuer erhöhen, Steuer senken, schwarze Null, Steuerbetrug".

    Möglich wird diese Art der Abfrage dadurch, das für alle Protokolle sogenannte N-Gramme berechnet wurden.

  • short_textWas sind N-Gramme?

    Für die Berechnung von N-Grammen wird ein Text in einzelne Fragmente zerlegt, die dann in ihrer Häufigkeit gezählt werden können. N gibt hierbei die Länge der einzelen Fragmente an. Ist z.B. der Satz "to be or not to be that is the question." gegeben, kann für diesen die dazugehörigen 1-Gramme berechnet werden. Diese wären dann: "to, be, or, not, to, be, that, is, the, question". Nun kann die Häufigkeit der einzelnen Wörter gezählt werden. Somit kommen die Wörter "to" und "be" zweimal vor und die restlichen Wörter jeweils einmal.

    Diese Art der Berechnung kann dann auch für 2-Gramme durchgführt werden. Der Satz würde dafür in folgende Fragemente zerlegt werden: "To be, be or, or not, not to, to be, be that, that is, is the, the question". Nun kann die Häufigkeit von zwei aufeinander folgenden Wörtern ermittelt werden. Die Phrase "to be" kommt innerhalb des Satzes somit zweimal und alle anderen nur einmal vor.

    Dieser Prozess kann weitere Male wiederholt werden z.B. für 3-, 4- oder 5-Gramme.

    Diese Art der Berechnung wurde für alle Protokolle der Bundestagssitzungen seit 1949 bis 2017 durchgeführt, um die Häufigkeiten verschiedener Begriffe bzw. Phrasen pro Jahr darstellen zu können.

  • filter_2Verschiedene Korpora

    Mit der Option "Korpus" kann zwischen zwei verschiedenen Korpora gewechselt werden, an die die Suchanfrage gestellt wird.

    Bei der Korpusauswahl "Lemmatisiert ohne Stoppwörter" werden N-Gramme abgefragt, die auf Grundlage der lemmatisierten Protokolle ohne Stopwörter berechnet wurden. Das bedeutet, dass alle Wörter der Protokolle auf ihre Grundform zurückgeführt und häufige Wörter wie "ist" oder "ein" entfernt wurden. Aus dem Satz "Guten Morgen, liebe Kolleginnen und Kollegen! Ich begrüße Sie alle herzlich." wird so die Zeichenfolge "Guten Morgen lieb Kollegin Kollege ich begrüßen ich herzlich" N-Gramme die für die beiden Sätze berechnet werden unterscheiden sich somit erheblich.

    Der Korpus "Nicht lemmatisiert mit Stoppwörtern" lässt den Satz unberührt.

    Beide Korpora eignen sich für verschiedene Suchanfragen. Möchte eher die Häufigkeit von zusammengefassten Begriffen ermittelt werden, kann der Korpus "Lemmatisiert ohne Stoppwörter" verwendet werden.
    Werden jedoch eher ganze Phrasen wie "Kampf gegen den Terror" gesucht, sollte der Korpus "Nicht lemmatisiert mit Stoppwörtern" vewrwendet werden.

  • closeGrenzen der Suchanfrage

    Für den Korpus "Lemmatisiert ohne Stoppwörter" können 1- bis 5-Gramme abgefragt werden.

    Der Korpus "Nicht lemmatisiert mit Stoppwörtern" ist auf eine Abfrage von 1- bis 4-Grammen begrenzt.

  • access_timeSuchgeschwindigkeit

    Die Suchanfragen für mehrere 1-Gramme ist sehr schnell. Werden komplexere 2-, 3-, 4- oder 5-Gramme abgefragt, ist mit einer Bearbeitungszeit von einigen Sekunden zu rechnen.

  • pollInterpretation der Daten

    Aus den Ergebnissen einer Suchanfrage sollten keine vorschnellen Kausalitäten abgeleitet werden. Die verschiedenen Häufigkeiten sollten immer im Kontext ihrer Zeit und politscher Ereignisse gesehen werden.

Häufigkeit der gesuchten N-Gramme pro Jahr von 1949 bis 2017