Suchoptionen

Es kann nur jeweils ein Ngramm gesucht werden.

search


Korpus:
Case-sensitive Suche:
Aus Ein
Erweiterter Suchsyntax: info_outline
Aus Ein
filter_9_plus
  • info_outlineWas ist das hier?

    Mit diesem Tool können alle Protokolle von 1949 bis 2017 nach einem Begriff durchsucht werden. Für diesen wird pro MdB dargestellt wie häufig dieses in seinen Reden und Redebeiträgen den gesuchten Begriff verwendet hat.

    Der Begriff kann eine Phrase mit der Länge von ein bis fünf Wörter sein. Eine weitere Suchanfrage wäre z.B. "Steuer erhöhen"

  • searchMuster der Suchanfrage

    Eine Suchanfrage ist ein einzelner Begriff bzw. einzelne Phrase.

    Die beispielhafte Suchanfrage "Ausländer" fragt somit die Häufigkeit des Begriffs ab. Es kann nur ein BEgriff gleichzeitig gesucht werden.

    Eine weitere Suchanfrage wäre z.B. "Steuerflucht"

    Es können nicht nur einzelne Wörter, sondern je nach Korpus Phrasen mit einer Länge von bis zu fünf Wörtern abgefragt werden. Eine beispielhafte Suchanfrage wäre z.B. "Steuer erhöhen".

    Möglich wird diese Art der Abfrage dadurch, das für alle Protokolle sogenannte N-Gramme berechnet wurden.

  • short_textWas sind N-Gramme?

    Für die Berechnung von N-Grammen wird ein Text in einzelne Fragmente zerlegt, die dann in ihrer Häufigkeit gezählt werden können. N gibt hierbei die Länge der einzelen Fragmente an. Ist z.B. der Satz "to be or not to be that is the question." gegeben, kann für diesen die dazugehörigen 1-Gramme berechnet werden. Diese wären dann: "to, be, or, not, to, be, that, is, the, question". Nun kann die Häufigkeit der einzelnen Wörter gezählt werden. Somit kommen die Wörter "to" und "be" zweimal vor und die restlichen Wörter jeweils einmal.

    Diese Art der Berechnung kann dann auch für 2-Gramme durchgführt werden. Der Satz würde dafür in folgende Fragemente zerlegt werden: "To be, be or, or not, not to, to be, be that, that is, is the, the question". Nun kann die Häufigkeit von zwei aufeinander folgenden Wörtern ermittelt werden. Die Phrase "to be" kommt innerhalb des Satzes somit zweimal und alle anderen nur einmal vor.

    Dieser Prozess kann weitere Male wiederholt werden z.B. für 3-, 4- oder 5-Gramme.

    Diese Art der Berechnung wurde für alle Protokolle der Bundestagssitzungen seit 1949 bis 2017 durchgeführt, um die Häufigkeiten verschiedener Begriffe bzw. Phrasen pro Jahr darstellen zu können.

  • filter_2Verschiedene Korpora

    Mit der Option "Korpus" kann zwischen zwei verschiedenen Korpora gewechselt werden, an die die Suchanfrage gestellt wird.

    Bei der Korpusauswahl "Lemmatisiert ohne Stoppwörter" werden N-Gramme abgefragt, die auf Grundlage der lemmatisierten Protokolle ohne Stopwörter berechnet wurden. Das bedeutet, dass alle Wörter der Protokolle auf ihre Grundform zurückgeführt und häufige Wörter wie "ist" oder "ein" entfernt wurden. Aus dem Satz "Guten Morgen, liebe Kolleginnen und Kollegen! Ich begrüße Sie alle herzlich." wird so die Zeichenfolge "Guten Morgen lieb Kollegin Kollege ich begrüßen ich herzlich" N-Gramme die für die beiden Sätze berechnet werden unterscheiden sich somit erheblich.

    Der Korpus "Nicht lemmatisiert mit Stoppwörtern" lässt den Satz unberührt.

    Beide Korpora eignen sich für verschiedene Suchanfragen. Möchte eher die Häufigkeit von zusammengefassten Begriffen ermittelt werden, kann der Korpus "Lemmatisiert ohne Stoppwörter" verwendet werden.
    Werden jedoch eher ganze Phrasen wie "Kampf gegen den Terror" gesucht, sollte der Korpus "Nicht lemmatisiert mit Stoppwörtern" vewrwendet werden.

  • closeGrenzen der Suchanfrage

    Für den Korpus "Lemmatisiert ohne Stoppwörter" können 1- bis 5-Gramme abgefragt werden.

    Der Korpus "Nicht lemmatisiert mit Stoppwörtern" ist auf eine Abfrage von 1- bis 4-Grammen begrenzt.

  • access_timeSuchgeschwindigkeit

    Die Suchanfragen für 1-Gramme ist sehr schnell. Werden komplexere 2-, 3-, 4- oder 5-Gramme abgefragt, ist mit einer Bearbeitungszeit von einigen Sekunden zu rechnen.

  • pollInterpretation der Daten

    Aus den Ergebnissen einer Suchanfrage sollten keine vorschnellen Kausalitäten abgeleitet werden. Die verschiedenen Häufigkeiten sollten immer im Kontext ihrer Zeit und politscher Ereignisse gesehen werden.

Graph