Austin (classic wordscore) ist ein Plugin für das Statistikprogramm R, das klassischerweise für die Analyse politischer Debatten oder Wahlprogramme verwendet wird. Das Grundprinzip ist einfach: Einem beliebigen unbekannten Text (Virgintext) wird durch das Programm anhand bekannter Trainingstexte (Referenztexte) ein Score zugewiesen. Dieser Score beruht auf der Häufigkeit bzw. der Frequenz aller Wörter in einem Text und wird daher als wordscore bezeichnet. In einem ersten Schritt werden also beispielsweise die Scores für Wahlprogramme durch genaue Inhaltsanalysen oder Experteninterviews festgelegt (z. B. entlang des politischen Spektrums von 1 bis 5). Die Wortfrequenzen dieser Texte werden dann in einem zweiten Schritt zur Vorhersage der Scores beliebiger anderer Wahlprogramme herangezogen. Schließlich lässt sich somit einem unbekannten Wahlprogramm über dessen Wortfrequenzen ein Score und eine politische Richtung zuordnen. Eine ausführliche Anleitung dazu findest sich hier.

Verständlicherweise stößt diese logische Herangehensweise an methodische Grenzen. So ist beispielsweise fraglich, inwiefern sich tatsächlich aufgrund der Worthäufigkeiten in einem Text auf dessen politische Position schließen lässt, da Sprache neben dieser Eigenschaft von Texten ganz anderen Mechanismen folgt. Will Lowe, der Macher von Austin für R, von der Princeton University, beschreibt diese methodischen Probleme und die mathematischen Hintergründe in seinem Paper „Understanding Wordscores„.

Bewertung politischer Akteure und Ausgewogenheit in der Berichterstattung

In einem Forschungsprojekt zur Medienberichterstattung  während der Landtagswahlen 2016 sollte die Ausgewogenheit der Berichterstattung bezüglich der Bewertung politischer Akteure analysiert werden. Dafür wurde eine Inhaltsanalyse der großen deutschen Tageszeitungen FAZ, SZ, taz und Welt durchgeführt. Insgesamt wurden 552 Artikel über relevante politische Akteure aus dem Zeitraum vom 07.01 bis 13.03.2016 untersucht.

„Die politische Tendenz eines Mediums aufzudecken, wie sie sich in der redaktionellen Linie manifestiert und die Auswirkungen dieser Tendenz auf die Nachrichtengebung zu bestimmen – das ist der wesentliche Nutzen von Ausgewogenheitsanalysen.“ (Hagen,1995, S.122)

Im Kern stand die Frage, inwiefern die Bewertung politischer Akteure durch die redaktionelle Linie eines Mediums verzerrt wird. Demnach liegt Ausgewogenheit dann vor, wenn die allgemeine Bewertungen einer Partei in einer Zeitung weitgehend unabhängig von der Bewertung der gleichen Partei durch die Journalisten der Zeitung selbst sind. Positioniert sich ein Journalist mit einer Bewertung für oder gegen eine Partei, so ergibt die Summe dieser Bewertungen die redaktionelle Linie (also die Stellung der Zeitung gegenüber einer Partei). Folgen alle anderen Bewertungen der Partei in einem Medium dieser redaktionellen Linie, dann ist die Berichterstattung unausgewogen.

Die Ergebnisse zeigen unterschiedliche Partei-Präferenzen für die untersuchten Tageszeitungen. Jedoch folgen diese nicht dem klassisch unterstellten politischen Spektrum. So wird beispielsweise die SPD durch Journalisten der taz im Mittel negativer bewertet als die CDU. Bereits der Vergleich der Bewertungsmuster zwischen Journalisten und allen anderen in der jeweiligen Zeitung zitierten Quellen zeigt gewisse Übereinstimmungen. Im Groben ist die Reihenfolge der Parteien auf der vierstufigen Skala bei den Journalisten die gleiche wie bei allen anderen Quellen. Es gibt allerdings große Unterschiede in der Stärke der Bewertung (siehe Galerie). Erstaunlich ist, dass die AfD in beiden Fällen und über alle Medien hinweg am schlechtesten dasteht. Zwischen den Bewertungen durch Journalisten und den Bewertungen durch andere Quellen im selben Artikel besteht ein schwach-positiver Zusammenhang, r(36) = .34, p < .05. Die Bewertungen in einem Artikel sind somit leicht unausgewogen.

Als mögliche Determinanten der Tendenz der Bewertungsscores können die AfD als Bezugsobjekt und der Verfasser des Artikels herangezogen werden. Im ersten Fall sind Bewertungen tendentiell negativer, wenn die AfD als Bezugsobjekt der bewertenden Aussage auftritt. Im zweiten Fall sind Bewertungen tendentiell positiver, wenn diese vom Verfasser des Artikels stammen (siehe Galerie).

Praktische Anwendung von Austin (classic wordscore)

Die händische Analyse der Bewertungen in den Tageszeitungen ist sehr aufwendig. Zuerst müssen bewertende Aussagen im Text identifiziert werden. Dann muss codiert werden, von wem diese Aussage stammt, auf welchen Akteur sich diese bezieht, welche Stärke diese aufweist und schließlich welcher Bewertungsdimension sie zuzuordnen ist. Eine entsprechende automatisierte Analyse wäre in diesem Fall effektiver. Die Zieldimension ist auch bei der händischen Analyse die Zuweisung eines Scores, welcher die Bewertung einer Partei in einem Text ausweist. Dieser Aspekt lässt sich sehr gut durch wordscores abbilden. Da die Methode allerdings noch nicht auf Zeitungsartikel angewandt wurde, sollte erst ein Methodenvergleich angestrebt werden.

Wie reliabel sind die Bewertungsscores von Austin (classic wordscore) im Vergleich zur händischen Analyse?

Das größte Problem bei der Analyse der bewertenden Aussagen ist die Länge der Zeitungsartikel selbst. Zum einen führt die Länge der Texte dazu, dass diese nicht durch Austin prozessiert werden können, da es eine Begrenzung der Zeichenzahl der Variablenlabels beziehungsweise der ersten Spalte in der Rohdatei gibt. Zum anderen ist dadurch neben den bewertenden Aussagen, die eigentlich untersucht werden sollen, noch eine Fülle unnötiger Information (Rauschen, noise) im Text vorhanden, welche den Score beeinträchtigt. Beide Probleme wurden erst im Laufe des Forschungsprojekts erkannt und konnten deshalb leider nicht angegangen werden. Eine mögliche Lösung wäre die Isolation der relevanten Textstellen, sodass diese nur eine bewertende Aussage enthält. Diese könnten dann aufgrund ihrer geringen Zeichenzahl besser in Austin eingelesen und verarbeitet werden und zudem wären die Ergebnisse aussagekräftiger, da kein noise in den Texten vorhanden wäre. Anstatt die bewertenden Aussagen händisch zu identifizieren, können diese auch automatisiert gefiltert werden. Dies ist durch die Semantik einer solchen Aussage gut umsetzbar (Bezugobjekt, Bewertung, Tendenz, Bewertungsdimension, Dichte der Elemente etc.).

Als Ergänzung dazu wurden für die Scores für die einzelnen Parteien unterschiedlich viele Referenztexte benutzt, um herauszufinden, inwiefern dies die Reliabilität der Ergebnisse beeinflusst (vor allem bei langen Texten). Tatsächlich zeigt sich eindeutig, dass die Intercoderreliabilität zwischen den händischen Scores und den Scores durch Austin mit der Anzahl der Referenztexte steigt. Allerdings sind die Alpha-Werte derart schlecht, dass die Scores durch Austin im besten Fall als Orientierung für die tatsächliche Bewertung einer Partei in einem Text gelten können (siehe Galerie). Dennoch kann die Reliabilität durch kleine Anpassungen im Codierprozess und die Anzahl der Referenztexte erhöht werden.

Literatur

Benoit, K., and M. Laver. 2003. Estimating Irish party positions using computer wordscoring: The 2002 elections. Irish Political Studies 17:97–107.

Hagen, L. (1995). Informationsqualität von Nachrichten. Meßmethoden und ihre Anwendung auf die Dienste von Nachrichtenagenturen. Opladen: Westdeutscher Verlag.

Lowe, W. (2008). Understanding wordscores. Political Analysis, 16(4), 356-371.

Ruedin, Didier, Using Wordscores in R: A Step by Step Guide (2012). Verfügbar unter: SSRN:https://ssrn.com/abstract=2118875 oder http://dx.doi.org/10.2139/ssrn.2118875.

Bild

Taro Taylor (hier), Flickr (hier)

 

Diese Forschungsarbeit wurde in Zusammenarbeit mit Ron Sittner, Fabian Wiesinger und Marija Maksimovic realisiert.

10/11/2016