Inhalt
Überblick
Einen groben Einblick in Zahlen Daten und Fakten der 20 Uhr Nachrichten der Tagesschau gibt es im Artikel Tagesschau Mining – Die 20 Uhr Nachrichten der Tagesschau.
Anzahl verschiedener Wörter pro Sendung
Um einen Überblick über die Komplexität der Tagesschau zu bekommen fangen wir mit der Anzahl verschiedener Wörter pro Sendung an. Hierfür werden zunächst alle Wörter von 2014 bis heute lemmatisiert und alle stop words herausgefiltert. So wird zum Beispiel aus diesem Satz:
In den Berichten geht es auch um die Zunahme von Gewalttaten sowohl durch Recht- als auch durch Linksextremisten.
diese Wortfolge:
Bericht Zunahme Gewalttat sowohl Recht Linksextremist.
Betrachten wir nun die verschiedenen Wörter pro Sendung, beläuft sich die Anzahl auf gleichbleibend 600 Wörter im Durchschnitt.
Anzahl neuer Wörter pro Sendung
Eine spannende Frage ist nun noch wie viele neue Wörter der langzeit Tagesschauer jeden Tag zu hören bekommt. Diese Grafik folgt dem zipf’schen Gesetz und beläuft sich am Ende noch auf 25-50 neue Wörter im Schnitt, also 8%. Ob man nun den Vergleich zu allen bisher genannten Wörtern oder nur zur letzten Sendung betrachtet, ergibt übrigens keinen allzugroßen Unterschied.
Eine Auflistung der neuen Wörter in der Sendung vom 01.02.2020 zu Beginn der Corona-Pandemie sieht zum Beispiel so aus:
01.02.2020, Trump-Impeachment, Kilde, 259, Einsatzerfolg, Corona, Juste, Bundeswehrflugzeug, US-Krimiautorin, Luftwaffenmaschine, Wasmeier, Eskorte, Mittenwalder, schläfst, Wuhan-Rückkehrer, US-Streitkräften, deaktivierbar, Gikiewicz, Flughafen-Kapazitäten, Germersheim, angeköpft, Canberra, 02., Senatsmehrheit, Anti-Personen-Minen, Torbeteiligung, Landminenverbot, 51:49, Warte, Quarantäne, Sieh, 391, Landminen, Titelambitionen, Ausgeflogenen
Lesbarkeitsindex
Um die Lesbarkeit (Untertitel kann man lesen) einzuordnen gibt es den soganannten Flesch-Index. Er betrachtet die Anzahl der Sätze, Wörter und Anzahl der Silben in einem Text. Am Ende berechnet sich ein Score welcher sich in verschiedene Kategorien einordnen lässt.
Für unseren Tagesschau Datensatz liegt der Index bei 70. Im Jahr 2014 startet die Trendlinie bei 70 und endet aktuell bei 71. Somit liegt der Text zwischen Mittel und Mittelleicht. Kurzer Exkurs zum Vergleich: 1993 lag der Index bei 55 also Mittelschwer. Die tagesschau in einfacher Sprache vom 24.10.2024 hat zum Beispiel einen Index von 57, also ebenfalls Mittelschwer.
Inhalt und Themen – Wordcloud
Für den nächsten Schritt in Richtung Inhalt und erwähnte Themen bringt eine Wordcloud der top 200 Wörter von 2014 bis 2024 einen kleinen Funken mehr Licht ins Dunkle.
Die Wordcloud gibt schonmal einen kleinen Überblick über ein paar der in der Tagesschau behandelten Themen. Spannender wäre allerdings eine größere Übersicht.
Inhalt und Themen – Dependency Parsing
Hierfür benutzen wir einen Dependency Parsing Graphen. Für einen einzelnen Satz sieht dieser so aus:
Wir bekommen für jedes Wort die Wortart (POS-Tagging) und Abhängigkeiten zwischen den Wörtern als Graph mit einem Wort als Knoten und der Verbindung als Kante. Damit können wir eine kleine Landkarte aufbauen indem wir die letzten 4 Jahre heranziehen.
Schwieriger ist es nun eine Landkarte für die Jahre von 2014 bis 2024 zu zeichnen. Hierfür brauchen wir sinnvolle Kantengewichte und geeignete Techniken um den vollständigen Graphen auf einen Bruchteil zu Filtern. Zunächst nehmen wir als Kantengewicht einfach die Anzahl wie oft eine konkrete Verbindung vorgekommen ist. Als fiktives Zahlenbeispiel nehmen wir wechselhaft und Regen als Verbindung welche 10 mal in verschiedenen Artikeln vorkommt. Insgesamt kommt wechselhaft 20 mal vor und Regen 100 mal. Nun schauen wir den Quotinenten für jede Worthäufigkeit an und bekommen somit den Anteil wie oft das Wort zusammen in der Verbindung vorkommt. Intuitiv also wie wichtig ist die Verbindung für das einzelne Wort. Also für Regen 10/100 = 0.1 und für wechselhaft 10/20 = 0.5. Nun nehmen wir als neues Kantengewicht 0.6.
Danke an dieser Stelle an David Kriesel für die Techniken zum Gewichten und Filtern der Landkarte.
Ein sehr klar erkennbares Thema ist in allen Darstellungen immer der Bericht über das Wetter und die Wettervorhersage.
Inhalt und Themen – LDA, BERT, ChatGPT
Die Übersicht mithilfe des dependency parsing Graphen bringt schon einige Themen hervor. Allerding ist dieser mehr auf die semantische und sprachliche Struktur ausgelegt. Einen Zusammenhang oder eine konkrete themenbasierte Zuordnung klappt also nur bedingt. Ein Topic Modeling (Finden und Zuordnen von Themen in verschiedenen Texten) mit LDA oder BERT bringt leider nur bedingt gute Ergebnisse zum veranschaulichen. Anders sieht es aus mit ChatGPT.
Hierfür lassen wir von ChatGPT für die jede Sendung der letzten 5 Jahre mindestens 10 Themen generieren mit beliebig vielen Keywords als Unterthema. Für die Wettervorhersage bekommt man zum Beispiel folgende Keywords:
{
"Überbegriff": "Wettervorhersage",
"Unterbegriffe": [
"Hochdruckbrücke",
"Mitteleuropa",
"Regen",
"Nebel",
"Wolken",
"Tropfen",
"Südostbayern",
"Donau",
"Samstag",
"Sonntag"
]
}
Jetzt bauen wir aus allen Themen einen Graphen auf, welcher uns später als Themen-Landkarte dienen wird. Die Knoten für den Graphen bilden die Menge aus allen Über- und Unterbegriffen. Kanten fügen wir von jedem Überbegriff zu seinen Unterbegriffen ein. Das heißt es kann vorkommen, dass ein Unterbegriff in einer anderen Sendung wieder als Überbegriff benutzt wird und hier ebenfalls eine Kante entsteht. Das Gewicht einer Kante entspricht zunächst wieder dem Vorkommen dieser Verbindung im Graphen. Das finale Gewicht einer Kante errechnen wir wieder mit der Gewichtung wie oben beschrieben. Intuitiv war das die Summe aus „wie wichtig ist die Verbindung für den einzelnen Knoten“. Am Ende wird wieder gefiltert, wobei jeder Knoten seine 15% wichtigsten Kanten behalten darf.
Somit können wir den ursprünglichen Graphen mit 52.573 Knoten und 365.277 Kanten auf 14.570 Knoten und 14.859 Kanten reduzieren. Hier direkt mal ein Screenshot als ersten Überblick:
Für einen besseren Überblick sind zusammenhängende Gebiete (communities) verschieden eingefärbt. Außerdem wurden die Kantengewichte innerhalb der communities verstärkt, wohingegen die Kantengewichte zwischen den Gruppen abgeschwächt. Dadurch sind die Gebiete einfacher zu erkennen.
Zum start gibt es gleich wieder einen direkten Zoom zum Wetter:
Einmal in die Corona-Pandemie gezoomt ergibt sich dieses Bild:
Die komplette Landkarte zum zoomen und selber forschen gibt es hier.
Keywords zum suchen: Wirecard, Kanzler, Israel, Impfung, Regierung, Ukraine, Fußball
Stellt neue gefundene Themen oder Screenshots gerne in die Kommentare!
Da die Daten von ChatGPT generiert worden sind, ist hier Vorsicht geboten. Zuordnungen können thematisch falsch sein, da sich zum Beispiel das Zeitgeschehen einfach ändert. Außerdem können Themen nicht erfasst worden sein und fehlen somit in der Landkarte.
Sind die Nachrichten neutral? – Sentiment Analysis
Das Ziel von Sentiment Analysis ist die Einteilung von Texten oder Sätzen in die labels positiv, neutral oder negativ. Für ein Jahr der Tagesschau sieht diese Auswertung wie folgt aus. Die Datenpunkte entsprechen dem prozentualen Anteil der labels pro Sendung.
Die meisten Sätze wurden als neutral klassifiziert. Die Abweichungen in die negative Richtung überwiegen hier die Abweichungen in die positive Richtung.
Spannend wäre nun noch ob es für bestimmte Wochentage eine Häufung von negativen Nachrichten gibt. Dafür gibt es die Daten einmal für jeden Wochentag:
Wer noch mehr über Nachrichten und Sentiment Analyse erfahren möchte wird unter https://webmood.ai/ fündig.
Erwähnungen der Parteien im Bundestag
Hier sind nochmal die Erwähnungen der Parteien im Bundestag über den kompletten Zeitraum des Datensatzes. (Bild vergrößert sich mit einem Klick)
Die Untertitel (als lowercase) wurden wie folgt für die Einzelnen Parteien gefiltert:
spd: spd; cdu: cdu, union; csu: csu; grünen: grünen; afd: afd, alternative für deutschland; fdp: fdp; linke: linke
Achtung: dieses einfache Filtern nach keywords enhält natürlich auch fehlerhafte Zuordnungen oder vergisst manchmal Erwähnungen.
Und hier nochmal das gleiche mit den Erwähnungen für „flüchtling“ und „corona“.
Hier das ganze nochmal, allerdings wurden Mehrfacherwähnungen aussortiert.
Und hier noch eine absolute Darstellungen über die Parteien hinweg.
Schreibe einen Kommentar