Die 20 Uhr Nachrichten der Tagesschau

Datensammlung

Die 20 Uhr Nachrichten der Tagesschau sind seit 2014 online als Stream verfügbar. Das sind ca. 4.000 Streams, wobei für ca. 90% Untertitel verfügbar sind. Aktuell sind die letzten Streams im Sendungsarchiv abrufbar.

Woher ich das weiß? Ich habe die Untertitel seit 2014 heruntergeladen und unter https://tagesschau.io zur Verfügung gestellt. Die Website ermöglicht eine explorative Suche über die vorkommenden Worte in jedem der Untertitel.

Wie oft kommt „Krieg“ vor?

Eine Sucheingabe beantwortet zum Beispiel die Frage, wie häufig und wann das Wort Krieg in den 20 Uhr Nachrichten vorkommt.

Ein paar weitere Beispiele

Wie wurde denn die Corona Pandemie in den 20 Uhr Nachrichten betitelt?

Wie lange und wie oft war Corona in den 20 Uhr Nachrichten? Und wann wurde es von Russland, Ukraine und Israel abgelöst?

Wie häufig wurden die drei großen Parteien im Bundestag erwähnt?

Wie sieht es mit naturbedingten Ereignissen aus?

Wer hat gesprochen?

* Gong * Hier ist das Erste Deutsche Fernsehen mit der tagesschau. Diese Sendung wurde vom NDR live untertitelt (06.09.2024) Heute im Studio: Susanne Daubner. – Untertitel vom 06.09.2024

Dieses Zitat aus einem der Untertitel verrät den Sprecher/in und ist natürlich in fast jedem der Untertitel verhanden. Ein Überblick der 7 Tagesschausprecher/innen sieht in der Visualisierung dann wie folgt aus:

Jan Hofer war bis Dezember 2020 aktiv und Linda Zervakis bis April 2021. Hierfür übernehmen Julia-Niharika Sen und Constantin Schreiber ab Januar 2021 bzw. Februar 2021. Insgesamt fällt auf, dass im Verlauf kein bestimmtes Muster im Wechsel der Sprecher zu erkennen ist.

Auf die Wochentage verteilt sind die Sprecher relativ ausgeglichen. Jan Hofer hat im Vergleich besonders gerne Montags die Tagesschau gesprochen, wobei Thorsten Schröder Montags nicht so gerne dabei war.

Datenqualität

Nun noch ein paar Worte und Bilder zur Datenqualität. Wie ich bereits oben geschrieben habe sind die Untertitel nur bei ca 90% der Daten vorhanden. Genauer sieht das dann so aus mit kein Untertitel vorhanden in blau und Untertitel vorhanden in grün.

Wie und ob sich die Tagesschau mit Topic Modeling in Themen clustern lässt, gibt es in einem weiteren Artikel!

python bootstrap d3 shell aws git javascript docker mongoDB pandas


Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Index