Tagesschau Mining – Die 20 Uhr Nachrichten der Tagesschau

Datensammlung und Harte Fakten

Hier ist das Erste Deutsche Fernsehen mit der tagesschau.

So begrüßt jeden Abend einer der Nachrichtensprecher/innen Deutschland in den 20 Uhr Nachrichten der Tagesschau.

Die 20 Uhr Nachrichten der Tagesschau sind seit 2014 online als Stream mit Untertitel verfügbar. Das sind ca. 4.000 Streams, wobei für ca. 90% Untertitel verfügbar sind. Genauer sieht das dann so aus mit kein Untertitel vorhanden in blau und Untertitel vorhanden in grün. Aktuell sind die letzten Streams im Sendungsarchiv abrufbar.

Eine Ausgabe der 20 Uhr Nachrichten der Tagesschau besteht im genannten Zeitraum im Schnitt aus 1.906 Wörtern. Außerdem hat jede Ausgabe durschnittlich 178 Sätze, wobei jeder Satz im Schnitt 10 Wörter (Tokens) beinhaltet. Laut ChatGPT dauert es ca. 12 – 16 Minuten einen dieser Untertitel vorzulesen. Die Anzahl der Sätze und Worte ist über den Zeitraum gleichbleibend und folgt somit einem konstantem Trend.

Wer hat wann und wie oft gesprochen?

Diese Sendung wurde vom NDR live untertitelt (16.03.2020) Heute im Studio: Jens Riewa Guten Abend, ich begrüße Sie zur tagesschau.

Dieses Zitat aus einem der Untertitel verrät den Sprecher/in und ist natürlich in fast jedem der Untertitel verhanden. Ein Überblick der Tagesschausprecher/innen von 2014 bis September 2024 sieht in der Visualisierung dann wie folgt aus:

Eine interaktive Version der Grafik befindet sich auf tagesschau.io.

Jan Hofer war bis Dezember 2020 aktiv und Linda Zervakis bis April 2021. Hierfür übernehmen Julia-Niharika Sen und Constantin Schreiber ab Januar 2021 bzw. Februar 2021. Insgesamt fällt auf, dass im Verlauf kein bestimmtes Muster im Wechsel der Sprecher zu erkennen ist.

Beispielhaft ist für Jens Riewa und Linda Zervakis im Folgenden noch die Visualisierung mit „arbeitsfreien“ Monaten markiert.

Auf die Wochentage verteilt sind die Sprecher relativ ausgeglichen. Jan Hofer hat im Vergleich besonders häufig Montags die Tagesschau gesprochen. Susanne Daubner führt die Liste mit den meist gesprochenen Sendungen an.

Eine Interaktive Version der Grafik befindet sich auf tagesschau.io.

Welche Orte wurden erwähnt?

Wir blicken nach Leipzig, das 35 Jahre nach der friedlichen Revolution ein Einheitsdenkmal bekommen soll.

Dieses Zitat aus dem Untertitel vom 02.10.2024 erwähnt den Ort Leipzig im ersten Satz. Sucht man die Untertitel vom 21.09.2024 bis 03.10.2021 (3 Jahre) nach Orten mithilfe von Named Entity Recognition ab, findet man insgesamt 4090 verschiedene Ortserwähnungen (LOC, GPE). Mittels Geocodierung lässt sich eine zusätzliche Location Validierung und Landesbestimmung durchführen. In der reduzierten Menge der Ortserwähnungen befinden sich mit Abstand 13.616 in Deutschland. Insgesamt wurden 182 verschiedene Länder gefunden. Global betrachtet fallen mehr Ortserwähnungen auf den globalen Norden als auf den globalen Süden der Karte. (siehe hierzu auch EJO Artikel)

Eine Interaktive Version der Grafik mit genauen Ortsmarkern befindet sich auf tagesschau.io.

Welche Personen wurden erwähnt?

Die Frage ist, ob Netanyahu dieser Stimme Gehör schenkt.

Dieses Zitat aus dem Untertitel vom 3.10.2024 erwähnt die Person Netanyahu. Beim Durchsuchen der Untertitel seit 2014, ebenfalls mit Named Entitiy Recognition (PER), findet man insgesamt 23.745 Personen. Die 20 häufigsten abzüglich der tagesschau Sprecher/innen sind im Folgenden aufgeführt.

Welche Themen wurden behandelt?

Laut ChatGPT bieten die 20 Uhr Nachrichten der Tagesschau täglich einen Überblick über die wichtigsten Ereignisse des Tages. In der Regel werden aktuelle politische Entwicklungen im In- und Ausland, Wirtschaftsnachrichten, Umwelt- und Gesellschaftsthemen sowie internationale Konflikte thematisiert. Ein häufiges Thema sind Entscheidungen der Bundesregierung, innenpolitische Auseinandersetzungen, sowie die Lage in Krisengebieten oder größere internationale Ereignisse. Oft werden auch Berichte über Wetterextreme, Protestbewegungen, oder neue wissenschaftliche Erkenntnisse gezeigt. Die Nachrichten enden meist mit Sportnachrichten und der Wettervorhersage.

Die US-Vertreterin warnte angesichts des russischen Aufmarschs vor einem Pfad in einen Krieg.

In diesem Zitat vom 27.01.2022 kommt das Wort „Krieg“ vor. Die Website https://tagesschau.io ermöglicht unter anderem eine explorative Suche über die vorkommenden Worte in jedem der Untertitel. Weitet man die Suche nach Krieg aus und betrachtet die Jahre von 2014 bis 2024 ergibt sich dafür folgende Grafik.

Ein weiteres Thema war die Corona Pandemie. Wie wurde diese eigentlich am häufigsten betitelt?

Wie lange und wie oft war Corona in den 20 Uhr Nachrichten? Und wann wurde es von Russland, Ukraine und Israel abgelöst?

Wie häufig wurden die drei großen Parteien im Bundestag erwähnt?

Nun besteht noch die Frage welche Themen haben die 20 Uhr Nachrichten der tagesschau von 2014 bis 2024 eigentlich dominiert? Diese Frage lässt sich mit Topic Modeling beantworten. Hier werden für die Analyse die einzelnen Sätze jedes Untertitels als eigenes Document betrachtet. Insgesamt wurden ca. 800 Themen für genannten Zeitraum gefunden. Die Top 5 Themen sind in folgender Grafik aufgeführt.

Betrachtet man die einzelnen Documents und Topics in einer gruppierten Ansicht ergeben sich folgende Grafiken.


Kommentare

15 Antworten zu „Tagesschau Mining – Die 20 Uhr Nachrichten der Tagesschau“

  1. Sehr schöne Arbeit. Den Abschnitt „Welche Orte wurden erwähnt?“ finde ich sehr interessant. Es zeigt m. E. ein noch verzerrtes Bild, das wir von der Welt haben. Der globale Süden sollte stärker ins Blickfeld rücken.

  2. Eine tolle Initiative,
    mich würde eine Analyse bezüglich eines möglichen Sprach-Framings interessieren.
    Ab wann hiess eine Regierung plötzlich „Regime“?
    Wann wurden aus Flüchtlingen Geflüchtete?
    Wann wurde aus Klimawandel die Klimakrise?
    Diese und solche sprachlichen Veränderungen wären doch sicher interessant!

    1. Dankeschön! Einen Teil der Antworten auf deine spannenden Fragen findest du sicherlich schon auf https://tagesschau.io.
      z.B.: Flüchtlinge vs. Geflüchtete

  3. Interessante Arbeit. Ein paar Vorschläge hätte ich mit Bezug zu ausgewählten Themen auch über die Zeit hinweg 🙂 .

    Die Komplexität der Berichterstattung wäre interessant. Wie mächtig ist der verwendete Wortschatz (Menge der Wörter)? Ist die Sprache einfacher geworden über die Zeit hinweg oder wurde die ganze Zeit mit vielen Fachbegriffen um sich geworfen? Annahme könnte ja sein, dass die Sprache in Bezug zu einem komplexen Thema über die Zeit hinweg einfacher wird.
    Man könnte dann noch weitergehen mit Dependency Parsing und die Komplexität des Dependency-Graphen pro natürlichsprachlichem Satz messen um eine Annäherung an die Komplexität der Formulierung zu kriegen. Das könnte man wiederum auch mal Gesamtheitlich über die Jahre hinweg betrachten ohne Bezug zu Themen. Schnelles googlen führt mich zu https://wortliga.de/wortliga-tagesschau-verstaendliche-nachrichten/ .

    Ich kann so gar nicht abschätzen, ob man da was interessantes sieht oder nicht. Umso spannender macht es das damit rumzuspielen ;).

    1. Dankeschön für die Vorschläge! Ich denke das sollte machbar sein und auf jedenfall spannend!
      Warum das dependency parsing nicht gleich als graph layouten:

    2. Da es sich um einen öffentlich rechtlichen Kanal handelt wäre es interessant wie die politischen Nachrichten sich verteilen. Menge, Menge im Zeitverlauf, Parteien, Positiv/Negativ.

      So könnte man faktenbasiert aufzeigen wie neutral die Berichterstattung ist.

  4. Gibt es eine Möglichkeit, zu sehen, wann die ersten Worte des Sprechers nicht „Guten Abend, meine Damen und Herren, ich begrüße Sie zur Tagesschau“ waren?

    Ich habe den Eindruck, dass nur bei sehr wichtigen Nachrichten die Begrüßung erst nach dem ersten Beitrag kommt (vergleiche Tagesschau vom 10. November 1989 oder 11. September 2001 auf YouTube).

    1. Gibt es noch nicht. Das ist aber ein spannendes Feature. Dankeschön für den Hinweis!

  5. Hi David,

    sehr coole Arbeit und mega Respekt!

    Will nicht wissen, was sowas an Aufwand macht… Kompliment!

    Mich würde interessieren, ob sich mit den Daten aus den Nachrichten Zusammenhänge zu Wettergeschehen in Verbindung bringen lassen? Ich meine über die Jahre beobachtet zu haben, dass manchmal ein Land oder „wichtige“ Personen eine Entscheidung treffen und kurz darauf später div. Wetterereignisse oder Naturkatastrophe folgen, ob Überschwemmungen, Tornados, Erdbeben etc. – Ist bestimmt ziemlich komplex, aber bestimmt auch mega spannend… (vielleicht eine Arbeitshypothese).

    Viele Grüße

    Benjamin

  6. Hallo,
    zunächsteinmal möchte ich meiner Begeisterung über die bevorstehende Metaanalyse aussprechen. Die für mich höchste Nachrichteninstanz (traditionell) einmal in blanke Zahlen übersetzt und aufgeschlüsselt – herrlich (Danke @ David Kriesel für den Hinweis).
    Mich interessiert eine mögliche Korrelation zwischen Thema und Wörter pro Minute – zwar ist es anzunehmen, dass dies von professionellen Sprechern genormt von der Zunge rollt, aber vielleicht auch nicht?

    VG

  7. Avatar von Christian Olsson
    Christian Olsson

    Ab wann wurde wie häufig der Klimawandel erwähnt?
    Ich las mal, dass das erst ziemlich spät war.

  8. Hallo,
    ich fände es interessant zusätzlich als Feature die Einschaltquoten aufzunehmen. und Zusammenhänge mit Themenschwerpunkten oder wichtigen Events zu untersuchen.

    1. kennst du zufällig eine Quelle dafür?

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Index