Institute for Digital Business

Wenn Daten statt Taten der Aufhänger sind, ist Python nicht mehr weit

Juni 16, 2020

Zu allen Artikeln

Aus dem Unterrichts im CAS AI Management mit Barnaby Skinner berichten Armin Ledergerber und Patrick S.:

Wie die Wissenschaft der Daten den Journalisten augmentieren, Algorithmen den Journalismus gar ersetzen und die Verbreitung von Inhalten durch intelligente Systeme gesteuert wird, hat Barnaby Skinner anschaulich erläutert. Der Journalist leitet das Ressort “Visuals” bei der NZZ und war vorher Leiter Datenjournalismus bei Tamedia.

Relevanz von Daten in Zeiten von COVID-19

COVID-19 hat gezeigt, wie wichtig verlässliche Daten für die Einschätzung des Pandemie-Verlaufs und die Wirkung der verordneten Massnahmen sind. Während die Corona-Krise für viele Unternehmen ein Beschleuniger für die Digitalisierung von Geschäfts- und virtuellen Zusammenarbeitsprozessen darstellt, hat sie auch Verlage nicht unberührt belassen: Zwar verzeichnen sie eine rekordhohe Nachfrage, werden aber von wegbrechenden Werbeeinnahmen gebeutelt. Und was bedeutet Corona für das Handwerk des Journalisten? 

Von der menschlichen zur Daten-Quelle

Daten sind in letzter Zeit ins Zentrum des journalistischen Interesses gerückt. Die Beiträge zum Verlauf der Pandemie basierten nun nicht mehr primär auf Quellen wie einer Institution oder Person, sondern auf erhobenen Datenreihen. Sekundärquellen wie das COVID-19 Data Repository der Johns Hopkins University oder die täglich aktualisierten Fallzahlen der Schweiz und Lichtenstein, bereitgestellt vom Statistischen Amt des Kantons Zürich, sind plötzlich die Aufmacher. Artikel mit Daten und Fakten zum Coronavirus, gespickt mit ausgeklügelten Visualisierungen und Plots von Datenreihen, rangieren über längere Zeit unter den meistgelesenen Artikeln der Newsportale.

Barnaby Skinner beweist im Unterricht mit dem Einblick in seinen Alltag, dass Datenpipelines, Programmiersprachen wie Python oder Softwares wie Jupyter Notebooks in Redaktionsräumen keine Fremdworte mehr sind.

Visualisierte Daten in einem Artikel der Neuen Zürcher Zeitung

Die Visualisierung in der Neuen Zürcher Zeitung als Beispiel, wie Datenjournalismus funktioniert. Die Plots zeigen die tägliche Anzahl der Coronavirus-Toten als gleitender Durchschnitt über die letzten 7 Tage.

Algorithmen automatisieren den Journalismus

So wie die Datenwissenschaft den Journalisten verstärkt und neue Betrachtungsweisen auf Zahlen und Daten ermöglicht, so zeigen sich in derselben Disziplin auch disruptive Kräfte: «Extraordinary advances in machine learning in recent years have resulted in A.I.’s that can write for you.», textete der New Yorker im Oktober 2019. In der ausführlichen Reportage zu GPT-2, dem künstlich intelligenten Sprachsystem von OpenAI (eine Non-Profit-Organisation) sinniert der Autor, wie sich sein Beruf in den nächsten Jahren wohl verändern wird.

Natural Language Generation, also die automatische Erzeugung von natürlicher Sprache durch Künstliche Intelligenz, ist zwar nicht neu, hat jedoch mit den Entwicklungen im Bereich des maschinellen Lernens massive Fortschritte gemacht. Früher waren es regelbasierte Systeme, welche aufgrund von strukturierten Informationen und Textbausteinen Artikel generierten. Heute sind es Schnittstellen (sogenannte APIs), über welche solche “AI-Writers” ihre Rohdaten beziehen. Der Mensch legt lediglich noch Kriterien wie Textlänge oder -tonalität fest. Der trainierte Algorithmus wählt dann die verwendeten Wörter und setzt diese grammatikalisch korrekt in syntaktisch schlüssige Reihenfolge. Vorreiter in diesem Bereich sind, so die Einschätzung von Skinner, Bloomberg und Associated Press. Letztere erstellt seit 2014 automatisierte Berichte zu von Unternehmen veröffentlichten Quartalszahlen mithilfe der Software Wordsmith von Automated Insights. 

Künstliche Intelligenz steuert Verbreitung, Zugang und Konsum von News

Algorithmen zur Personalisierung von Suchergebnissen oder News- sowie Social-Media-Feeds sind nichts Unbekanntes. Informationsselektion, das auf dem Nutzungsverhalten des Users basiert, sind unter dem Stichwort “Filter Bubble” bekannt und kein Geheimnis mehr. Barnaby Skinner betont in diesem Zusammenhang auch, dass Medienunternehmen mit auf Mikro-Zielgruppen zugeschnittene Inhalte so versuchen ihre Relevanz zu steigern. 

Einen anderen Weg beschreitet die Neue Zürcher Zeitung mit dem Projekt “Dynamic Paygates”. Das von Google finanziell unterstütze Projekt hat erreicht, dass mit einer AI-gesteuerten Bezahlschranke die Anzahl frei zugänglicher Artikel abhängig des Nutzungsverhaltens bestimmt wird. Das Ergebnis war eine Verfünffachung der Conversion-Rate bei Bezahlinhalten. 

Google fördert mit den finanziellen Beiträgen an solche Initiativen aber nicht nur Verlage oder den Journalismus, sondern ist selbst auch (umstrittener) News-Kurator. Google News bietet auf der Website und via iOS- bzw. Android-App von Algorithmen kuratierte und personalisierte Inhalte von registrierten Verlagen an. Lediglich in der Rubrik “Featured” werden Artikel durch das Google News Team selektiert. Im Gegensatz zu klassischen Verlagen und ihrer Redaktion verzichtet Google auf eine journalistische Auswahl der Themen. 

In diesem Kontext weist Skinner auf die Problematik der vollständigen Automatisierung hin: Im Jahr 2008 hatte der Algorithmus nämlich einen Artikel der Sun-Sentinel aus dem Jahr 2002 indexiert und auf der News-Seite referenziert. Es handelte sich dabei um die Nachricht, dass United Airlines den Konkurs eröffnet hat. Ein Mitarbeiter von Bloomberg hat diese vermeintlich neue Meldung auf dem Nachrichtendienst veröffentlicht. In der Folge ist der Aktienkurs um 75% eingebrochen. 

Diese wahre Geschichte illustriert, dass die Artificial Intelligence (Künstliche Intelligenz) im Journalismus nicht nur neue Möglichkeiten schafft. Wie alle Technologien können sie bei einer unkritischen Herangehensweise auch sprichwörtlich Turbulenzen verursachen.

Now it’s our turn: Programmierung mit Python

In der zweiten Tageshälfte gab es für alle Teilnehmenden einen Python-Crashkurs: Alle Studierenden konnten zusammen mit dem von Skinner vorbereiteten Google Colaboratory Notebooks, die Python Basics durchgehen: 

Nach der Einführung wurde zusammen an einem kleinen Fallbeispiel eine Datenanalyse durchgeführt. Dabei wurde anhand der tagesaktuellen COVID-19 Sterbedaten (John-Hopkins-Universität auf Github), die Ausgangsdatei in ein vorbereitetes Google Colaboratory Notebook eingelesen. Darauf aufbauend, konnten alle Teilnehmenden unter der Führung von Dozent Skinner die einzelnen Codezeilen und Ergebnisse nachvollziehen.
Das Ziel war, zu erkennen, wie ein Datenanalyse-Prozess aussehen kann und
wie Datensätze in eine brauchbare Form gebracht werden können. Letzteres erfolgt vor allem, um eine bessere Darstellung, also eine vereinfachte Visualisierung, zu erzielen. 

Code und Daten Plotting aus dem von Barnaby Skinner erstellten Notebook vom 6.6.2020

Code und Darstellung Plotting aus dem von Barnaby Skinner erstellten Notebook vom 6.6.2020

Unter der Zuhilfenahme der Python basierten «matplotlib»-Library konnten zum Beispiel auch die Plots aller Länder in der Ausgangsdatei vereinfacht grafisch gegenübergestellt werden.

Code und Daten Darstellung aus dem von Barnaby Skinner erstellten Notebook vom 6.6.2020

Code und Darstellung aus dem von Barnaby Skinner erstellten Notebook vom 6.6.2020

Sentiment Analyse mit VADER

Zum Abschluss des Nachmittags präsentierte uns Skinner in einem weiteren Fallbeispiel den Datenverarbeitungsprozess bei der VADER-Sentiment-Analyse am Beispiel wie positiv, negativ und neutral die Tweets des gegenwärtigen amerikanischen Präsidenten formuliert sind. Ursprung dieses Fallbeispiels war die Fragestellung ob es zutrifft, dass der gegenwärtige Präsident durch seine Tweets mehr Zustimmung erhält oder diese eher abnimmt. 

Zur Erzklärung: Das VADER (Valence Aware Dictionary and sEntiment Reasoner) ist im Grunde ein Lexikon und ein regelbasiertes Tool zur Stimmungsanalyse, das speziell auf die in Englisch-sprachigen sozialen Medien zum Ausdruck gebrachten Inhalte abgestimmt ist. Zusammengefasst kann man sagen, dass der Algorithmus bei der Analyse in diesem Fallbeispiel ein Lexikon nutzt. Dieses beinhaltet Wörter und Kontexte, die mit einem positiven, negativen und neutralen Wert bemessen wurden. Unter der weiteren Berücksichtigung von Interpunktionen und Gross- und Kleinschreibung gewisser Wörter ergaben sich je nach Kombination pro Tweet ein Wert zwischen -1 und +1. Mit einer sinnvollen Festlegung der Bandbreite, ab welcher ein Tweet als positiv, negativ oder neutral gilt, konnten somit entsprechende Analyseergebnisse erzielt werden.

Den Code des Fallbeispiel haben wir uns diesmal auf den Jupyter Notebook angesehen. Für das Beispiel galt es noch Python Data Analysis Library pandas, dem Phyton Built-in Module math zu installieren. Skinner erläuterte uns kurz die einzelnen Codeblöcke zum Import, Datenbereinigung, Sentiment Analyse, Sentiment distribution und das Plotting sentiment. 

"<yoastmark

"<yoastmark

"<yoastmark

"<yoastmark

Damit ging der interessante und lehrreiche Vorlesungstag auch zu Ende. Vielen Dank Barnaby Skinner. Wer mehr Blogbeiträge vom CAS AI Management lesen möchte findet diese hier. Infos zum Studiengang CAS AI Management sind auf fh-hwz.ch zu finden.

 

 

Entdecken Sie unsere Kurse zum Thema

Start Herbst 2024

CAS AI Management HWZ

  • Afke Schouten
  • 1 Semester (16 Tage)
  • Zürich; Sihlhof (direkt beim HB)
Mehr erfahren
Start August 2024

CAS AI Transformation HWZ

  • Afke Schouten
  • 1 Semester (16 Tage inkl. 5 Tage Studienwoche off-site)
  • Zürich; Sihlhof (direkt beim HB)
Mehr erfahren
Start Februar 2025

CAS Digital Product Lead HWZ

  • Ralph Hutter
  • 1 Semester (16 Tage)
  • Zürich; Sihlhof (direkt beim HB)
Mehr erfahren
Start August 2024

CAS Platforms & Ecosystems HWZ

  • Ralph Hutter
  • 1 Semester (16 Tage)
  • Zürich; Sihlhof (direkt beim HB)
Mehr erfahren

Dein Persönliches Digital Update

Bleibe auf dem Laufenden über die neuesten Entwicklungen der digitalen Welt und informiere dich über aktuelle Neuigkeiten zu Studiengängen und Projekten.