Wenn Daten statt Taten der Aufhänger sind, ist Python nicht mehr weit
Juni 16, 2020
Juni 16, 2020
Wie die Wissenschaft der Daten den Journalisten augmentieren, Algorithmen den Journalismus gar ersetzen und die Verbreitung von Inhalten durch intelligente Systeme gesteuert wird, hat Barnaby Skinner anschaulich erläutert. Der Journalist leitet das Ressort “Visuals” bei der NZZ und war vorher Leiter Datenjournalismus bei Tamedia.
COVID-19 hat gezeigt, wie wichtig verlässliche Daten für die Einschätzung des Pandemie-Verlaufs und die Wirkung der verordneten Massnahmen sind. Während die Corona-Krise für viele Unternehmen ein Beschleuniger für die Digitalisierung von Geschäfts- und virtuellen Zusammenarbeitsprozessen darstellt, hat sie auch Verlage nicht unberührt belassen: Zwar verzeichnen sie eine rekordhohe Nachfrage, werden aber von wegbrechenden Werbeeinnahmen gebeutelt. Und was bedeutet Corona für das Handwerk des Journalisten?
Daten sind in letzter Zeit ins Zentrum des journalistischen Interesses gerückt. Die Beiträge zum Verlauf der Pandemie basierten nun nicht mehr primär auf Quellen wie einer Institution oder Person, sondern auf erhobenen Datenreihen. Sekundärquellen wie das COVID-19 Data Repository der Johns Hopkins University oder die täglich aktualisierten Fallzahlen der Schweiz und Lichtenstein, bereitgestellt vom Statistischen Amt des Kantons Zürich, sind plötzlich die Aufmacher. Artikel mit Daten und Fakten zum Coronavirus, gespickt mit ausgeklügelten Visualisierungen und Plots von Datenreihen, rangieren über längere Zeit unter den meistgelesenen Artikeln der Newsportale.
Barnaby Skinner beweist im Unterricht mit dem Einblick in seinen Alltag, dass Datenpipelines, Programmiersprachen wie Python oder Softwares wie Jupyter Notebooks in Redaktionsräumen keine Fremdworte mehr sind.
So wie die Datenwissenschaft den Journalisten verstärkt und neue Betrachtungsweisen auf Zahlen und Daten ermöglicht, so zeigen sich in derselben Disziplin auch disruptive Kräfte: «Extraordinary advances in machine learning in recent years have resulted in A.I.’s that can write for you.», textete der New Yorker im Oktober 2019. In der ausführlichen Reportage zu GPT-2, dem künstlich intelligenten Sprachsystem von OpenAI (eine Non-Profit-Organisation) sinniert der Autor, wie sich sein Beruf in den nächsten Jahren wohl verändern wird.
Natural Language Generation, also die automatische Erzeugung von natürlicher Sprache durch Künstliche Intelligenz, ist zwar nicht neu, hat jedoch mit den Entwicklungen im Bereich des maschinellen Lernens massive Fortschritte gemacht. Früher waren es regelbasierte Systeme, welche aufgrund von strukturierten Informationen und Textbausteinen Artikel generierten. Heute sind es Schnittstellen (sogenannte APIs), über welche solche “AI-Writers” ihre Rohdaten beziehen. Der Mensch legt lediglich noch Kriterien wie Textlänge oder -tonalität fest. Der trainierte Algorithmus wählt dann die verwendeten Wörter und setzt diese grammatikalisch korrekt in syntaktisch schlüssige Reihenfolge. Vorreiter in diesem Bereich sind, so die Einschätzung von Skinner, Bloomberg und Associated Press. Letztere erstellt seit 2014 automatisierte Berichte zu von Unternehmen veröffentlichten Quartalszahlen mithilfe der Software Wordsmith von Automated Insights.
Algorithmen zur Personalisierung von Suchergebnissen oder News- sowie Social-Media-Feeds sind nichts Unbekanntes. Informationsselektion, das auf dem Nutzungsverhalten des Users basiert, sind unter dem Stichwort “Filter Bubble” bekannt und kein Geheimnis mehr. Barnaby Skinner betont in diesem Zusammenhang auch, dass Medienunternehmen mit auf Mikro-Zielgruppen zugeschnittene Inhalte so versuchen ihre Relevanz zu steigern.
Einen anderen Weg beschreitet die Neue Zürcher Zeitung mit dem Projekt “Dynamic Paygates”. Das von Google finanziell unterstütze Projekt hat erreicht, dass mit einer AI-gesteuerten Bezahlschranke die Anzahl frei zugänglicher Artikel abhängig des Nutzungsverhaltens bestimmt wird. Das Ergebnis war eine Verfünffachung der Conversion-Rate bei Bezahlinhalten.
Google fördert mit den finanziellen Beiträgen an solche Initiativen aber nicht nur Verlage oder den Journalismus, sondern ist selbst auch (umstrittener) News-Kurator. Google News bietet auf der Website und via iOS- bzw. Android-App von Algorithmen kuratierte und personalisierte Inhalte von registrierten Verlagen an. Lediglich in der Rubrik “Featured” werden Artikel durch das Google News Team selektiert. Im Gegensatz zu klassischen Verlagen und ihrer Redaktion verzichtet Google auf eine journalistische Auswahl der Themen.
In diesem Kontext weist Skinner auf die Problematik der vollständigen Automatisierung hin: Im Jahr 2008 hatte der Algorithmus nämlich einen Artikel der Sun-Sentinel aus dem Jahr 2002 indexiert und auf der News-Seite referenziert. Es handelte sich dabei um die Nachricht, dass United Airlines den Konkurs eröffnet hat. Ein Mitarbeiter von Bloomberg hat diese vermeintlich neue Meldung auf dem Nachrichtendienst veröffentlicht. In der Folge ist der Aktienkurs um 75% eingebrochen.
Diese wahre Geschichte illustriert, dass die Artificial Intelligence (Künstliche Intelligenz) im Journalismus nicht nur neue Möglichkeiten schafft. Wie alle Technologien können sie bei einer unkritischen Herangehensweise auch sprichwörtlich Turbulenzen verursachen.
In der zweiten Tageshälfte gab es für alle Teilnehmenden einen Python-Crashkurs: Alle Studierenden konnten zusammen mit dem von Skinner vorbereiteten Google Colaboratory Notebooks, die Python Basics durchgehen:
Nach der Einführung wurde zusammen an einem kleinen Fallbeispiel eine Datenanalyse durchgeführt. Dabei wurde anhand der tagesaktuellen COVID-19 Sterbedaten (John-Hopkins-Universität auf Github), die Ausgangsdatei in ein vorbereitetes Google Colaboratory Notebook eingelesen. Darauf aufbauend, konnten alle Teilnehmenden unter der Führung von Dozent Skinner die einzelnen Codezeilen und Ergebnisse nachvollziehen.
Das Ziel war, zu erkennen, wie ein Datenanalyse-Prozess aussehen kann und wie Datensätze in eine brauchbare Form gebracht werden können. Letzteres erfolgt vor allem, um eine bessere Darstellung, also eine vereinfachte Visualisierung, zu erzielen.
Code und Darstellung Plotting aus dem von Barnaby Skinner erstellten Notebook vom 6.6.2020
Unter der Zuhilfenahme der Python basierten «matplotlib»-Library konnten zum Beispiel auch die Plots aller Länder in der Ausgangsdatei vereinfacht grafisch gegenübergestellt werden.
Zum Abschluss des Nachmittags präsentierte uns Skinner in einem weiteren Fallbeispiel den Datenverarbeitungsprozess bei der VADER-Sentiment-Analyse am Beispiel wie positiv, negativ und neutral die Tweets des gegenwärtigen amerikanischen Präsidenten formuliert sind. Ursprung dieses Fallbeispiels war die Fragestellung ob es zutrifft, dass der gegenwärtige Präsident durch seine Tweets mehr Zustimmung erhält oder diese eher abnimmt.
Zur Erzklärung: Das VADER (Valence Aware Dictionary and sEntiment Reasoner) ist im Grunde ein Lexikon und ein regelbasiertes Tool zur Stimmungsanalyse, das speziell auf die in Englisch-sprachigen sozialen Medien zum Ausdruck gebrachten Inhalte abgestimmt ist. Zusammengefasst kann man sagen, dass der Algorithmus bei der Analyse in diesem Fallbeispiel ein Lexikon nutzt. Dieses beinhaltet Wörter und Kontexte, die mit einem positiven, negativen und neutralen Wert bemessen wurden. Unter der weiteren Berücksichtigung von Interpunktionen und Gross- und Kleinschreibung gewisser Wörter ergaben sich je nach Kombination pro Tweet ein Wert zwischen -1 und +1. Mit einer sinnvollen Festlegung der Bandbreite, ab welcher ein Tweet als positiv, negativ oder neutral gilt, konnten somit entsprechende Analyseergebnisse erzielt werden.
Den Code des Fallbeispiel haben wir uns diesmal auf den Jupyter Notebook angesehen. Für das Beispiel galt es noch Python Data Analysis Library pandas, dem Phyton Built-in Module math zu installieren. Skinner erläuterte uns kurz die einzelnen Codeblöcke zum Import, Datenbereinigung, Sentiment Analyse, Sentiment distribution und das Plotting sentiment.
Damit ging der interessante und lehrreiche Vorlesungstag auch zu Ende. Vielen Dank Barnaby Skinner. Wer mehr Blogbeiträge vom CAS AI Management lesen möchte findet diese hier. Infos zum Studiengang CAS AI Management sind auf fh-hwz.ch zu finden.
Unser Newsletter liefert dir brandaktuelle News, Insights aus unseren Studiengängen, inspirierende Tech- & Business-Events und spannende Job- und Projektausschreibungen, die die digitale Welt bewegen.