April 25, 2022
Teilen über

UnTidy von DAIN Studios

Die Zähmung der Datenbestie: Wie man Datenchaos beseitigt und Citizen Data Scientists ausbildet

Die meisten Daten beginnen ihr Leben als Chaos. Die Umwandlung von Rohdaten in übersichtliche Informationen ist ein integraler Bestandteil jedes Data-Science- und Analytics-Workflows. Das Erlernen der Grundlagen der Datenbereinigung ist für jeden Mitarbeiter ein Muss, bevor er das Potenzial der Daten, mit denen er arbeitet, ausschöpfen kann, sagt György Paizs.

Am 1. April DAIN Studios hat ein Python-Paket namens Untidy veröffentlicht, das saubere Datensätze in unordentliche verwandelt. Unsere Berater waren auf der Suche nach einem Tool, mit dem wir die Vielzahl der Möglichkeiten aufzeigen können, wie Daten in domänenspezifischen Datensätzen beschädigt werden können. Daten, die von Unternehmen generiert werden, sind selten von vornherein sauber, und ihre Bereinigung bleibt einer der zeitaufwändigsten und am wenigsten automatisierten Prozesse in einem typischen Daten-Workflow. Unternehmen mit den dafür notwendigen Fähigkeiten auszustatten, ist zu einer Schlüsselaufgabe für DAIN Studios Wir unterstützen europäische Unternehmen auf ihrem Weg zur Datenreife – dem Punkt, an dem ein Unternehmen in der Lage ist, datengesteuerte Entscheidungen in großem Maßstab im gesamten Unternehmen zu treffen.

Warum Datenkompetenz wichtig ist

Unternehmen mit einem hohen Datenreifegrad unterscheiden sich in vielerlei Hinsicht von Nachzüglern. Ein Element, das allen gemeinsam ist, ist die breite Verfügbarkeit von Datenkompetenzen, die über das gesamte Unternehmen verteilt sind. Eine Studie von McKinsey zeigte , dass 62 Prozent der Führungskräfte in "High-Performing Companies" ein Verständnis für "Datenkonzepte" haben, gegenüber 43 Prozent bei "allen anderen Organisationen" – mit 53 zu 38 Prozent ist die Diskrepanz bei den Managern ähnlich.

Das Verständnis grundlegender "Datenkonzepte" und ihrer Implikationen ist jedoch nicht nur für Datenpraktiker, Führungskräfte und Manager ein Muss. Jeder einzelne Mitarbeiter sollte eine Wertschätzung für faktenbasierte Entscheidungsfindung haben. Alle Mitarbeiter sollten zumindest über die Grundkompetenzen zum Lesen und Interpretieren von Daten verfügen, auf die sie bei ihrer täglichen Arbeit stoßen. Nur eine breit verankerte Data Literacy ermöglicht es einem Unternehmen, das volle Potenzial der generierten Daten auszuschöpfen. Das bedeutet nicht, dass jeder Mitarbeiter ein Data Scientist sein muss, sondern dass jeder eine Datenchance erkennen kann – und jemanden im Unternehmen findet, der ihm helfen kann, sie zu nutzen.

Rohdaten sind so chaotisch wie die Welt, die sie messen, und können mit einer Vielzahl von Problemen gespickt sein: Werte können fehlen, die sogenannte String-Kodierung, die zum Speichern von Datenpunkten verwendet wird, kann schief gehen, statistische Ausreißer können unter all diesen Variablen lauern. Solche Probleme können auf technische Probleme, aber auch auf menschliches Versagen zurückzuführen sein. Entscheidend ist, dass die Mängel jedes Rohdatensatzes leicht unterschiedlich sind, so dass es sowohl eine Kunst als auch eine Wissenschaft ist, sie anzugehen.

Da die Menge der von Unternehmen generierten und gesammelten Daten exponentiell zunimmt, steigt die Nachfrage nach Datenerkenntnissen aus allen Bereichen eines Unternehmens. Die Förderung der Datenkompetenz über den harten Kern der Datenexperten hinaus verringert die Wahrscheinlichkeit, dass Engpässe entstehen und neue Datenchancen verpasst werden. Es erhöht die Chancen eines Unternehmens, wirklich datengesteuert zu werden, da seine Mitarbeiter beginnen, über Daten nachzudenken, während sie ihren täglichen Aufgaben nachgehen. Wie Nachhaltigkeit müssen auch Daten in und von jedem Mitarbeiter "gelebt" werden.

Schulung der nächsten Generation von Citizen Data Scientists

In einem zunehmend wettbewerbsintensiven Arbeitsmarkt für Datentalente ist es für die meisten Unternehmen am besten, bestehenden Mitarbeitern dabei zu helfen, (mehr) datenkompetent zu werden. Wir bei DAIN Studios haben Unternehmen dabei unterstützt, die Fähigkeiten ihrer Mitarbeiter zu verbessern, um die Datenkompetenz zu erhöhen und die erste Generation von "Citizen Data Scientists" heranzuziehen. Das Untidy-Python-Paket sorgt dafür, dass aufgeräumte Daten wieder unordentlich werden, und hilft Nicht-Experten, mit der Realität unordentlicher Daten und der Notwendigkeit konfrontiert zu werden, sie zu entschlüsseln, bevor sie die darin enthaltenen Erkenntnisse anzapfen. Untidy wurde entwickelt, um die häufigsten Probleme in domänenspezifischen Datensätzen zu replizieren. Durch die Verwendung echter (nicht generischer) Daten versetzt das Paket die Auszubildenden in eine viel bessere Position, um zu verstehen, welche Daten – und wie viel davon – im Reinigungsprozess tatsächlich eingespart werden können.

Aktuell nutzen wir Untidy im Rahmen unseres Datenschulungsangebots für einen Kunden aus der Fertigungsindustrie. Das Unternehmen sammelt Millionen von Zeilen von Sensordaten von Geräten auf der ganzen Welt als Teil des normalen täglichen Betriebs. In diesem Fall können technische Ausfälle, wie z. B. Verbindungsprobleme, zu fehlenden Werten führen, oder ein Wechsel des Betriebssystems kann zu Inkonsistenzen in ansonsten vollständigen Datensätzen führen. Mit Untidy können wir die spezifischen Arten von Datenproblemen erstellen und demonstrieren, die in dieser Umgebung möglich sind – und wie man damit umgeht. Dies stattet die Mitarbeiter nicht nur mit den notwendigen Fähigkeiten aus, sondern schafft auch ein Bewusstsein für die Bedeutung der Datenqualität – ein Konzept, das für jede Datentransformation gleichermaßen entscheidend ist.

Das Paket ist jetzt offiziell auf pypi.org verfügbar und kann wie jedes andere Standard-Python-Paket installiert werden.

Über Untidy

Das Untidy-Python-Paket sorgt dafür, dass aufgeräumte Daten wieder unordentlich werden, und hilft dabei, Nicht-Experten mit der Realität unordentlicher Daten vertraut zu machen.

Das Paket ist jetzt offiziell auf Github und pypi.org verfügbar. Es kann wie jedes andere Standard-Python-Paket installiert werden.

Einzelheiten

Titel: Bereinigung des Datenchaos und Schulung von Citizen Data Scientists
Autor:
DAIN StudiosDaten & KI Strategieberatung
Veröffentlicht in ,
Aktualisiert am 23. November 2023