3. April 2020
Teilen über

Erste Schritte mit

Als Reaktion auf die COVID-19-Pandemie bietet Udacity, die beliebte Tech-Lernplattform, einen Monat lang kostenlos für verschiedene datenzentrierte Nanodegrees an, und dazu gehört auch ihr beliebter Data-Engineering-Kurs. Heeren Sharma, Dateningenieur bei DAIN Studios, hat sich mit den Inhalten des Data Engineering befasst und empfiehlt wärmstens, einen Blick darauf zu werfen, wenn Sie Ihre Fähigkeiten vom Software Engineering auf das Data Engineering erweitern möchten.

Das sagt Heeren zu den Inhalten des Data Engineering Nanodegrees. Weitere Informationen zu Udacity und dem Angebot finden Sie unter https://blog.udacity.com/2020/03/one-month-free-on-nanodegrees.html

Wie bei allen anderen Nanodegrees gibt es verschiedene Module, die gut strukturiert und logisch zu navigieren sind. Jedes Modul bereitet die Voraussetzungen für das nächste Modul und das Gelernte lässt sich gut übertragen.

Datenmodellierung

Im ersten Modul geht es um Datenmodellierung und -design für relationale und NoSQL-Datenbanken. In diesem Abschnitt werden Postgres als SQL-Datenbank und Apache Cassandra für den spaltenbasierten NoSQL-Datenspeicher untersucht. Die Datenmodellierung ist ein entscheidender Aspekt, der beim Start eines Projekts oft übersehen wird. Sobald die Datengröße wächst und man diese massiven Verknüpfungen erstellen muss, wird ein Refactoring von Datenmodellen durchgeführt. Komplizierter wird es, wenn Ihre Datenkapazitäten wachsen, und damit auch die Integration neuer Funktionen. Folglich führt dies dazu, dass Datenmodelle aktualisiert werden, um zusätzliche Funktionen zu integrieren. Und in kürzester Zeit können sich diese schnell gesponnenen Datenmodelle nicht nur als Engpass beim Hinzufügen neuer Funktionen, sondern auch bei der Gesamtleistung des Systems erweisen.

Cloud-Data-Warehouses

Um die Datenerfassung zu veranschaulichen, konzentriert sich das zweite Modul auf das Data Warehouse und genau die Vorteile des Cloud-Hostings. Für Cloud-Hosting-Erfahrung und praktische Übungen ist Amazon Web die ausgewählte Cloud-Plattform Services (AWS). Dieser Abschnitt bietet grundlegende AWS-Einführungen wie die Erstellung von EC2-Instances, IAM-Rollen und die Verwendung von boto3 für die Interaktion mit verschiedenen AWS-Ressourcen. Darüber hinaus gibt es ein kleines praktisches Projekt, bei dem man eine einfache ETL-Pipeline aufbaut. Konkret geht es bei dieser Übung darum, Daten aus S3 in Tabellen in Redshift (einer beliebten AWS-Data-Warehouse-Lösung) zu laden. Fühlen Sie sich verwirrt mit all diesen abgekürzten Terminologien? Sobald Sie in diesem Modul Fortschritte machen, werden die Dinge viel klarer.

Spark und Data Lakes

Es ist an der Zeit, die Dinge zu skalieren, und das dritte Modul ist ausschließlich dafür gedacht. In diesem Abschnitt erfahren Sie, was Big Data ist und warum Sie einige der bekanntesten Namen wie Hadoop und Spark kennen. Es erklärt auch recht reibungslos einige komplexe Konzepte von verteilten Dateisystemen und Cluster-Computing, d.h. wenn Daten nicht in einen Rechner passen. Im Übungsteil ist die sanfte Erklärung von PySpark ein absolutes Highlight. Darüber hinaus besteht die ETL-Pipeline-Entwicklungsübung aus der Datenaufbereitung mit PySpark, der Datenpartitionierung und der Bereitstellung des gesamten Spark-Prozesses auf einem Cluster in AWS. Eine wichtige Erkenntnis, die Sie aus diesem Modul ziehen können, ist die Fähigkeit, die Notwendigkeit eines Data Lake gegenüber einem im vorherigen Abschnitt vorgestellten Data Warehouse basierend auf Ihren Geschäftsanforderungen zu erkennen.

Datenpipelines mit Luftstrom

In realen Big-Data-Verarbeitungsanwendungen gibt es oft viele Datenpipelines. Und wenn Sie es nicht bemerken, können Sie am Ende viele Pipelines warten. Um die Sache noch schlimmer zu machen, wenn etwas schief geht und Sie viele Pipelines haben, die voneinander abhängen, kann dies Ihre Stimmung auf die nächste Stufe der Frustration heben. Dieses vierte und letzte Modul führt in die Planung, Automatisierung und Überwachung verschiedener Datenpipelines mit Apache Airflow ein. Die damit verbundene Übung dieses Moduls umfasst die Konfiguration und Planung von Datenpipelines mit Airflow sowie die Durchführung von Datenqualitätsprüfungen. Neben der Orchestrierung und Überwachung verschiedener Pipelines ist die Einführung der Datenqualität eine wichtige Erkenntnis aus diesem Modul.

Abschließende Überlegungen

Es gibt eine Menge, was man von diesem Nanograd lernen kann. Das Programm ist recht gut strukturiert und manchmal intuitiv zu befolgen. Ergänzende Übungen, die mit jedem Modul verbunden sind, fördern das allgemeine praktische Lernen und sammeln praktische Erfahrungen. Es ist wichtig zu bedenken, dass fortgeschrittene Python- und SQL-Programmierkenntnisse eine Voraussetzung für diesen Nanograd sind. Wenn Sie also ein Softwareentwickler oder Backend-Ingenieur sind, der seine Datenreise beginnt, dann könnte es für Sie sehr nützlich sein. Es gibt ein abschließendes Abschlussprojekt in diesem Nanograd, das eine fantastische Möglichkeit ist, all diese Erkenntnisse in eine konsolidierte Form zu bringen. Die geschätzte Zeit bis zum Abschluss dieses Nanograds beträgt fünf Monate (5-10 Stunden/Woche). Wenn Sie jedoch 3 Stunden pro Tag investieren müssen, dann kann dies in Ruhe in einem Monat erledigt werden.

Was gibt es Besseres, um diese Data-Engineering-Gehirnzellen zu trainieren?

Bleiben Sie gesund und genießen Sie das Lernen!

Heeren Sharma ist Senior Data Engineer bei DAIN Studios München.

Referenzen & mehr

Als Reaktion auf die COVID-19-Pandemie bietet Udacity, die beliebte Tech-Lernplattform, einen Monat lang kostenlos für verschiedene datenzentrierte Nanodegrees an, und dazu gehört auch ihr beliebter Data-Engineering-Kurs. Heeren Sharma, Dateningenieur bei DAIN Studios, hat sich mit den Inhalten des Data Engineering befasst und empfiehlt wärmstens, einen Blick darauf zu werfen, wenn Sie Ihre Fähigkeiten vom Software Engineering auf das Data Engineering erweitern möchten.

Das sagt Heeren zu den Inhalten des Data Engineering Nanodegrees. Weitere Informationen zu Udacity und dem Angebot finden Sie unter https://blog.udacity.com/2020/03/one-month-free-on-nanodegrees.html

Einzelheiten

Titel: Data Engineering Kurs in Udacity
Autor:
DAIN StudiosDaten & KI Strategieberatung
Veröffentlicht in ,
Aktualisiert am 27. April 2021