Data Factory Pipelines

Co zawiera Moduł

Moduł Data Factory Pipelines wprowadza uczestników w świat orkiestracji danych przy użyciu pipeline’ów w Microsoft Fabric – elastycznego narzędzia integrującego funkcjonalności znane z Azure Data Factory i Synapse.

Uczestnicy nauczą się projektować, budować i monitorować przepływy danych, automatyzując procesy ETL/ELT z wykorzystaniem nowoczesnego interfejsu no-code/low-code.

Jeśli dopiero zaczynasz swoją ścieżkę z Microsoft Fabric, przejdź do bezpłatnego modułu Wprowadzenie do Fabric, który przeprowadzi Cię przez podstawy.

Dzięki dołączonym materiałom PDF możesz krok po kroku odtworzyć wszystkie ćwiczenia z modułu – bez konieczności ciągłego przewijania nagrań. To znacznie przyspiesza pracę, a do nagrania możesz wrócić jedynie w razie wątpliwości.

Ponadto zyskujesz dostęp do spotkań online z trenerem, podczas których możesz zadać pytania związane z tworzeniem Pipelines, konfiguracją Copy Data, partycjonowaniem czy przyrostowym pobieraniem danych w Microsoft Fabric.

Kod modułu:

PIP

Trener:

Tomasz Libera

Czas trwania nagrań:

4h 40 min

Cena:

400zł

Lab PDF:

35 stron

Przewidywany czas na ukończenie modułu:

3 dni

Materiały przydatne do egzaminu:

DP-600 oraz DP-700

Lista lekcji

  • Wprowadzenie
  • Przygotowanie danychUtworzysz workspace, Lakehouse wraz z przykładowymi danymi z których będziesz korzystać w kolejnych przykładach.
  • Copy DataLekcja przedstawia podstawy korzystania z aktywności Copy data – zarówno budowane poprzez assystenta (Copy data assistant), jak i edytor (blank canvas). W obu przypadkach przykładowe dane z pliku są kopiowane do tabeli w Lakehouse.
  • Monitorowanie i rozwiązywanie problemówKorzystając z umiejętności monitorowania wykonania, wyników, ew. błędów które się pojawią – mamy możliwość samodzielnego eksperymentowania i poznawania możliwości Pipelines. Jest to więc lekcja obowiązkowa przed dalszą nauką.
  • PartycjonowanieW ramach tej lekcji zapiszemy zawartość pliku city_safety_seattle na partycje w ramach aktywności copy data.
  • Zmienne i parametryW ramach tej lekcji zostanie zaprezentowane zastosowanie zmiennych i parametrów – najpierw zbudujemy proces kopiujący z sieci plik zip, a następnie rozpakowujący zawarte w nim pliki csv, a następnie statyczna konfiguracja zostanie zastąpiona zapisaną w parametrach i zmiennych.
  • Pętla Foreach i kopiowanie wierszyW ramach tej lekcji najpierw utworzymy 4 niezależne aktywności Copy data dla 3 niezależnych plików których zawartość będziemy kopiować do tabel, a następnie przerobimy ten przykład na pętlę Foreach, dodatkowo dodając logowanie zasileń tabel w ramach tabeli technicznej dbo.ETL.
  • Zmienne typu arrayW ramach lekcji nauczysz się modyfikować zawartość tablicy zapisanej w zmiennej array, a także zapisywać jej zawartość do tabeli w bazie SQL.
  • Data-Driven PipelinesDynamiczna konfiguracja potoków to nie tylko ścieżki do folderów czy nazwy plików tabel. Parametryzować można także mapowanie, które określa jakie kolumny/ typy danych znajdują się w źródle/ miejscu docelowym.  Będziemy w tym celu stosować tabele bądź pliki z konfiguracją.
  • Korzystanie z bramy – W tej lekcji zainstalujesz bramę, skonfigurujesz nowe połączenia w Fabric i zbudujesz pipeline, który będzie pobierał te dane.
  • Przyrostowe pobieranie danych – Lekcja prezentuje w jaki sposób za pomocą Copy data pobierać tylko nowe i zmodyfikowane wiersze. Miejscem docelowym będą tabele stage, na podstawie których można następnie dokonać modyfikacji/ wstawienia (upsert) do tabel docelowych. W momencie przygotowywania tego laboratorium, operacja upsert nie jest dostępna w Fabric Pipelines, ani DataFlow Gen2, należy więc użyć Spark Notebook.
  • Zadanie
  • Quiz  

Przykładowy fragment

Opinie kursantów