Co zawiera Moduł
Moduł Data Factory Pipelines wprowadza uczestników w świat orkiestracji danych przy użyciu pipeline’ów w Microsoft Fabric – elastycznego narzędzia integrującego funkcjonalności znane z Azure Data Factory i Synapse.
Uczestnicy nauczą się projektować, budować i monitorować przepływy danych, automatyzując procesy ETL/ELT z wykorzystaniem nowoczesnego interfejsu no-code/low-code.
- Wprowadzenie
- Przygotowanie danych
- Copy Data
- Monitorowanie i rozwiązywanie problemów
- Partycjonowanie
- Zmienne i parametry
- Pętla ForEach i kopiowanie wierszy
- Zmienne typu array
- Data-Driven Pipelines
- Korzystanie z bramy
- Przyrostowe pobieranie danych
- Zadanie
- Quiz
Jeśli dopiero zaczynasz swoją ścieżkę z Microsoft Fabric, przejdź do bezpłatnego modułu Wprowadzenie do Fabric, który przeprowadzi Cię przez podstawy.
Dzięki dołączonym materiałom PDF możesz krok po kroku odtworzyć wszystkie ćwiczenia z modułu – bez konieczności ciągłego przewijania nagrań. To znacznie przyspiesza pracę, a do nagrania możesz wrócić jedynie w razie wątpliwości.
Ponadto zyskujesz dostęp do spotkań online z trenerem, podczas których możesz zadać pytania związane z tworzeniem Pipelines, konfiguracją Copy Data, partycjonowaniem czy przyrostowym pobieraniem danych w Microsoft Fabric.
Lab PDF:
35 stron
Przewidywany czas na ukończenie modułu:
3 dni
Materiały przydatne do egzaminu:
DP-600 oraz DP-700
Lista lekcji
- Wprowadzenie
- Przygotowanie danych – Utworzysz workspace, Lakehouse wraz z przykładowymi danymi z których będziesz korzystać w kolejnych przykładach.
- Copy Data – Lekcja przedstawia podstawy korzystania z aktywności Copy data – zarówno budowane poprzez assystenta (Copy data assistant), jak i edytor (blank canvas). W obu przypadkach przykładowe dane z pliku są kopiowane do tabeli w Lakehouse.
- Monitorowanie i rozwiązywanie problemów – Korzystając z umiejętności monitorowania wykonania, wyników, ew. błędów które się pojawią – mamy możliwość samodzielnego eksperymentowania i poznawania możliwości Pipelines. Jest to więc lekcja obowiązkowa przed dalszą nauką.
- Partycjonowanie – W ramach tej lekcji zapiszemy zawartość pliku city_safety_seattle na partycje w ramach aktywności copy data.
- Zmienne i parametry – W ramach tej lekcji zostanie zaprezentowane zastosowanie zmiennych i parametrów – najpierw zbudujemy proces kopiujący z sieci plik zip, a następnie rozpakowujący zawarte w nim pliki csv, a następnie statyczna konfiguracja zostanie zastąpiona zapisaną w parametrach i zmiennych.
- Pętla Foreach i kopiowanie wierszy – W ramach tej lekcji najpierw utworzymy 4 niezależne aktywności Copy data dla 3 niezależnych plików których zawartość będziemy kopiować do tabel, a następnie przerobimy ten przykład na pętlę Foreach, dodatkowo dodając logowanie zasileń tabel w ramach tabeli technicznej dbo.ETL.
- Zmienne typu array – W ramach lekcji nauczysz się modyfikować zawartość tablicy zapisanej w zmiennej array, a także zapisywać jej zawartość do tabeli w bazie SQL.
- Data-Driven Pipelines – Dynamiczna konfiguracja potoków to nie tylko ścieżki do folderów czy nazwy plików tabel. Parametryzować można także mapowanie, które określa jakie kolumny/ typy danych znajdują się w źródle/ miejscu docelowym. Będziemy w tym celu stosować tabele bądź pliki z konfiguracją.
- Korzystanie z bramy – W tej lekcji zainstalujesz bramę, skonfigurujesz nowe połączenia w Fabric i zbudujesz pipeline, który będzie pobierał te dane.
- Przyrostowe pobieranie danych – Lekcja prezentuje w jaki sposób za pomocą Copy data pobierać tylko nowe i zmodyfikowane wiersze. Miejscem docelowym będą tabele stage, na podstawie których można następnie dokonać modyfikacji/ wstawienia (upsert) do tabel docelowych. W momencie przygotowywania tego laboratorium, operacja upsert nie jest dostępna w Fabric Pipelines, ani DataFlow Gen2, należy więc użyć Spark Notebook.
- Zadanie
- Quiz
