Sprawdź przykładową lekcję
Co zawiera Moduł
DataFlow Gen2 to graficzny sposób realizacji transformacji w Microsoft Fabric. Korzysta z interfejsu PowerQuery, znanego także z Dataflow w PowerBI. Nowa generacja dostarcza jednak nowych możliwości, m.in. wskazanie gdzie mają być zapisane dane wynikowe wraz z konfiguracją (struktura, mapowanie, nadpisywanie bądź dopisywanie i przyrostowe ładowanie danych).
Przepływy danych można wywoływać w ramach Pipeline albo niezależnie dodawać do nich harmonogramy.
Moduł wprowadza w tworzenie dataflows od podstaw korzystania z transformacji poprzez bardziej zaawansowane mechanizmy jak parametryzacja, korzystanie z mechanizmów polepszających wydajność czy kopiowanie przyrostowe.
- Wprowadzenie
- Przygotowanie danych
- Pierwsze transformacje
- Zapis do miejsca docelowego
- Zmiana typu źródła poprzez modyfikację skryptu
- Korzystanie z parametrów
- Monitorowanie i planowanie wykonania dataflow
- Dołączanie zapytań
- Scalanie zapytań (Merge) – pliki
- Scalanie zapytań (Merge) – tabele SQL
- Korzystanie z bramy on-prem
- Wydajność
- Przyrostowe kopiowanie
- Quiz
- Zadanie
- Rozwiązanie zadania
Jeśli chcesz dowiedzieć się więcej o tworzeniu i automatyzacji przepływów danych w Microsoft Fabric, sprawdź moduł Data Factory Pipelines, w którym nauczysz się kopiowania danych, pracy ze zmiennymi i parametrami, monitorowania procesów oraz przyrostowego ładowania danych.
Dzięki dołączonym materiałom PDF możesz krok po kroku odtworzyć wszystkie ćwiczenia z modułu – bez konieczności ciągłego przewijania nagrań. To znacznie przyspiesza pracę, a do nagrania możesz wrócić jedynie w razie wątpliwości.
Ponadto zyskujesz dostęp do spotkań online z trenerem, podczas których możesz zadać pytania związane z tworzeniem Pipelines, konfiguracją Copy Data, partycjonowaniem czy przyrostowym pobieraniem danych w Microsoft Fabric.
Lab PDF:
45 stron
Przewidywany czas na ukończenie modułu:
3 dni
Materiały przydatne do egzaminu:
DP-600 oraz DP-700
Lista lekcji
- Wprowadzenie
- Przygotowanie danych – Utworzysz workspace, Lakehouse wraz z przykładowymi danymi z których będziesz korzystać w kolejnych przykładach.
- Pierwsze transformacje – Tworzenie prostego dataflow (przepływu danych), importującego informacje o filmach z pliku csv do tabeli w Lakehouse. Zapoznanie z interfejsem i poszczególnymi transformacjami.
- Zapis do miejsca docelowego – Możliwości dataflow w zakresie konfiguracji zapisu do miejsca docelowego.
- Zmiana typu źródła poprzez modyfikację skryptu – Modyfikacje skryptu M w Advanced Editor. Nie wszystkie modyfikacje za pomocą interfejsu są możliwe – w tych sytuacjach warto wspomóc się edytorem zaawansowanym, dzięki którego bezpośrednio zmodyfikujesz skrypt w języku M. To nie nowy język którego trzeba się uczyć – kolejne kroki są opisywane przez czytelne funkcje, dzięki czemu zmiany istniejących transformacji nie są trudne.
- Korzystanie z parametrów – Demonstracja użycia parametrów w DataFlow i przekazywania ich z poziomu Pipeline. Podczas uruchamiania przepływów danych, informacje konfiguracyjne jak nazwa pliku z poprzedniego przykładu warto przekazać jako parametry – wówczas możemy je nadpisywać podczas uruchamiania poprzez Pipelines – co zostanie zaprezentowane w tej demonstracji. Opisany poniżej przykład korzysta z tzw. Public parameters, dostępnych tylko w Dataflow Gen2 CI/CD.
- Monitorowanie i planowanie wykonania dataflow – Możliwości monitorowania są istotne ze względu na rozwiązywanie problemów podczas pracy z Fabric i projektowanie przepływów danych.
- Dołączanie zapytań – Prezentacja jak ładować dane łącząc wiersze z kilku plików w jeden (odpowiednik UNION w SQL).
- Scalanie zapytań (Merge) – pliki – Prezentacja jak łączyć dane z wielu źródeł (odpowiednik JOIN w SQL). Źródłem będą pliki CSV, w kolejnym przykładzie poznasz jak odczytując dane z tabel SQL rozwijać kolumny.
- Scalanie zapytań (Merge) – tabele SQL – W tej części przećwiczysz jak łączyć dane z wielu źródeł (odpowiednik JOIN w SQL). Źródłem będą tabele w Fabric SQL Database.
- Korzystanie z bramy on-prem – W tej części połączysz się z lokalnym serwerem SQL i pobierzesz kilka tabel do Lakehouse korzystając z Dataflow. Analogiczną lekcję znajdziesz w module dot. Pipelines.
- Wydajność – Dataflows posiadają wbudowane mechanizmy podnoszenia wydajności: fast copy, query folding i staging. W ramach lekcji zostanie przedstawione jak działają i kiedy mogą być stosowane.
Fast copy to tryb ładowania bardzo dużych zbiorów danych (setki milionów wierszy) do tabeli w Fabric Lakehouse/ Warehouse. Najpierw eksportuje dane z SQL plików pośrednich, następnie ładuje je do Lakehouse.
Query folding (składanie zapytań) to mechanizm tłumaczenia transformacji w Power Query (M) na zapytania źródłowej bazy danych (np. SQL), a w związku z tym wykonywania ich jak najbliżej źródła danych. Zmniejsza to ilość danych przesyłanych do Fabric, wykorzystuje moc obliczeniową źródła danych (+ indeksy), a tym samym wpływa na znaczne skrócenie czasu trwania.
Staging to mechanizm buforowania i przechowywania pośrednich wyników przetwarzania danych w OneLake w postaci plików parquet. Przy dużych zbiorach danych staging przyspiesza kolejne kroki transformacji i ładowania. - Przyrostowe kopiowanie – Wdrożenie przyrostowego kopiowania danych pozwala zasilać miejsce docelowe jedynie nowymi wierszami i modyfikować te, które zmieniły się na źródle. To znacząco wpływa na czas trwania operacji w porównaniu do pełnego zasilenia z nadpisaniem wcześniejszej wersji wierszy.
- Quiz
- Zadanie
- Rozwiązanie zadania
