Dataflow Gen2

Strona główna / Moduły szkolenia / Dataflow Gen2

Sprawdź przykładową lekcję

Co zawiera Moduł

DataFlow Gen2 to graficzny sposób realizacji transformacji w Microsoft Fabric. Korzysta z interfejsu PowerQuery, znanego także z Dataflow w PowerBI. Nowa generacja dostarcza jednak nowych możliwości, m.in. wskazanie gdzie mają być zapisane dane wynikowe wraz z konfiguracją (struktura, mapowanie, nadpisywanie bądź dopisywanie i przyrostowe ładowanie danych).

Przepływy danych można wywoływać w ramach Pipeline albo niezależnie dodawać do nich harmonogramy.

Moduł wprowadza w tworzenie dataflows od podstaw korzystania z transformacji poprzez bardziej zaawansowane mechanizmy jak parametryzacja, korzystanie z mechanizmów polepszających wydajność czy kopiowanie przyrostowe.

Wprowadzenie
Przygotowanie danych
Pierwsze transformacje
Zapis do miejsca docelowego
Zmiana typu źródła poprzez modyfikację skryptu
Korzystanie z parametrów
Monitorowanie i planowanie wykonania dataflow
Dołączanie zapytań
Scalanie zapytań (Merge) – pliki
Scalanie zapytań (Merge) – tabele SQL
Korzystanie z bramy on-prem
Wydajność
Przyrostowe kopiowanie
Quiz
Zadanie
Rozwiązanie zadania

Jeśli chcesz dowiedzieć się więcej o tworzeniu i automatyzacji przepływów danych w Microsoft Fabric, sprawdź moduł Data Factory Pipelines, w którym nauczysz się kopiowania danych, pracy ze zmiennymi i parametrami, monitorowania procesów oraz przyrostowego ładowania danych.

Dzięki dołączonym materiałom PDF możesz krok po kroku odtworzyć wszystkie ćwiczenia z modułu – bez konieczności ciągłego przewijania nagrań. To znacznie przyspiesza pracę, a do nagrania możesz wrócić jedynie w razie wątpliwości.

Ponadto zyskujesz dostęp do spotkań online z trenerem, podczas których możesz zadać pytania związane z tworzeniem Pipelines, konfiguracją Copy Data, partycjonowaniem czy przyrostowym pobieraniem danych w Microsoft Fabric.

Zamów

Kod modułu:

DFL

Trener:

Tomasz Libera

Czas trwania nagrań:

4h 50min

Cena:

400zł

Lab PDF:

45 stron

Przewidywany czas na ukończenie modułu:

3 dni

Materiały przydatne do egzaminu:

DP-600 oraz DP-700

Lista lekcji

Wprowadzenie
Przygotowanie danych – Utworzysz workspace, Lakehouse wraz z przykładowymi danymi z których będziesz korzystać w kolejnych przykładach.
Pierwsze transformacje – Tworzenie prostego dataflow (przepływu danych), importującego informacje o filmach z pliku csv do tabeli w Lakehouse. Zapoznanie z interfejsem i poszczególnymi transformacjami.
Zapis do miejsca docelowego – Możliwości dataflow w zakresie konfiguracji zapisu do miejsca docelowego.
Zmiana typu źródła poprzez modyfikację skryptu – Modyfikacje skryptu M w Advanced Editor. Nie wszystkie modyfikacje za pomocą interfejsu są możliwe – w tych sytuacjach warto wspomóc się edytorem zaawansowanym, dzięki którego bezpośrednio zmodyfikujesz skrypt w języku M. To nie nowy język którego trzeba się uczyć – kolejne kroki są opisywane przez czytelne funkcje, dzięki czemu zmiany istniejących transformacji nie są trudne.
Korzystanie z parametrów – Demonstracja użycia parametrów w DataFlow i przekazywania ich z poziomu Pipeline. Podczas uruchamiania przepływów danych, informacje konfiguracyjne jak nazwa pliku z poprzedniego przykładu warto przekazać jako parametry – wówczas możemy je nadpisywać podczas uruchamiania poprzez Pipelines – co zostanie zaprezentowane w tej demonstracji. Opisany poniżej przykład korzysta z tzw. Public parameters, dostępnych tylko w Dataflow Gen2 CI/CD.
Monitorowanie i planowanie wykonania dataflow – Możliwości monitorowania są istotne ze względu na rozwiązywanie problemów podczas pracy z Fabric i projektowanie przepływów danych.
Dołączanie zapytań – Prezentacja jak ładować dane łącząc wiersze z kilku plików w jeden (odpowiednik UNION w SQL).
Scalanie zapytań (Merge) – pliki – Prezentacja jak łączyć dane z wielu źródeł (odpowiednik JOIN w SQL). Źródłem będą pliki CSV, w kolejnym przykładzie poznasz jak odczytując dane z tabel SQL rozwijać kolumny.
Scalanie zapytań (Merge) – tabele SQL – W tej części przećwiczysz jak łączyć dane z wielu źródeł (odpowiednik JOIN w SQL). Źródłem będą tabele w Fabric SQL Database.
Korzystanie z bramy on-prem – W tej części połączysz się z lokalnym serwerem SQL i pobierzesz kilka tabel do Lakehouse korzystając z Dataflow. Analogiczną lekcję znajdziesz w module dot. Pipelines.
Wydajność – Dataflows posiadają wbudowane mechanizmy podnoszenia wydajności: fast copy, query folding i staging. W ramach lekcji zostanie przedstawione jak działają i kiedy mogą być stosowane.
Fast copy to tryb ładowania bardzo dużych zbiorów danych (setki milionów wierszy) do tabeli w Fabric Lakehouse/ Warehouse. Najpierw eksportuje dane z SQL plików pośrednich, następnie ładuje je do Lakehouse.
Query folding (składanie zapytań) to mechanizm tłumaczenia transformacji w Power Query (M) na zapytania źródłowej bazy danych (np. SQL), a w związku z tym wykonywania ich jak najbliżej źródła danych. Zmniejsza to ilość danych przesyłanych do Fabric, wykorzystuje moc obliczeniową źródła danych (+ indeksy), a tym samym wpływa na znaczne skrócenie czasu trwania.
Staging to mechanizm buforowania i przechowywania pośrednich wyników przetwarzania danych w OneLake w postaci plików parquet. Przy dużych zbiorach danych staging przyspiesza kolejne kroki transformacji i ładowania.
Przyrostowe kopiowanie – Wdrożenie przyrostowego kopiowania danych pozwala zasilać miejsce docelowe jedynie nowymi wierszami i modyfikować te, które zmieniły się na źródle. To znacząco wpływa na czas trwania operacji w porównaniu do pełnego zasilenia z nadpisaniem wcześniejszej wersji wierszy.
Quiz
Zadanie
Rozwiązanie zadania

Opinie kursantów

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo. Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.