Dataflow Gen2

Sprawdź przykładową lekcję

Co zawiera Moduł

DataFlow Gen2 to graficzny sposób realizacji transformacji w Microsoft Fabric. Korzysta z interfejsu PowerQuery, znanego także z Dataflow w PowerBI. Nowa generacja dostarcza jednak nowych możliwości, m.in. wskazanie gdzie mają być zapisane dane wynikowe wraz z konfiguracją (struktura, mapowanie, nadpisywanie bądź dopisywanie i przyrostowe ładowanie danych). 

Przepływy danych można wywoływać w ramach Pipeline albo niezależnie dodawać do nich harmonogramy.  

Moduł wprowadza w tworzenie dataflows od podstaw korzystania z transformacji poprzez bardziej zaawansowane mechanizmy jak parametryzacja, korzystanie z mechanizmów polepszających wydajność czy kopiowanie przyrostowe. 

Jeśli chcesz dowiedzieć się więcej o tworzeniu i automatyzacji przepływów danych w Microsoft Fabric, sprawdź moduł Data Factory Pipelines, w którym nauczysz się kopiowania danych, pracy ze zmiennymi i parametrami, monitorowania procesów oraz przyrostowego ładowania danych.

Dzięki dołączonym materiałom PDF możesz krok po kroku odtworzyć wszystkie ćwiczenia z modułu – bez konieczności ciągłego przewijania nagrań. To znacznie przyspiesza pracę, a do nagrania możesz wrócić jedynie w razie wątpliwości.

Ponadto zyskujesz dostęp do spotkań online z trenerem, podczas których możesz zadać pytania związane z tworzeniem Pipelines, konfiguracją Copy Data, partycjonowaniem czy przyrostowym pobieraniem danych w Microsoft Fabric.

Kod modułu:

DFL

Trener:

Tomasz Libera

Czas trwania nagrań:

4h 50min

Cena:

400zł

Lab PDF:

45 stron

Przewidywany czas na ukończenie modułu:

3 dni

Materiały przydatne do egzaminu:

DP-600 oraz DP-700

Lista lekcji

  • Wprowadzenie
  • Przygotowanie danych – Utworzysz workspace, Lakehouse wraz z przykładowymi danymi z których będziesz korzystać w kolejnych przykładach.
  • Pierwsze transformacje – Tworzenie prostego dataflow (przepływu danych), importującego informacje o filmach z pliku csv do tabeli w Lakehouse.  Zapoznanie z interfejsem i poszczególnymi transformacjami.
  • Zapis do miejsca docelowego – Możliwości dataflow w zakresie konfiguracji zapisu do miejsca docelowego.
  • Zmiana typu źródła poprzez modyfikację skryptu – Modyfikacje skryptu M w Advanced Editor. Nie wszystkie modyfikacje za pomocą interfejsu są możliwe – w tych sytuacjach warto wspomóc się edytorem zaawansowanym, dzięki którego bezpośrednio zmodyfikujesz skrypt w języku M. To nie nowy język którego trzeba się uczyć – kolejne kroki są opisywane przez czytelne funkcje, dzięki czemu zmiany istniejących transformacji nie są trudne.
  • Korzystanie z parametrów – Demonstracja użycia parametrów w DataFlow i przekazywania ich z poziomu Pipeline. Podczas uruchamiania przepływów danych, informacje konfiguracyjne jak nazwa pliku z poprzedniego przykładu warto przekazać jako parametry – wówczas możemy je nadpisywać podczas uruchamiania poprzez Pipelines – co zostanie zaprezentowane w tej demonstracji. Opisany poniżej przykład korzysta z tzw. Public parameters, dostępnych tylko w Dataflow Gen2 CI/CD.
  • Monitorowanie i planowanie wykonania dataflow – Możliwości monitorowania są istotne ze względu na rozwiązywanie problemów podczas pracy z Fabric i projektowanie przepływów danych. 
  • Dołączanie zapytań – Prezentacja jak ładować dane łącząc wiersze z kilku plików w jeden (odpowiednik UNION w SQL). 
  • Scalanie zapytań (Merge) – pliki – Prezentacja jak łączyć dane z wielu źródeł (odpowiednik JOIN w SQL). Źródłem będą pliki CSV, w kolejnym przykładzie poznasz jak odczytując dane z tabel SQL rozwijać kolumny.
  • Scalanie zapytań (Merge) – tabele SQLW tej części przećwiczysz jak łączyć dane z wielu źródeł (odpowiednik JOIN w SQL). Źródłem będą tabele w Fabric SQL Database.
  • Korzystanie z bramy on-prem – W tej części połączysz się z lokalnym serwerem SQL i pobierzesz kilka tabel do Lakehouse korzystając z Dataflow.  Analogiczną lekcję znajdziesz  w module dot. Pipelines. 
  • Wydajność – Dataflows posiadają wbudowane mechanizmy podnoszenia wydajności: fast copy, query folding i staging. W ramach lekcji zostanie przedstawione jak działają i kiedy mogą być stosowane.
    Fast copy to tryb ładowania bardzo dużych zbiorów danych (setki milionów wierszy) do tabeli w Fabric Lakehouse/ Warehouse. Najpierw eksportuje dane z SQL plików pośrednich, następnie ładuje je do Lakehouse.
    Query folding (składanie zapytań) to mechanizm tłumaczenia transformacji w Power Query (M) na zapytania źródłowej bazy danych (np. SQL), a w związku z tym wykonywania ich jak najbliżej źródła danych. Zmniejsza to ilość danych przesyłanych do Fabric, wykorzystuje moc obliczeniową źródła danych (+ indeksy), a tym samym wpływa na znaczne skrócenie czasu trwania.
    Staging to mechanizm buforowania i przechowywania pośrednich wyników przetwarzania danych w OneLake w postaci plików parquet. Przy dużych zbiorach danych staging przyspiesza kolejne kroki transformacji i ładowania. 
  • Przyrostowe kopiowanieWdrożenie przyrostowego kopiowania danych pozwala zasilać miejsce docelowe jedynie nowymi wierszami i modyfikować te, które zmieniły się na źródle. To znacząco wpływa na czas trwania operacji w porównaniu do pełnego zasilenia z nadpisaniem wcześniejszej wersji wierszy. 
  • Quiz
  • Zadanie
  • Rozwiązanie zadania

Opinie kursantów