• Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy

Poprawnie zaprojektowane i wdrożone potoki danych mają kluczowe znaczenie dla pomyślnej analizy danych, a także w trakcie uczenia maszynowego. Pozyskanie ogromnych ilości danych z różnych źródeł najczęściej nie stanowi problemu. Nieco trudniejsze jest zaprojektowanie procesu ich przetwarzania w celu dostarczenia kontekstu w taki sposób, aby efektywnie korzystać z posiadanych danych w codziennej pracy organizacji i podejmować dzięki nim rozsądne decyzje.

Podtytuł Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy
Tytuł oryginalny Data Pipelines Pocket Reference: Moving and Processing Data for Analytics
Autor James Densmore
Tłumaczenie Robert Górczyński
Rok wydania 2023
Oprawa Miękka
Format 122x194
Stron 256
Wydawnictwo Helion
49.90 33.93
Do końca promocji pozostało:
Najniższa cena z 30 dni przed promocją:
37.43
szt. Do przechowalni
Wysyłka w ciągu 24 godziny
ISBN 978-83-832-2338-4

Poprawnie zaprojektowane i wdrożone potoki danych mają kluczowe znaczenie dla pomyślnej analizy danych, a także w trakcie uczenia maszynowego. Pozyskanie ogromnych ilości danych z różnych źródeł najczęściej nie stanowi problemu. Nieco trudniejsze jest zaprojektowanie procesu ich przetwarzania w celu dostarczenia kontekstu w taki sposób, aby efektywnie korzystać z posiadanych danych w codziennej pracy organizacji i podejmować dzięki nim rozsądne decyzje.
Oto zwięzły przewodnik przeznaczony dla inżynierów danych, którzy chcą poznać zasady implementacji potoków danych. Wyjaśnia najważniejsze pojęcia związane z potokami danych, opisuje zasady ich tworzenia i implementacji, prezentuje także najlepsze praktyki stosowane przez liderów w branży analizy danych. Dzięki książce zrozumiesz, w jaki sposób potoki danych działają na nowoczesnym stosie danych, poznasz też typowe zagadnienia, które trzeba przemyśleć przed podjęciem decyzji dotyczących implementacji. Dowiesz się, jakie są zalety samodzielnego opracowania rozwiązania, a jakie - zakupu gotowego produktu. Poznasz również podstawowe koncepcje, które mają zastosowanie dla frameworków typu open source, produktów komercyjnych i samodzielnie opracowywanych rozwiązań.

Dowiedz się:
• czym jest potok danych i na czym polega jego działanie
• jak się odbywa przenoszenie i przetwarzanie danych w nowoczesnej infrastrukturze
• jakie narzędzia są szczególnie przydatne do tworzenia potoków danych
• jak używać potoków danych do analizy i tworzenia raportów
• jakie są najważniejsze aspekty obsługi potoków, ich testowania i rozwiązywania problemów

Poznaj najlepsze praktyki projektowania i implementacji potoków danych!

Wprowadzenie

Rozdział 1. Wprowadzenie do potoków danych
Czym jest potok danych?
Kto tworzy potok danych?
Podstawy pracy z SQL i hurtowniami danych
Python i/lub Java
Przetwarzanie rozproszone
Podstawowa administracja systemem
Nastawienie bazujące na celach
Dlaczego w ogóle są tworzone potoki danych?
Jak jest tworzony potok danych?

Rozdział 2. Nowoczesna infrastruktura danych
Różnorodność źródeł danych
Własność źródła danych
Interfejs pobierania danych i ich struktura
Wolumen danych
Czystość danych i ich weryfikacja
Opóźnienie i przepustowość systemu źródłowego
Jezioro danych i hurtownia danych w chmurze
Narzędzia pobierania danych
Przekształcanie danych i narzędzia modelowania
Platformy narzędzi koordynacji sposobu pracy
Skierowany graf acykliczny
Dostosowanie infrastruktury danych do własnych potrzeb

Rozdział 3. Najczęściej spotykane wzorce potoków danych
ETL i ELT
Pojawienie się ELT po ETL
Podwzorzec EtLT
ELT w analizie danych
ELT dla naukowca
ELT dla produktów danych i uczenia maszynowego
Etapy potoku danych dla uczenia maszynowego
Wykorzystanie informacji zwrotnych w potoku
Więcej zasobów dotyczących potoków danych dla uczenia maszynowego

Rozdział 4. Pobieranie danych - wyodrębnianie
Przygotowanie środowiska Pythona
Przygotowanie plikowego magazynu danych w chmurze
Wyodrębnianie danych z bazy danych MySQL
Pełne i przyrostowe wyodrębnianie danych z tabeli MySQL
Binarny dziennik zdarzeń replikacji danych MySQL
Wyodrębnianie danych z bazy danych PostgreSQL
Pełne i przyrostowe wyodrębnianie danych z tabeli PostgreSQL
Replikacja danych za pomocą dziennika zdarzeń WAL
Wyodrębnianie danych z API REST
Wyodrębnianie danych z bazy danych MongoDB
Strumieniowane pobieranie danych za pomocą Kafki i Debezium

Rozdział 5. Pobieranie danych - wczytywanie
Konfiguracja hurtowni danych Amazon Redshift jako miejsca docelowego
Wczytywanie danych do hurtowni danych Redshift
Wczytywanie przyrostowe a pełne
Wczytywanie danych wyodrębnionych z dziennika zdarzeń CDC
Konfiguracja hurtowni danych Snowflake jako miejsca docelowego
Wczytywanie danych do hurtowni danych Snowflake
Używanie plikowego magazynu danych jako jeziora danych
Frameworki typu open source
Alternatywy komercyjne

Rozdział 6. Przekształcanie danych
Przekształcenia pozbawione kontekstu
Usunięcie powtarzających się rekordów w tabeli
Przetwarzanie adresów URL
Kiedy powinno odbywać się przekształcanie - podczas pobierania danych czy już po?
Podstawy modelowania danych
Najważniejsze pojęcia związane z modelowaniem danych
Modelowanie w pełni odświeżonych danych
Powolna zmiana wymiarów w celu pełnego odświeżenia danych
Modelowanie przyrostowo pobieranych danych
Modelowanie danych, które są tylko dołączane
Modelowanie zmiany przechwytywanych danych

Rozdział 7. Narzędzia instrumentacji potoków danych
Skierowany graf acykliczny
Konfiguracja Apache Airflow i ogólne omówienie tego frameworka
Instalacja i konfiguracja
Baza danych Apache Airflow
Serwer WWW i interfejs użytkownika
Harmonogram
Wykonawca
Operatory
Tworzenie skierowanego grafu acyklicznego za pomocą Apache Airflow
Prosty skierowany graf acykliczny
Skierowany graf acykliczny potoku danych ELT
Dodatkowe zadania potoku danych
Komunikaty i powiadomienia
Weryfikacja danych
Zaawansowane konfiguracje koordynacji
Połączone a niepołączone zadania potoku danych
Kiedy podzielić skierowany graf acykliczny?
Koordynacja wielu grafów za pomocą operatora Sensor
Zarządzane opcje Apache Airflow
Inne frameworki koordynacji

Rozdział 8. Weryfikacja danych w potoku
Weryfikuj wcześnie i często
Jakość danych w systemie źródłowym
Niebezpieczeństwa związane z pobieraniem danych
Umożliwienie analitykowi weryfikacji danych
Prosty framework weryfikacji
Kod frameworka weryfikacji
Struktura testu weryfikacyjnego
Wykonywanie testu weryfikacyjnego
Używanie frameworka w skierowanym grafie acyklicznym Apache Airflow
Kiedy zatrzymać wykonywanie potoku, a kiedy tylko wygenerować ostrzeżenie i kontynuować potok?
Rozbudowa frameworka
Przykłady testów weryfikacyjnych
Powielone rekordy po operacji pobierania danych
Nieoczekiwana zmiana liczby rekordów po operacji pobierania danych
Fluktuacje wartości wskaźników
Komercyjne i niekomercyjne frameworki do weryfikacji danych

Rozdział 9. Najlepsze praktyki podczas pracy z potokiem danych
Obsługa zmian w systemach źródłowych
Wprowadzenie abstrakcji
Obsługa kontraktów danych
Ograniczenia schematu podczas odczytu
Skalowanie złożoności
Standaryzacja pobierania danych
Wielokrotne używanie logiki modelu danych
Zapewnienie spójności zależności

Rozdział 10. Pomiar i monitorowanie wydajności działania potoku danych
Kluczowe wskaźniki potoku
Przygotowanie hurtowni danych
Schemat infrastruktury danych
Rejestrowanie danych i sprawdzanie wydajności działania operacji pobierania danych
Pobieranie z Apache Airflow historii wykonania poszczególnych skierowanych grafów acyklicznych
Dodawanie funkcjonalności rejestrowania danych do frameworka weryfikacji danych
Przekształcanie danych dotyczących wydajności działania
Wskaźnik sukcesu skierowanego grafu acyklicznego
Zmiana czasu wykonywania skierowanego grafu acyklicznego na przestrzeni czasu
Liczba testów weryfikacyjnych i współczynnik sukcesu
Koordynacja wydajności działania potoku
Skierowany graf acykliczny dotyczący wydajności działania
Przejrzystość wydajności działania

Skorowidz

James Densmore jest dyrektorem do spraw infrastruktury danych na potrzeby analityki biznesowej w HubSpot, a także założycielem i głównym konsultantem w Data Liftoff. Od ponad dziesięciu lat kieruje zespołami inżynierów danych i zajmuje się projektowaniem infrastruktury danych.

Nie ma jeszcze komentarzy ani ocen dla tego produktu.

Polub nas na Facebooku