Strona główna > Przedmiot: Hurtownie danych

Przedmiot: Hurtownie danych

Program wykładów obejmuje następujące zagadnienia:

·        wprowadzenie do problematyki analizy danych, hurtowni danych i business intelligence (uzasadnienie potrzeby wykorzystywania tych technologii),

·        architektury systemu hurtowni danych (podstawowa ETL, z warstwą ODS, z warstwą data mart, architektura ELT, BigData),

·        modelowanie danych (konceptualny model wielowymiarowy, implementacja relacyjna – schematy gwiazdy, płatka śniegu, konstelacji faktów wraz z ich oceną, implementacja wielowymiarowa),

·        problematyka modelowania wymiarów ze szczególnym uwzględnieniem problematyki wymiarów wolnozmiennych,

·        problematyka integracji danych dla hurtowni danych,

·        projektowanie warstwy ETL,

·        struktury fizyczne (indeks B-drzewo, bitmapowy, połączeniowy, bitmapowy połączeniowy),

·        optymalizacja zapytań analitycznych (tzw. zapytań gwiaździstych),

·        optymalizacja operacji grupowania (algorytmy optymalizujące),

·        problematyka materializowania wyników zapytań i wyboru zbioru zmaterializowanych wyników,

·        kompresja danych i indeksów,

·        partycjonowanie danych.

 

Zajęcia laboratoryjne prowadzone są w formie czterech 4-godzinnych zajęć, odbywających się w laboratorium. Program zajęć podzielono na osiem części:

1.      Wprowadzenie do środowiska ćwiczeniowego

·       studium przypadku,

·       źródła danych,

·       schemat hurtowni danych,

·       podstawy metodyki Agile BI.

2.      Wprowadzenie do obsługi narzędzia Pentaho Data Integration

·       podstawowe pojęcia,

·       repozytorium,

·       transformacja oparta na jednym źródle danych,

·       transformacja podrzędna.

3.      Obsługa wielu źródeł danych

·       rozbudowa istniejących transformacji i transformacji podrzędnych o dodatkowe źródło danych,

·       sterowanie ścieżką przepływu danych,

·       metody łączenia danych.

4.      Dodatkowe transformacje

·       metody eliminowania duplikatów,

·       automatyczne generowanie danych dla wymiarów,

·       zasilanie tabeli faktów.

·       podstawy metodyki Agile BI.

5.      Zaawansowane transformacje

·       źródła danych oparte na plikach CSV,

·       wykrywanie zmian w źródłach danych,

·       operacyjna składnica danych,

·       odświeżanie hurtowni danych.

6.      Nowoczesne źródła danych

·       dokumenty XML,

·       usługi sieciowe.

7.      Profilowanie i czyszczenia danych, dane historyczne

·       wykrywanie błędów w danych (dane referencyjne, wzorce danych),

·       automatyczne poprawianie błędów,

·       naprawianie błędów w źródłach danych,

·       modyfikacja transformacji w celu przechowywania danych historycznych dla zmieniających się wymiarów.

8.      Poprawa wydajności procesu ETL, tematyczne hurtownie danych

·       masowe ładowanie danych (Oracle, PostgreSQL, MySQL)

·       wyliczanie agregatów z danych,

·       przykład tematycznej hurtowni danych.

 

Zajęcia są prowadzone w formie zajęć ćwiczeniowych przy komputerach, przy czym każdy student pracuje samodzielnie. Każde zadanie jest poprzedzone krótką prezentacją a następnie omówione zagadnienia są ćwiczone w praktyce.