Program wykładów obejmuje następujące zagadnienia:
· wprowadzenie do problematyki analizy danych, hurtowni danych i business intelligence (uzasadnienie potrzeby wykorzystywania tych technologii), · architektury systemu hurtowni danych (podstawowa ETL, z warstwą ODS, z warstwą data mart, architektura ELT, BigData), · modelowanie danych (konceptualny model wielowymiarowy, implementacja relacyjna – schematy gwiazdy, płatka śniegu, konstelacji faktów wraz z ich oceną, implementacja wielowymiarowa), · problematyka modelowania wymiarów ze szczególnym uwzględnieniem problematyki wymiarów wolnozmiennych, · problematyka integracji danych dla hurtowni danych, · projektowanie warstwy ETL, · struktury fizyczne (indeks B-drzewo, bitmapowy, połączeniowy, bitmapowy połączeniowy), · optymalizacja zapytań analitycznych (tzw. zapytań gwiaździstych), · optymalizacja operacji grupowania (algorytmy optymalizujące), · problematyka materializowania wyników zapytań i wyboru zbioru zmaterializowanych wyników, · kompresja danych i indeksów, · partycjonowanie danych.
|
Zajęcia laboratoryjne prowadzone są w formie czterech 4-godzinnych zajęć, odbywających się w laboratorium. Program zajęć podzielono na osiem części:
1. Wprowadzenie do środowiska ćwiczeniowego · studium przypadku, · źródła danych, · schemat hurtowni danych, · podstawy metodyki Agile BI. 2. Wprowadzenie do obsługi narzędzia Pentaho Data Integration · podstawowe pojęcia, · repozytorium, · transformacja oparta na jednym źródle danych, · transformacja podrzędna. 3. Obsługa wielu źródeł danych · rozbudowa istniejących transformacji i transformacji podrzędnych o dodatkowe źródło danych, · sterowanie ścieżką przepływu danych, · metody łączenia danych. 4. Dodatkowe transformacje · metody eliminowania duplikatów, · automatyczne generowanie danych dla wymiarów, · zasilanie tabeli faktów. · podstawy metodyki Agile BI. 5. Zaawansowane transformacje · źródła danych oparte na plikach CSV, · wykrywanie zmian w źródłach danych, · operacyjna składnica danych, · odświeżanie hurtowni danych. 6. Nowoczesne źródła danych · dokumenty XML, · usługi sieciowe. 7. Profilowanie i czyszczenia danych, dane historyczne · wykrywanie błędów w danych (dane referencyjne, wzorce danych), · automatyczne poprawianie błędów, · naprawianie błędów w źródłach danych, · modyfikacja transformacji w celu przechowywania danych historycznych dla zmieniających się wymiarów. 8. Poprawa wydajności procesu ETL, tematyczne hurtownie danych · masowe ładowanie danych (Oracle, PostgreSQL, MySQL) · wyliczanie agregatów z danych, · przykład tematycznej hurtowni danych.
Zajęcia są prowadzone w formie zajęć ćwiczeniowych przy komputerach, przy czym każdy student pracuje samodzielnie. Każde zadanie jest poprzedzone krótką prezentacją a następnie omówione zagadnienia są ćwiczone w praktyce. |