Przedmiot: Hurtownie danych – Informatyka w Procesach Biznesowych

Program wykładów obejmuje następujące zagadnienia:

· wprowadzenie do problematyki analizy danych, hurtowni danych i business intelligence (uzasadnienie potrzeby wykorzystywania tych technologii),

· architektury systemu hurtowni danych (podstawowa ETL, z warstwą ODS, z warstwą data mart, architektura ELT, BigData),

· modelowanie danych (konceptualny model wielowymiarowy, implementacja relacyjna – schematy gwiazdy, płatka śniegu, konstelacji faktów wraz z ich oceną, implementacja wielowymiarowa),

· problematyka modelowania wymiarów ze szczególnym uwzględnieniem problematyki wymiarów wolnozmiennych,

· problematyka integracji danych dla hurtowni danych,

· projektowanie warstwy ETL,

· struktury fizyczne (indeks B-drzewo, bitmapowy, połączeniowy, bitmapowy połączeniowy),

· optymalizacja zapytań analitycznych (tzw. zapytań gwiaździstych),

· optymalizacja operacji grupowania (algorytmy optymalizujące),

· problematyka materializowania wyników zapytań i wyboru zbioru zmaterializowanych wyników,

· kompresja danych i indeksów,

· partycjonowanie danych.

Zajęcia laboratoryjne prowadzone są w formie czterech 4-godzinnych zajęć, odbywających się w laboratorium. Program zajęć podzielono na osiem części:

1. Wprowadzenie do środowiska ćwiczeniowego

· studium przypadku,

· źródła danych,

· schemat hurtowni danych,

· podstawy metodyki Agile BI.

2. Wprowadzenie do obsługi narzędzia Pentaho Data Integration

· podstawowe pojęcia,

· repozytorium,

· transformacja oparta na jednym źródle danych,

· transformacja podrzędna.

3. Obsługa wielu źródeł danych

· rozbudowa istniejących transformacji i transformacji podrzędnych o dodatkowe źródło danych,

· sterowanie ścieżką przepływu danych,

· metody łączenia danych.

4. Dodatkowe transformacje

· metody eliminowania duplikatów,

· automatyczne generowanie danych dla wymiarów,

· zasilanie tabeli faktów.

· podstawy metodyki Agile BI.

5. Zaawansowane transformacje

· źródła danych oparte na plikach CSV,

· wykrywanie zmian w źródłach danych,

· operacyjna składnica danych,

· odświeżanie hurtowni danych.

6. Nowoczesne źródła danych

· dokumenty XML,

· usługi sieciowe.

7. Profilowanie i czyszczenia danych, dane historyczne

· wykrywanie błędów w danych (dane referencyjne, wzorce danych),

· automatyczne poprawianie błędów,

· naprawianie błędów w źródłach danych,

· modyfikacja transformacji w celu przechowywania danych historycznych dla zmieniających się wymiarów.

8. Poprawa wydajności procesu ETL, tematyczne hurtownie danych

· masowe ładowanie danych (Oracle, PostgreSQL, MySQL)

· wyliczanie agregatów z danych,

· przykład tematycznej hurtowni danych.

Zajęcia są prowadzone w formie zajęć ćwiczeniowych przy komputerach, przy czym każdy student pracuje samodzielnie. Każde zadanie jest poprzedzone krótką prezentacją a następnie omówione zagadnienia są ćwiczone w praktyce.