# Wstęp do eksploracji danych w Pythonie

Ten notatnik pomoże Ci zapoznać się z postawowymi elementami eksploracji danych w Pythonie. Po uzupełnieniu tego notatnika powinieneś:

+ znać nazwy podstawowych bibliotek do eksploracji i wizualizacji danych,
+ umieć wczytać zbiór danych,
+ wiedzieć jak wykonać podstawowe operacje na data frame'ie
+ umieć nauczyć i przetestować klasyfikator
+ wiedzieć jak wykonać prosty wykres

## Biblioteki

Oprócz podstawowych elementów języka, do eksploracji danych wykorzystamy klika bibliotek. Podstawowe biblioteki, które będą nam potrzebne to: `matplotlib`, `pandas`, `numpy` i `sklearn`. Część z potrzebnych modułów załadowałem już poniżej: 

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report, auc, roc_auc_score

**Zad. 3: Załaduj jeszcze dwie biblioteki: pandas z aliasem pd i numpy z aliasem np.**

## Pandas

Najwyższy czas wczytać jakiś zbiór danych. W tym celu wykorzystamy bibliotekę, którą właśnie zaimportowałeś: pandas. Upewnij się, że ściagnięty zbiór danych znajduje się w tym samym folderze co notatnik i podążaj za komentarzami.

**Zad. 4: Wczytaj zbiór titanic do zmiennej `df`.**

In [2]:
# skorzystaj z metody read_csv w module pandas
# ponieważ nadalismy temu modułowi alias, musisz wywołać
# pd.read_csv()
# wyszukaj w Internecie jakie parametry przyjmuje ta funkcja
# wynik wywołania przypisz do zmiennej df

Jeśli wszystko poszło dobrze, to zobaczmy jak wygląda pierwsze 10 wierszy zbioru (funkcję o takiej samej nazwie znasz z R).

**Zad. 5: Wyświetl pierwsze 10 wierszy zbioru.**

Teraz zrobimy coś trochę trudniejszego - odfiltrujemy wybrane kolumny. Warto zajrzeć na http://pandas.pydata.org/pandas-docs/stable/10min.html, żeby zapoznać się z podstawowymi operacjami w pandas.

**Zad. 6: Usuń kolumny PassengerId, Name, Ticket, Cabin. Wynik przypisz do zmiennej `df_filtered`. Wyświetl pierwsze 10 wierszy, żeby upewnić się że operacja się udała.**

Zanim będziemy mogli wykorzystać jakikolwiek algorytm uczenia maszynowego z scikit-learn, musimy zrobić dwie rzeczy:
- uzupełnić (lub usunąć) brakujące wartości
- zamienić wszystkie atrybuty na liczby

Ponieważ dopiero zaczynamy pracę z pandas, wyeliminujemy wartości brakujące w najprostszy mozliwy sposób - usuniemy wiersze z wartościami pustymi

**Zad. 7: Usuń wiersze z brakującymi wartościami i przypisz wynikowego data fame'a do `df_complete`. Wyświetl pierwsze 10 wierszy i sprawdź czy zniknął piąty przykład.**

**Zad. 8: Zamień Sex i Embarked na kolumny liczbowe.**

In [1]:
# tu trochę pomogę...
# musimy zamienić (słowo klucz) wartości tekstowe na liczby
# zrób coś takiego dla kolumny Sex (zignoruj ostrzeżenie):
#
# df_complete.loc[:,"Sex"].replace({"female": 0, "male": 1}, inplace=True)
# df_complete.head(10)
#
# jeśli to się uda - wymyśl coś podobnego dla kolumny Embarked

Pandas (i numpy na którym bazuje) potrafi dużo, dużo więcej, ale na tę chwilę to co zrobiliśmy nam wystarczy.

## Scikit-learn

Czas przejść do uczenia maszynowego. Korzystając z [dokumentacji scikit-learn](http://scikit-learn.org/stable/) oraz slajdów do zajęć, spróbuj wykonać kolejne zadania. Polecam też [tutoriale Kevina Markhama](http://blog.kaggle.com/author/kevin-markham/).

**Zad. 9: Korzystając z scikit-learn podziel `df_complete` na zbiór uczący i testowy, kolejno w proporcjach 60%-40%.**

In [4]:
# to nie jest takie trudne, bo już zaimportowaliśmy odpowiednią funkcję (spójrz na importy)
# doczytaj tylko co zwraca funkcja, której użyjesz - scikit ma trochę inne podejście do zbiorów danych niż np. caret
# postaraj się, aby ten losowy podział był powtarzalny...
# UWAGA: chcemy przewidywać wartość zmiennej Survived

**Zad. 10: Korzystając ze zbioru treningowego zoptymalizuj parametry klasyfikatora RandomForestClassifier. Użyj oceny krzyżowej z miarą AUC.**


In [5]:
# spójrz na slajdy do zajęć, znajdujące się tam fragmenty kodu powinny Cię naprowadzić na rozwiązanie
# uważaj... będziesz musiał zaimportować dodatkową bibliotekę
# upewnij się też, że Twój eksperyment jest powtarzalny...

**Zad. 11: Oceń uzyskany model na zbiorze testowym.**

Jeśli dotarłeś do tego momentu, to gratulacje 👏

## Seaborn

Żeby coś narysować w Pythonie najczęściej korzysta się z biblioteki matplotlib i jakichś nakładek na tę bibliotekę. Matplotlib jest biblioteką względnie niskopoziomową, która mogłaby zostać porównana do podstawowego mechanizmu rysowania w R (tzw. *base plotting system*). Za pomocą matplotliba da się narysować prawie wszystko, z nakładkami jest już gorzej i dlatego często miesza się wykorzystanie różnych bibliotek.

Spróbujmy coś narysować, żeby zakończyć raport obrazkiem. Wykorzystamy w tym celu bibliotekę [seaborn](http://seaborn.pydata.org/index.html). Jeśli nie masz jej zainstalowanej musisz otworzyć terminal Anacondy (*Anaconda Prompt*) i wpisać `conda install seaborn`.

In [6]:
# najpierw odrobina magii
# jeśli chcemy żeby wykresy rysowały nam się w raporcie to musimy wykonać instrukcję
%matplotlib inline

In [7]:
# dodatkowo zaimportujmy przydatne biblioteki i ustawmy domyślny styl wykresów
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style="whitegrid")

**Zad. 12: Skorzystaj z `violinplot` żeby porównać ceny biletów (Fare) dla różnych klas (Pclass). Jako palety kolorów użyj jednej z palet z [ColorBrewera](http://colorbrewer2.org/#type=qualitative&scheme=Set1&n=3)**

## Plotnine

Sprawdź co pamiętasz z ggplota! Narysuj wykres przeżywalności mężczyzn i kobiet (`Sex`) z podziałem na typy biletów (`Pclass`)