{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# WstÄp do eksploracji danych w Pythonie\n",
    "\n",
    "Ten notatnik pomoĹźe Ci zapoznaÄ siÄ z postawowymi elementami eksploracji danych w Pythonie. Po uzupeĹnieniu tego notatnika powinieneĹ:\n",
    "\n",
    "+ znaÄ nazwy podstawowych bibliotek do eksploracji i wizualizacji danych,\n",
    "+ umieÄ wczytaÄ zbiĂłr danych,\n",
    "+ wiedzieÄ jak wykonaÄ podstawowe operacje na data frame'ie\n",
    "+ umieÄ nauczyÄ i przetestowaÄ klasyfikator\n",
    "+ wiedzieÄ jak wykonaÄ prosty wykres"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Biblioteki\n",
    "\n",
    "OprĂłcz podstawowych elementĂłw jÄzyka, do eksploracji danych wykorzystamy klika bibliotek. Podstawowe biblioteki, ktĂłre bÄdÄ",
    " nam potrzebne to: `matplotlib`, `pandas`, `numpy` i `sklearn`. CzÄĹÄ z potrzebnych moduĹĂłw zaĹadowaĹem juĹź poniĹźej: "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {
    "collapsed": true,
    "jupyter": {
     "outputs_hidden": true
    }
   },
   "outputs": [],
   "source": [
    "from sklearn.model_selection import train_test_split\n",
    "from sklearn.model_selection import GridSearchCV\n",
    "from sklearn.metrics import classification_report, auc, roc_auc_score"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "**Zad. 3: ZaĹaduj jeszcze dwie biblioteki: pandas z aliasem pd i numpy z aliasem np.**"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "collapsed": true,
    "jupyter": {
     "outputs_hidden": true
    }
   },
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Pandas\n",
    "\n",
    "NajwyĹźszy czas wczytaÄ jakiĹ zbiĂłr danych. W tym celu wykorzystamy bibliotekÄ, ktĂłrÄ",
    " wĹaĹnie zaimportowaĹeĹ: pandas. Upewnij siÄ, Ĺźe ĹciagniÄty zbiĂłr danych znajduje siÄ w tym samym folderze co notatnik i podÄ",
    "Ĺźaj za komentarzami.\n",
    "\n",
    "**Zad. 4: Wczytaj zbiĂłr titanic do zmiennej `df`.**"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "# skorzystaj z metody read_csv w module pandas\n",
    "# poniewaĹź nadalismy temu moduĹowi alias, musisz wywoĹaÄ\n",
    "# pd.read_csv()\n",
    "# wyszukaj w Internecie jakie parametry przyjmuje ta funkcja\n",
    "# wynik wywoĹania przypisz do zmiennej df"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "JeĹli wszystko poszĹo dobrze, to zobaczmy jak wyglÄ",
    "da pierwsze 10 wierszy zbioru (funkcjÄ o takiej samej nazwie znasz z R).\n",
    "\n",
    "**Zad. 5: WyĹwietl pierwsze 10 wierszy zbioru.**"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Teraz zrobimy coĹ trochÄ trudniejszego - odfiltrujemy wybrane kolumny. Warto zajrzeÄ na http://pandas.pydata.org/pandas-docs/stable/10min.html, Ĺźeby zapoznaÄ siÄ z podstawowymi operacjami w pandas.\n",
    "\n",
    "**Zad. 6: UsuĹ kolumny PassengerId, Name, Ticket, Cabin. Wynik przypisz do zmiennej `df_filtered`. WyĹwietl pierwsze 10 wierszy, Ĺźeby upewniÄ siÄ Ĺźe operacja siÄ udaĹa.**"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Zanim bÄdziemy mogli wykorzystaÄ jakikolwiek algorytm uczenia maszynowego z scikit-learn, musimy zrobiÄ dwie rzeczy:\n",
    "- uzupeĹniÄ (lub usunÄ",
    "Ä) brakujÄ",
    "ce wartoĹci\n",
    "- zamieniÄ wszystkie atrybuty na liczby\n",
    "\n",
    "PoniewaĹź dopiero zaczynamy pracÄ z pandas, wyeliminujemy wartoĹci brakujÄ",
    "ce w najprostszy mozliwy sposĂłb - usuniemy wiersze z wartoĹciami pustymi\n",
    "\n",
    "**Zad. 7: UsuĹ wiersze z brakujÄ",
    "cymi wartoĹciami i przypisz wynikowego data fame'a do `df_complete`. WyĹwietl pierwsze 10 wierszy i sprawdĹş czy zniknÄ",
    "Ĺ piÄ",
    "ty przykĹad.**"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "**Zad. 8: ZamieĹ Sex i Embarked na kolumny liczbowe.**"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "# tu trochÄ pomogÄ...\n",
    "# musimy zamieniÄ (sĹowo klucz) wartoĹci tekstowe na liczby\n",
    "# zrĂłb coĹ takiego dla kolumny Sex (zignoruj ostrzeĹźenie):\n",
    "#\n",
    "# df_complete.loc[:,\"Sex\"].replace({\"female\": 0, \"male\": 1}, inplace=True)\n",
    "# df_complete.head(10)\n",
    "#\n",
    "# jeĹli to siÄ uda - wymyĹl coĹ podobnego dla kolumny Embarked"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Pandas (i numpy na ktĂłrym bazuje) potrafi duĹźo, duĹźo wiÄcej, ale na tÄ chwilÄ to co zrobiliĹmy nam wystarczy."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Scikit-learn\n",
    "\n",
    "Czas przejĹÄ do uczenia maszynowego. KorzystajÄ",
    "c z [dokumentacji scikit-learn](http://scikit-learn.org/stable/) oraz slajdĂłw do zajÄÄ, sprĂłbuj wykonaÄ kolejne zadania. Polecam teĹź [tutoriale Kevina Markhama](http://blog.kaggle.com/author/kevin-markham/).\n",
    "\n",
    "**Zad. 9: KorzystajÄ",
    "c z scikit-learn podziel `df_complete` na zbiĂłr uczÄ",
    "cy i testowy, kolejno w proporcjach 60%-40%.**"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [],
   "source": [
    "# to nie jest takie trudne, bo juĹź zaimportowaliĹmy odpowiedniÄ",
    " funkcjÄ (spĂłjrz na importy)\n",
    "# doczytaj tylko co zwraca funkcja, ktĂłrej uĹźyjesz - scikit ma trochÄ inne podejĹcie do zbiorĂłw danych niĹź np. caret\n",
    "# postaraj siÄ, aby ten losowy podziaĹ byĹ powtarzalny...\n",
    "# UWAGA: chcemy przewidywaÄ wartoĹÄ zmiennej Survived"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "**Zad. 10: KorzystajÄ",
    "c ze zbioru treningowego zoptymalizuj parametry klasyfikatora RandomForestClassifier. UĹźyj oceny krzyĹźowej z miarÄ",
    " AUC.**\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [],
   "source": [
    "# spĂłjrz na slajdy do zajÄÄ, znajdujÄ",
    "ce siÄ tam fragmenty kodu powinny CiÄ naprowadziÄ na rozwiÄ",
    "zanie\n",
    "# uwaĹźaj... bÄdziesz musiaĹ zaimportowaÄ dodatkowÄ",
    " bibliotekÄ\n",
    "# upewnij siÄ teĹź, Ĺźe TwĂłj eksperyment jest powtarzalny..."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "**Zad. 11: OceĹ uzyskany model na zbiorze testowym.**"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "JeĹli dotarĹeĹ do tego momentu, to gratulacje đ"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Seaborn\n",
    "\n",
    "Ĺťeby coĹ narysowaÄ w Pythonie najczÄĹciej korzysta siÄ z biblioteki matplotlib i jakichĹ nakĹadek na tÄ bibliotekÄ. Matplotlib jest bibliotekÄ",
    " wzglÄdnie niskopoziomowÄ",
    ", ktĂłra mogĹaby zostaÄ porĂłwnana do podstawowego mechanizmu rysowania w R (tzw. *base plotting system*). Za pomocÄ",
    " matplotliba da siÄ narysowaÄ prawie wszystko, z nakĹadkami jest juĹź gorzej i dlatego czÄsto miesza siÄ wykorzystanie rĂłĹźnych bibliotek.\n",
    "\n",
    "SprĂłbujmy coĹ narysowaÄ, Ĺźeby zakoĹczyÄ raport obrazkiem. Wykorzystamy w tym celu bibliotekÄ [seaborn](http://seaborn.pydata.org/index.html). JeĹli nie masz jej zainstalowanej musisz otworzyÄ terminal Anacondy (*Anaconda Prompt*) i wpisaÄ `conda install seaborn`."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {
    "scrolled": true
   },
   "outputs": [],
   "source": [
    "# najpierw odrobina magii\n",
    "# jeĹli chcemy Ĺźeby wykresy rysowaĹy nam siÄ w raporcie to musimy wykonaÄ instrukcjÄ\n",
    "%matplotlib inline"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [],
   "source": [
    "# dodatkowo zaimportujmy przydatne biblioteki i ustawmy domyĹlny styl wykresĂłw\n",
    "import matplotlib.pyplot as plt\n",
    "import seaborn as sns\n",
    "sns.set(style=\"whitegrid\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "**Zad. 12: Skorzystaj z `violinplot` Ĺźeby porĂłwnaÄ ceny biletĂłw (Fare) dla rĂłĹźnych klas (Pclass). Jako palety kolorĂłw uĹźyj jednej z palet z [ColorBrewera](http://colorbrewer2.org/#type=qualitative&scheme=Set1&n=3)**"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Plotnine\n",
    "\n",
    "SprawdĹş co pamiÄtasz z ggplota! Narysuj wykres przeĹźywalnoĹci mÄĹźczyzn i kobiet (`Sex`) z podziaĹem na typy biletĂłw (`Pclass`)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "anaconda-cloud": {},
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.8"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}