Powtarzalne eksperymenty i raportowanie

Dariusz Brzeziński

Agenda

  • Powtarzalne eksperymenty
  • knitr
    • Markdown
    • bloki kodu
    • lokalne ustawienia
    • globalne ustawienia
    • cache

Częste problemy

  • Twórcy algorytmów muszą włożyć dodatkowy wysiłek by oprócz artykułu opublikować kod
  • Czytelnicy tych artykułów muszą z kolei samemu łączyć kod z opisem
  • Dane, kod, opis nie są ze sobą powiązane
  • Ciężko odtworzyć eksperymenty innych autorów
  • Problemy te dotyczą prac naukowych jak i raportów w firmach

Podstawy powtarzalnej analizy danych

  • Zdecydować, że analiza będzie powtarzalna
  • Korzystać z repozytorium
  • Wykorzystać oprogramowanie, gdzie można zaprogramować kolejne kroki
  • Nie zapisywać wyników końcowych
  • Korzystać z otwartych formatów danych

Podsumowanie

  • Powtarzalne eksperymenty
  • knitr
    • Markdown
    • bloki kodu
    • ustawienia lokalne
    • ustawienia globalne
    • cache

Zadanie

Pobierz zbiór danych tb, zawierający informacje o liczbie zachorowań na gruźlice w poszczególnych krajach w kolejnych latach.

devtools::install_github("rstudio/EDAWR")
library(EDAWR)
head(tb)

Zadanie

Przygotuj raport, który:

  1. Wczytuje dane (ładuje odpowiednie biblioteki)
  2. Cache'uje blok wczytujący dane
  3. Prezentuje krótkie podsumowanie danych w zbiorze
  4. Prezentuje liczbę zachorowań z podziałem na płeć
  5. Prezentuje na wykresie liniowym sumaryczną liczbę zachorowań wśród dzieci, dorosłych i osób starszych w kolejnych latach
  6. Prezentuje wykresy jak w punkcie 5, ale osobno dla każdego kraju