Wstępne przetwarzanie danych

Dariusz Brzeziński

Agenda

  • Podstawy organizacji danych
  • Czytanie i zapisywania zbiorów danych
  • dplyr
    • filtrowanie
    • sortowanie
    • grupowanie
    • operator %>%

Slajdy przygotowane w oparciu o materiały Jeffreya Leeka.

Podstawy organizacji danych

Każda analiza danych powinna posiadać co najmniej cztery pliki:

  1. Oryginalny (surowy) zbiór danych
  2. Wyczyszczony zbiór danych
  3. Opis zmiennych w wyczyszczonym zbiorze
  4. Dokładną instrukcję jak z 1. powstały 2., 3.

Przykłady "surowych" danych

  • Coś co ściągnęliśmy bezpośrednio z internetu
  • Format binarny, który dostaliśmy z jakiejś maszyny
  • Ręcznie wprowadzone dane przez ekspertów
  • Wyniki ankiet

%>%

chicago %>% mutate(month=as.POSIXlt(date)$mon+1) 
    %>% group_by(month) 
    %>% summarize(pm25=mean(pm25, na.rm=TRUE), 
          o3=max(o3tmean2, na.rm=TRUE), 
          no2=median(no2tmean2, na.rm=TRUE))
# A tibble: 12 x 4
   month  pm25    o3   no2
   <dbl> <dbl> <dbl> <dbl>
 1     1  17.8  28.2  25.4
 2     2  20.4  37.4  26.8
 3     3  17.4  39.0  26.8
 4     4  13.9  47.9  25.0
 5     5  14.1  52.8  24.2
 6     6  15.9  66.6  25.0
 7     7  16.6  59.5  22.4
 8     8  16.9  54.0  23.0
 9     9  15.9  57.5  24.5
10    10  14.2  47.1  24.2
11    11  15.2  29.5  23.6
12    12  17.5  27.7  24.5

Podsumowanie

  • Podstawy organizacji danych
  • Czytanie i zapisywania zbiorów danych
  • dplyr
    • filtrowanie
    • sortowanie
    • grupowanie
    • operator %>%

Zadanie domowe

Dodajemy nowy kurs do instalacji swirl.pl:

library(swirl.pl)
install_from_swirl("Przetwarzanie_danych")

Wykonujemy lekcje z kursu Przetwarzanie danych:

swirl()