Statystyka i Analiza danych¶

Laboratorium 2 - Wprowadzenie do R¶

options(repr.plot.width = 10, repr.plot.height = 10)

Konsola języka R może służyć jako kalkulator. Wypróbuj podstawowe operacje arytmetyczne: dodawanie, odejmowanie, dzielenie, mnożenie, potęgowanie (^), operator modulo (%%). Aby wykonać kod z pola naciśnij Ctrl+Enter, aby skorzystać w autouzupełniania wciśnij Tab.

2^8

5/2

Szeregi rozdzielcze¶

Szeregi rozdzielcze można łatwo skonstruować w pakiecie R. W tym celu najpierw wprowadźmy do systemu nasze dane. Możemy to zrobić np. poprzez ręczne utworzenie wektora z danymi wydając polecenie:

dane <- c(1123, 198, 473, 784, 305, 423, 397, 298, 698, 237)

Operator <- oznacza przypisanie, a funkcja c() tworzy z podanych liczb wektor. Wektor w R nie koniecznie musi zawierać liczby -- może to być dowolny typ danych np. ciąg znaków, jednakże dane w całym wektorze zawsze muszą być jednakowego typu.

Aby utworzyć szereg rozdzielczy musimy podzielić nasze dane na przedziały. Możemy zrobić to za pomocą funkcji cut(dane, breaks=liczba_przedziałów) w której musimy ręcznie wyspecyfikować liczbę przedziałów poprzez podanie argumentu breaks=. Załóżmy, że dla naszego krótkiego wektora danych wystarczą 3 przedziały i wywołajmy polecenie:

dane_w_przedzialach <- cut(dane, breaks = 3)
print(dane_w_przedzialach)

 [1] (815,1.12e+03] (197,506]      (197,506]      (506,815]      (197,506]     
 [6] (197,506]      (197,506]      (197,506]      (506,815]      (197,506]     
Levels: (197,506] (506,815] (815,1.12e+03]

Utworzona właśnie zmienna dane_w_przedzialach nie jest już wektorem, ale zmienną typu factor.

is.vector(dane_w_przedzialach)
is.factor(dane_w_przedzialach)

Stało się tak dlatego, że funkcja cut() po określeniu zakresu przedziałów automatycznie przekonwertowała wszystkie wartości wektora dane na nazwy odpowiadających im przedziałów. Dane zmieniły więc swój typ i są teraz typu jakościowego. Zwróć uwagę, że po wypisaniu zawartości naszej zmiennej pojawiła się dodatkowa linijka Levels: ... która pokazuje kolejne możliwe wartości naszej zmiennej nominalnej.

Mając tak przygotowane dane, wystarczy zliczyć wartości poszczególnych przedziałów funkcją table().

table(dane_w_przedzialach)

dane_w_przedzialach
     (197,506]      (506,815] (815,1.12e+03] 
             7              2              1

Ćwiczenia¶

Podczas wykonywania tutoriala poznałeś typ factor służący do przechowywania wartości nominalnych. Możesz przekonwertować wektor tekstów do wektora typu factor poprzez wywołanie factor(nazwa_wektora).

Stwórz wektor o wartościach ["Mężczyzna", "Kobieta", "Kobieta", "Mężczyzna", "Mężczyzna"] i przekonwertuj do typu factor.

Bez konwersji na factor:

gender_string<-c("Mężczyzna", "Kobieta", "Kobieta", "Mężczyzna", "Mężczyzna")

Spróbuj porównać (np. znakiem większości) pierwszy i drugi element nowo utworzonego wektora.

gender_string[1]>gender_string[2]

^Nastąpiło porównanie leksykograficzne. Chcemy żeby wektor przechowywał wartości nominalne (a nie ciągi znaków), więc potrzebna jest konwersja na factor (i przypisanie wyniku konwersji do zmiennej):

gender_factor  <- factor(gender_string)

gender_factor[1]>gender_factor[2]

Warning message in Ops.factor(gender_factor[1], gender_factor[2]):
“‘>’ not meaningful for factors”

Możliwe jest też utworzenie wektora wartości porządkowych:

gender_ordered  <- factor(gender_string, ordered = T)

gender_ordered[1]>gender_ordered[2]

Zmiana porządku wartości wektora:

gender_ordered  <- factor(gender_string, ordered = T, levels = c("Mężczyzna", "Kobieta"))

gender_ordered[1]>gender_ordered[2]

Typ wektorowy pozwala na przechowywanie danych tylko jednego typu. Co się stanie jeśli spróbujesz utworzyć wektor zawierający np. liczby i ciągi znaków?

c(1,"SD")

Poniższy wektor

ulubiony_przedmiot <- c("SiAD", "PP", "PO", "AiSD", "MD", "PO", "SiAD", "SiAD", "SiAD", "AiSD", "SiAD", "PO", "SiAD", "PP", "SiAD", "SiAD")

zawiera dane o ulubionych przedmiotach studentów. Stwórz tablekę pokazującą ilu studentów lubi dany przedmiot.

table(ulubiony_przedmiot)

ulubiony_przedmiot
AiSD   MD   PO   PP SiAD 
   2    1    3    2    8

Operacje na wektorach¶

Język R, podobnie jak poznany na przedmiocie ,,Narzędzia informatyki'' MATLAB/Octave, operuje na wektorach i macierzach. Pracując w R możesz więc wykonywać operacje na całych wektorach (tak samo jak w MATLAB).

Dla szybkiego przypomnienia, przetestuj w R następujące komendy:

dane <- c(1123, 198, 473, 784, 305, 423, 397, 298, 698, 237)
dane*2

dane[5]

dane[c(1,5)]

dane > 500

dane[dane > 500]

Ćwiczenia¶

Spróbuj wyciągnąć z wektora dane element o niecałkowitym indeksie np.~2.5. Co się stało?

dane[2.5]

Wypisz z wektora dane wszystkie liczby parzyste.

dane[dane%%2 == 0]

Oprócz funkcji c() możemy stworzyć wektor poprzez wywołanie funkcji seq(od, do, co_ile) np. seq(1,10,1) wypisze wszystkie liczby od 1 do 10. W przypadku generowania kolejnych cyfr można też posłużyć się konstrukcją od:do np. 1:10.

Wygeneruj wszystkie liczby od 1 do 20

1:20

Wygeneruj wszystkie liczby parzyste mniejsze od 50

seq(2,49,2)

Wygeneruj wszystkie wielokrotności liczby 3 mniejsze od 100, a następnie zlicz ile z nich kończy się daną cyfrą.

table((seq(3,99,3))%%10)

0 1 2 3 4 5 6 7 8 9 
3 3 3 4 3 3 4 3 3 4

Przekonwertuj podane temperatury w Fahrenheitach na stopnie Celsjusza fahrenheit<-c(32, 59, 86). Wzór na konwersję masz podany poniżej. $$c = \frac{(f-32)\cdot 5}{9}$$

fahrenheit<-c(32, 59, 86)
(fahrenheit-32)*5/9

Jeżeli x<-c(5,9,2,3,4,6,7,0,8,12,2,9) to co zwrócą poniższe komendy? Odpowiedz a następnie sprawdź swoje hipotezy w R.

x[2]
x[2:4]
x[c(2,3,6)]
x[c(1:5,10:12)]
x[-(10:12)]

x<-c(5,9,2,3,4,6,7,0,8,12,2,9)
x[2]
x[2:4]
x[c(2,3,6)]
x[c(1:5,10:12)]
x[-(10:12)]

Dane zawierają sprzedaż mleka w litrach dla 5 dni w 3 różnych sklepach (pierwsze 3 wartości są sprzedażą mleka w poniedziałek w kolejnych sklepach). Wygeneruj podsumowanie statystyczne sprzedaży (średnia, mediana, kwartyle) dla każdego ze sklepów.

y<-c(33,44,29,16,25,45,33,19,54,22,21,49,11,24,56)

W rozwiązaniu poniżej pojawiają się dwie przydatne funkcje: paste - konkatenacja ciągów znaków, domyślnie separatorem jest spacja, można to zmienić za pomocą argumentu sep oraz summary - 5-liczbowe podsumowanie (minimum, 1QR, mediana, 3QR, maksimum) + średnia

for (i in 1:3){
    print(paste("podsumowanie sklep",i, sep=" nr "))
    print(summary(y[seq(i,length(y), 3)]))
}

[1] "podsumowanie sklep nr 1"
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
     11      16      22      23      33      33 
[1] "podsumowanie sklep nr 2"
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   19.0    21.0    24.0    26.6    25.0    44.0 
[1] "podsumowanie sklep nr 3"
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   29.0    45.0    49.0    46.6    54.0    56.0

Graficzna analiza danych w R¶

Jednym z popularnych zastosowań analizy danych w ostatnich latach jest analiza wydźwięku (ang. sentiment analysis). Firmy takie jak np. Samsung czy Apple chcąc dowiedzieć się co (nie) podoba się użytkownikom w ich produktach analizując wpisy pojawiające się na portalach takich jak Twitter czy Facebook.

Na każdym takim wpisie (,,tweecie'') dotyczącym np. nowego modelu smartfona jest przeprowadzana analiza statystyczna, która przydziela mu liczbę z pewnego zakresu np. od 1 do 10. Tę liczbę będziemy nazywać współczynnikiem wydźwięku. Wysokie wartości tego współczynnika, bliskie 10, oznaczają wpisy silnie pozytywne (,,Kocham mojego nowego Galaxy S6!!!''), a wartości niskie oznaczają wpisy niezadowolonych użytkowników (,,Co za badziew! #rozczarowanie'').

W tym ćwiczeniu będziesz pracował na właśnie takich danych, które zostały już specjalnie przetworzone i ułożone w tabelki, abyś nie musiał dokonywać żmudnych manipulacji na tekstach. Twoim zadaniem jest dokonanie graficznej analizy danych, podczas której powinieneś dowiedzieć się czego dotyczą analizowane wpisy (nie są to wpisy dot. smartfonów jak w przykładzie wyżej).

Powodzenia!

Część 1: Czego dotyczą zebrane tweety?¶

Na początku przygotuj twoje środowisko pracy poprzez wywołanie polecenia, które ściągnie z Internetu wszystkie potrzebne dane.

source("http://www.cs.put.poznan.pl/mlango/siad/data/ead.R")

Dane w R najczęściej są przechowywane w tzw. ramkach danych (data frame), która są kolekcjami wektorów (kolumn).
Jedną z załadowanych przez skrypt struktur jest ramka danych vocabulary. Sprawdźmy jej rozmiar poprzez wywołane polecenia:

dim(vocabulary)

Zostały zwrócone dwie liczby: pierwsza z nich to liczba wierszy (obserwacji), a druga to liczba kolumn (atrybutów).

Dostęp do tych danych wygląda analogicznie jak do wektorów, z tym że jest to struktura dwuwymiarowa, więc trzeba podawać 2 indeksy (numer wiersza, numer kolumny). Na szczęście jeden z indeksów można pominąć -- zostanie wtedy wyświetlony cały wiersz lub cała kolumna. Na przykład aby wyświetlić piąty wiersz ramki wystarczy wpisać:

vocabulary[5,]

Zauważ, że pominęliśmy indeks kolumny w związku z czym zostały wyświetlone wszystkie kolumny piątego wiersza.

Innym sposobem na wyświetlenie większej liczby danych jest funkcja (analogiczna do Unix'owej) head(). Wywołaj ją na naszej strukturze, aby zobaczyć pierwsze pięć wierszy.

head(vocabulary)

Jak pewnie się już domyślasz tabela ta zawiera słowa wraz z liczbą wystąpień we wszystkich wpisach użytkowników. Aby wyświetlić nazwy kolumn wystarczy wywołać polecenie:

names(vocabulary)

Ojej! Nazwy tych kolumn nic nam nie mówią -- pora to zmienić! Skorzystajmy z magii języka R i przypiszmy wartość do wyniku funkcji (!).

names(vocabulary) <- ...

W miejsce trzech kropek należy podać wektor nazw kolumn, w naszym przypadku dwuelementowy. Aby zachować spójność z dalej przyjętą notacją nazwij pierwszą kolumnę ,,word'', a drugą ,,count''.

names(vocabulary) <- c('word', 'count')

Teraz, gdy kolumny już są nazwane możemy odwoływać się do poszczególnych kolumn w sposób znacznie wygodniejszy. Na przykład aby uzyskać dostęp do całej kolumny ,,count'' możemy użyć następującej składni: vocabulary$count. Na wektorze tym możemy np.~policzyć średnią arytmetyczną:

mean( vocabulary$count )

Istnieją też analogiczne funkcje: max(), min(), median() czy sort(). Na~szczególną uwagę zasługuje funkcja wyświetlająca podstawowe statystyki dotyczące każdej z kolumn: summary() (możemy ją wywołać na całej ramce danych, a nie tylko na kolumnie).

summary(vocabulary)

        word           count         
 operating:    2   Min.   :   1.000  
          :    1   1st Qu.:   1.000  
 ^_^      :    1   Median :   1.000  
 ^-^      :    1   Mean   :   5.719  
 ~        :    1   3rd Qu.:   2.000  
 =        :    1   Max.   :7138.000  
 (Other)  :32314

Przystąpmy do analizy: chcielibyśmy się dowiedzieć czego dotyczą zebrane przez nas wpisy użytkowników. W tym celu sprawdźmy jak wyglądają częstotliwości występowania poszczególnych słów. Utwórz wykres słupkowy na kolumnie ,,count'' poprzez wpisanie komendy:

barplot(vocabulary$count, xlab="Słowo", ylab="Liczba wystąpień")

Niestety, na wykresie niezbyt wiele widać... Spróbuj posortować wartości wektora zanim utworzysz wykres. Może teraz uda Ci się wyciągnąć jakieś wnioski?

barplot(sort(vocabulary$count), xlab="Słowo", ylab="Liczba wystąpień")

Z wykresu wynika, że istnieje pewna mała grupa słów, które występują bardzo często w stosunku do reszty. Jeśli jakieś słowo ma dużą częstotliwość to znaczy, że wystąpiło w wielu wpisach użytkowników -- może więc dzięki nim dowiemy się czego dotyczą obserwowane przez nas wpisy? Odczytaj z wykresu wartość powyżej której występuje bardzo mała liczba słów, a następnie używając filtrowania wypisz je na ekran.

vocabulary[vocabulary$count>1000,]

Spotkało nas rozczarowanie: większość z wyświetlonych słów nie ma żadnego realnego znaczenia, a ich częste występowanie nie niesie żadnej informacji o temacie wpisów w zbiorze danych. Na szczęście jest to znany problem w analizie tekstu, a takie słowa nazywamy z angielskiego stopwords (https://pl.wikipedia.org/wiki/Stop_lista_\%28wyszukiwarki\%29).

Wśród zmiennych w środowisku roboczym jest wektor stopwords, zawierający powszechnie używaną listę takich słów (możesz sobie ją wyświetlić).

stopwords

Utwórz nową ramkę danych vocabulary_filtered poprzez wyfiltrowanie wszystkich wierszy zawierających stopwords. Użyj operatora %in% sprawdzającego czy wartość zmiennej występuje w zbiorze oraz operatora negacji !.

vocabulary_filtered <- vocabulary[!vocabulary$word %in% stopwords,]

Sprawdź poleceniem dim() czy liczba wierszy w nowej ramce jest trochę mniejsza niż w oryginalnej.

dim(vocabulary_filtered)

Utwórz wykres słupkowy na nowej ramce danych (pamiętaj o posortowaniu wektora).

barplot(sort(vocabulary_filtered$count), xlab="Słowo", ylab="Liczba wystąpień")

Wykres szczególnie się nie zmienił, poza tym że zakres wartości jest trochę mniejszy. Jednak teraz najczęściej występujące słowa powinny być bardziej znaczące -- wyświetl je. Czy już wiesz czego dotyczą wpisy użytkowników?

vocabulary_filtered[vocabulary_filtered$count>700,]

Teraz, gdy już wiemy, że wpisy użytkowników dotyczą odwiecznego sporu informatyków o to który system operacyjny jest najlepszy, spróbujmy sprawdzić o którym systemie użytkownicy częściej piszą oraz który system ma więcej pozytywnych wpisów.

Część 2: Który system operacyjny jest najlepszy? Linux vs Windows.¶

W tej części ćwiczenia będziemy analizować nową ramkę danych dostępną w zmiennej day_stats. Ramka ta zawiera 4 kolumny:

datę (date)
nazwę systemu operacyjnego (os: ,,linux'' lub ,,windows'')
liczbę tweetów opublikowanych w danym dniu i dotyczącego danego systemu operacyjnego (count)
średnią ocenę pozytywnego wydźwięku wpisów (positive_coeff) - im wyższa średnia, tym bardziej pozytywnie mówiono o danym systemie operacyjnym

Obejrzyj kilka rekordów z tabeli (funkcja head())

head(day_stats)

Wyświetl podsumowanie informacji o tych danych (summary()). Z jakiego okresu czasu pochodzą dane? Jaka jest średni współczynnik pozytywnego wydźwięku analizowanych wpisów?

summary(day_stats)

      date                  os         count        positive_coeff 
 Min.   :2015-06-01   linux  :90   Min.   : 700.0   Min.   :2.600  
 1st Qu.:2015-06-23   windows:90   1st Qu.: 750.5   1st Qu.:6.275  
 Median :2015-07-15                Median : 804.5   Median :7.200  
 Mean   :2015-07-15                Mean   : 881.1   Mean   :7.149  
 3rd Qu.:2015-08-07                3rd Qu.: 865.0   3rd Qu.:8.200  
 Max.   :2015-08-29                Max.   :4600.0   Max.   :9.900

W celu dokładniejszego zbadania wartości współczynnika wydźwięku skonstruujmy dla niego histogram:

hist(day_stats$positive_coeff, main="", xlab="Ocena wydźwięku", ylab="Liczność")

Chcielibyśmy uzyskać histogram z większą liczbą słupków oraz z słupkami pokolorowanymi na czerwono ("red"). Korzystając z pomocy do funkcji hist (aby ją wyświetlić wpisz znak zapytania i nazwę funkcji) zbuduj takie histogramy dla liczby słupków 70 i 150.

?hist

Histogram mający 70 słupków

hist(day_stats$positive_coeff, breaks = 70, col="red", main="", xlab="Ocena wydźwięku", ylab="Liczność")

Histogram mający 150 słupków

hist(day_stats$positive_coeff, breaks = 150, col="red", main="", xlab="Ocena wydźwięku", ylab="Liczność")

Obraz histogramu przy 150 słupkach jest ,,szarpany'' (raz słupek raz wolne miejsce). Dlaczego się tak stało? Aby odpowiedzieć na to pytanie zobacz do ilu miejsc po przecinku są raportowe współczynniki wydźwięku i jaki jest ich zakres wartości.

summary(day_stats$positive_coeff)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  2.600   6.275   7.200   7.149   8.200   9.900

Jaka jest szerokość przedziału, który obejmuje jeden słupek na wykresie?

(9.9-2.6)/150

Jak sądzisz czy ten histogram ze 150 słupkami jest prawidłowy?

Innym sposobem zobaczenia rozkładu wartości (z mniejszą szczegółowością) jest narysowanie wykresu pudełkowego. Narysuj go w R poprzez wywołanie funkcji boxplot().

boxplot(day_stats$positive_coeff, ylab="Ocena wydźwięku")

Pewną zaletą wykresu pudełkowego nad histogramem jest to, że na jednym wykresie możemy zaprezentować kilka serii wartości. Chcielibyśmy się dowiedzieć jak różni się rozkład współczynnika wydźwięku dla różnych systemów operacyjnych. Aby to zrobić narysujmy wykres pudełkowy współczynnika wydźwięku w zależności od zmiennej system operacyjny.

boxplot(day_stats$positive_coeff ~ day_stats$os)

Wyrażenia typu y~x możesz czytać jako ,,y zależy od x'', ,,y jako funkcja od x''...

boxplot(day_stats$positive_coeff ~ day_stats$os, ylab="Ocena wydźwięku")

O którym systemie operacyjnym użytkownicy piszą pozytywniej? Czy możesz wyciągnąć z wykresu jakieś inne wnioski?

Kończąc naszą analizę sprawdźmy czy są dni w których użytkownicy piszą częściej o którymś z systemów operacyjnych np.~o~systemie Linux. W tym celu utwórzmy nową ramkę zawierającą tylko dane o systemie Linux:

day_stats_linux <- day_stats[day_stats$os == 'linux',]

A następnie użyj funkcji plot() do narysowania wykresu liczby tweetów w czasie. Argumentem tej funkcji powinno być wyrażenie ,,liczba wpisów zależy od daty'' (konstrukcja z operatorem ~).

plot(day_stats_linux$count ~ day_stats_linux$date, xlab="Data", ylab="Liczba tweetów")

Otrzymaliśmy wykres punktowy, a chcielibyśmy otrzymać wykres liniowy. Korzystając z pomocy pakietu R znajdź dodatkowy argument funkcji plot(), który spowoduje utworzenie porządanego typu wykresu.

plot(day_stats_linux$count ~ day_stats_linux$date, t="l", xlab="Data", ylab="Liczba tweetów")

Wygląda na to, że liczba wpisów o systemie Linux waha się pomiędzy kolejnymi dniami, ale nie widzimy żadnego trendu tj.~liczba wpisów nie rośnie ani nie maleje. Spróbuj zbudować analogiczny wykres dla systemu Windows -- może tam zobaczysz coś ciekawego?

day_stats_windows<- day_stats[day_stats$os == 'windows',]
plot(day_stats_windows$count ~ day_stats_windows$date, t="l", xlab="Data", ylab="Liczba tweetów")

Korzystając z internetu spróbuj znaleźć przyczynę, która spowodowała nagły wzrost tweetów dotyczących systemu Windows w drugiej połowie sierpnia 2015?.

Ćwiczenia¶

Behavioral Risk Factor Surveillance System (BRFSS) to doroczna ankieta telefoniczna przeprowadzana w Stanach Zjednoczonych mająca na celu zidentyfikowanie i kontrolowanie zagrożeń zdrowotnych w populacji ludzi dorosłych. Respondenci udzielają odpowiedzi na pytania dotyczące ich diety, cotygodniowej aktywności fizycznej, użycia papierosów, chorowania na HIV/AIDS itd. (Pełen opis tego badania możesz znaleźć na stornie http://www.cdc.gov/brfss). Losowa próbka 20 tysięcy obserwacji z tego badania jest dostępna w zmiennej medical_data.

Przeprowadź graficzną analizę tych danych, a w szczególności:

narysuj wykres słupkowy pokazujący liczbę osób palących i nie palących (kolumna ,,smoke100'' zawiera odpowiednio ,,0'' lub ,,1'' gdy ktoś pali lub nie). Podpisz osie wykresu.

Wskazówka: Do konstrukcji tabeli częstości występowania wartości zmiennej można wykorzystać funkcję table()

Wykres słupkowy - funkcja barplot

barplot(table(medical_data$smoke100), ylab = "Liczba osób", 
   xlab = "Palenie", names.arg = c("Nie", "Tak"))

narysuj wykres pudełkowy wysokości człowieka (height) w zależności od płci (gender).

boxplot(medical_data$height ~ medical_data$gender, xlab="Płeć", ylab="Wzrost [cale]", names=c("Mężczyzna", "Kobieta"))

używając wykresu pudełkowego sprawdź zależność pomiędzy ogólną oceną stanu zdrowia (genhlth) a wskaźnikiem masy ciała BMI (patrz: https://pl.wikipedia.org/wiki/Wska\%C5\%BAnik_masy_cia\%C5\%82a), który (biorąc pod uwagę jednostki użyte do mierzenia wysokości i wagi w zbiorze danych) można wyrazić wzorem: $$BMI=\frac{weigth}{height^2} \cdot 703 $$
Zdrowy człowiek powinien mieć BMI pomiędzy 18.5 a 25.

bmi <- (medical_data$weight / medical_data$height^2) * 703
boxplot(bmi ~ medical_data$genhlth, xlab="Stan zdrowia", ylab="BMI")

narysuj histogram wieku badanych (age)

hist(medical_data$age, xlab="Wiek", ylab="Liczność")

zbadaj zależność pomiędzy płcią (gender) oraz różnicą pomiędzy pożądaną wagą (wtdesire) a wagą aktualną (weight).

wdiff<- medical_data$wtdesire - medical_data$weight
boxplot(wdiff~medical_data$gender, xlab="Płeć", ylab="wtdesire-weight", names=c("Mężczyzna", "Kobieta"))

boxplot(wdiff~medical_data$gender, ylim=c(-200, 100), xlab="Płeć", ylab="wtdesire-weight", names=c("Mężczyzna", "Kobieta"))

	V1	V2
	<fct>	<int>
5	startup	2

	V1	V2
	<fct>	<int>
1	http://t.co/dbilk9emuf	1
2	lana	1
3	camcorder	1
4	roberto	1
5	startup	2
6	fynn's	1

	word	count
	<fct>	<int>
1017	a	2699
2258	for	1894
2710	at	1207
5684	you	1532
7456	the	7138
8064	i	2633
11797	and	2414
16046	is	1949
17061	to	4152
18842	may	1655
19592	have	1011
20375	with	1511
21646	in	2392
23408	be	1529
24424	it	1313
26820	on	2589
27811	my	1019
29258		1576
29596	of	2153

	word	count
	<fct>	<int>
988	tomorrow	795
2000	linux	921
8388	system	779
8392	operating	746
23955	windows10	894
30130	windows	830

	date	os	count	positive_coeff
	<date>	<fct>	<dbl>	<dbl>
1	2015-06-01	linux	779	7.9
2	2015-06-01	windows	830	4.6
3	2015-06-02	linux	832	5.8
4	2015-06-02	windows	864	9.8
5	2015-06-03	linux	793	6.8
6	2015-06-03	windows	897	7.2