Materiały do zajęć nt. wyszukiwarek
Przykład do analizy na zajęciach
W zbiorze dokumentów znajdują się 4 dokumenty (poddane lematyzacji i odfiltrowane stopwords; przecinki oddzielają termy):
- D1 = {informatyka, medycyna, pacjent, komputer},
- D2 = {medycyna, medycyna, medycyna, medycyna},
- D3 = {pacjent, lekarz, pacjent, pacjent},
- D4 = {informatyka, lekarz, informatyka, medycyna}.
Oblicz wartości miary TF/IDF dla powyższych dokumentów, a następnie stwórz ranking dokumentów wg miary cosinusowej, dla zapytań:
- Q1 = {informatyka, medycyna},
- Q2 = {informatyka, medycyna, komputer}.