Materiały do zajęć nt. wyszukiwarek

Przykład do analizy na zajęciach

W zbiorze dokumentów znajdują się 4 dokumenty (poddane lematyzacji i odfiltrowane stopwords; przecinki oddzielają termy):

  • D1 = {informatyka, medycyna, pacjent, komputer},
  • D2 = {medycyna, medycyna, medycyna, medycyna},
  • D3 = {pacjent, lekarz, pacjent, pacjent},
  • D4 = {informatyka, lekarz, informatyka, medycyna}.

Oblicz wartości miary TF/IDF dla powyższych dokumentów, a następnie stwórz ranking dokumentów wg miary cosinusowej, dla zapytań:

  • Q1 = {informatyka, medycyna},
  • Q2 = {informatyka, medycyna, komputer}.