Zadanie - Tajne wieści z Cytadeli

oldtown.png
Dziś rano z Cytadeli w Oldtown kruk przyniósł papirus od Zakonu Maestrów. Niestety, papirus został w magiczny sposób zaszyfrowany i nie jesteśmy w stanie w żaden sposób odczytać zapisanych na nim informacji. Jest absolutnie konieczne, aby czym prędzej wytężyć nasze siły i postarać się rozszyfrować starożytne pismo. Na odczytanie papirusu macie dwa tygodnie, do piątku 8.04.2016 (do godz. 22:00).

Szyfr jest ukryty w postaci zakodowania atrybutów. Oryginalny plik zawiera dane pacjentek i pacjentów leczących tarczycę. Znaczenie poszczególnych atrybutów jest następujące:

  1. age: wiek pacjentki/a
  2. sex: płeć pacjentki/a
  3. pregnant: czy w momencie badania pacjentka była w ciąży?
  4. thyroid surgery: czy przeprowadzano operację tarczycy?
  5. FTI: wartość współczynnika FTI
  6. TT4: poziom hormonu T4
  7. TSH: poziom hormonu TSH
  8. TBG measured: czy przeprowadzono badanie poziomu TBG
  9. sick: zmienna celu, określa czy pacjenta/kę należy skierować na leczenie

Poniżej przedstawiam plan działań, które powinniście jak najszybciej podjąć:

  • złamanie szyfru polega na znalezieniu poprawnego odwzorowania między dwoma zbiorami danych: oryginalnym i zaszyfrowanym
  • pobierz oba zbiory danych: oryginalny tarczycaNIEZASZYFROWANE.arff oraz zaszyfrowany tarczycaSZYFR.arff
  • wiemy, że atrybut ''sick' nie został w żaden sposób zmieniony, ale kolejność wierszy nie jest taka sama między zbiorami (wiersze w zbiorze tarczycaSZYFR zostały przetasowane)
  • wiemy także, że atrybuty zostały poddane następującym transformacjom (poniższa lista zawiera wszystkie transformacje jakie wykonano na zbiorze danych):
    • zastąpienie wartości brakujących wartościami średnimi/modalnymi
    • dyskretyzacja atrybutu numerycznego na atrybuty zdefiniowane przez użytkownika
    • dyskretyzacja atrybutu numerycznego na atrybuty o równej głębokości
    • standaryzacja atrybutu numerycznego
    • dodanie 2% szumu do atrybutu i przemapowanie wartości
    • dodanie 5% szumu do atrybutu i przemapowanie wartości
    • zamiana atrybutu nominalnego na dwa atrybuty binarne
    • normalizacja atrybutu numerycznego
    • zamiana atrybutu nominalnego na numeryczny
  • niestety, nie wiemy który atrybut w zbiorze oryginalnym odpowiada któremu atrybutowi w zbiorze zaszyfrowanym, Waszym celem jest przypisanie atrybutów ze zbioru zakodowanego do poprawnych atrybutów w zbiorze oryginalnym
  • każda grupa ma możliwość zgłoszenia dwóch odpowiedzi, do punktacji wybiorę najlepszą z nich.

Odpowiedzi proszę zgłaszać za pomocą maila (od przedstawiciela grupy).