Zadanie - Tajne wieści z Cytadeli
Dziś rano z Cytadeli w Oldtown kruk przyniósł papirus od Zakonu Maestrów. Niestety, papirus
został w magiczny sposób zaszyfrowany i nie jesteśmy w stanie w żaden sposób odczytać
zapisanych na nim informacji. Jest absolutnie konieczne, aby czym prędzej wytężyć nasze
siły i postarać się rozszyfrować starożytne pismo.
Na odczytanie papirusu macie dwa tygodnie, do piątku 8.04.2016 (do godz. 22:00).
Szyfr jest ukryty w postaci zakodowania atrybutów. Oryginalny plik zawiera dane pacjentek i pacjentów leczących tarczycę. Znaczenie poszczególnych atrybutów jest następujące:
-
age
: wiek pacjentki/a
-
sex
: płeć pacjentki/a
-
pregnant
: czy w momencie badania pacjentka była w ciąży?
-
thyroid surgery
: czy przeprowadzano operację tarczycy?
-
FTI
: wartość współczynnika FTI
-
TT4
: poziom hormonu T4
-
TSH
: poziom hormonu TSH
-
TBG measured
: czy przeprowadzono badanie poziomu TBG
-
sick
: zmienna celu, określa czy pacjenta/kę należy skierować na leczenie
Poniżej przedstawiam plan działań, które powinniście jak najszybciej podjąć:
- złamanie szyfru polega na znalezieniu poprawnego odwzorowania między dwoma zbiorami danych: oryginalnym i zaszyfrowanym
- pobierz oba zbiory danych: oryginalny tarczycaNIEZASZYFROWANE.arff oraz zaszyfrowany tarczycaSZYFR.arff
- wiemy, że atrybut ''sick' nie został w żaden sposób zmieniony, ale kolejność wierszy nie jest taka sama między zbiorami (wiersze w zbiorze tarczycaSZYFR zostały przetasowane)
- wiemy także, że atrybuty zostały poddane następującym transformacjom (poniższa lista zawiera wszystkie transformacje jakie wykonano na zbiorze danych):
- zastąpienie wartości brakujących wartościami średnimi/modalnymi
- dyskretyzacja atrybutu numerycznego na atrybuty zdefiniowane przez użytkownika
- dyskretyzacja atrybutu numerycznego na atrybuty o równej głębokości
- standaryzacja atrybutu numerycznego
- dodanie 2% szumu do atrybutu i przemapowanie wartości
- dodanie 5% szumu do atrybutu i przemapowanie wartości
- zamiana atrybutu nominalnego na dwa atrybuty binarne
- normalizacja atrybutu numerycznego
- zamiana atrybutu nominalnego na numeryczny
- niestety, nie wiemy który atrybut w zbiorze oryginalnym odpowiada któremu atrybutowi w zbiorze zaszyfrowanym, Waszym celem jest przypisanie atrybutów ze zbioru zakodowanego do poprawnych atrybutów w zbiorze oryginalnym
- każda grupa ma możliwość zgłoszenia dwóch odpowiedzi, do punktacji wybiorę najlepszą z nich.
Odpowiedzi proszę zgłaszać za pomocą maila (od przedstawiciela grupy).