link_1
link_2
link_3
link_4
link_5
link_6





Darmowe liczniki stat4u Illusive Design
 

W nazwie projektu jest jakieś groźne słowo zaczynające się na 'A', czy należy się go bać?

Absolutnie nie! ASEMBLACJA jest całkiem sympatycznym zagadnieniem. Więcej informacji znajdziecie w dalszej części. 

 

Projekt ma cos wspólnego z DNA. Czy mam w związku z tym pożyczyć od brata/siostry książkę od biologii?

Nie ma takiej potrzeby. Asemblacja DNA, pomimo nazwy kojarzącej się z biologią jest w rzeczywistości dobrze określonym problemem informatycznym.

 

Jakie będzie zadanie grupy developerów z III roku (nas)?

Zadanie developerów z III roku będzie polegało głównie 
na opracowaniu rozproszonych wersji algorytmów asemblacji DNA, zaimplementowaniu ich, oraz przetestowaniu. 

Dobra wiadomość: 
Algorytmy asemblujące zostaną dostarczone przez klienta.

 

Na plakacie było napisane, że będę mieć miesiąc wakacji więcej. O co dokładnie chodzi?

Planowany termin zakończenia projektu, to 16 maja 2003. Po tym czasie (a na pewno od początku czerwca) nie musicie zajmować się już projektem - macie odpowiednio dużo czasu, by spokojnie napisać pracę inżynierską - możecie także w związku z tym próbować się wcześniej bronić.

 

Kto jest klientem?

Klientem jest Politechnika Poznańska, a reprezentuje ją inż. Bartosz Nowierski.

 

Na plakacie było napisane, że możliwe jest niewielkie wynagrodzenie za projekt. Jakie są szanse, że wynagrodzenie to otrzymamy?

Klient podpisał kontrakt, w którym zobowiązuje się do przekazania developerom pieniędzy jeśli dobrze wykonają swoją pracę.

 

Jak dużo pieniędzy można zarobić?

Klient, jeśli będzie zadowolony z przebiegu projektu, przekaże wynagrodzenie w dwóch częściach. Pierwszą przed półmetkiem projektu, będzie to kwota 100 PLN, oraz drugą, po pomyślnym zakończeniu - kolejne 100 PLN dla każdego z developerów. (Należy tutaj pamiętać, że wynagradzanie studentów za prace inżynierską jest bardzo rzadkie - można więc śmiało stwierdzić, że projekt ten jest wyjątkiem.)

 

Przeczytałem w ogłoszeniu coś o superszybkich komputerach - czy dostaniemy taki sprzęt do domu?

Niestety nie - "komputerki" te ważą około pół tony każdy i stoją w Poznańskim Centrum Superkomputerowo Sieciowym, które ich tak łatwo nie odda ;-). W grę wchodzi oczywiście praca zdalna.

 

Nie mam stałego łącza do internetu w domu/na stancji. Czy to jest jakiś problem?

W pewnym sensie tak - sporo pracy (testy, pomiary itd.) będzie trzeba wykonać na komputerze zdalnym - stałe łącze jest więc mile widziane, aczkolwiek jego brak nie przekreśla szans na udział w projekcie. Wszystko zależy od możliwości zorganizowania sobie pracy wśród developerów.

 

Kiedy zaczynamy pracę?

Jak najszybciej - im wcześniej, tym lepiej. Mając zapas czasowy cały zespół pracuje spokojniej, dokładniej i pewniej.

 

Co się stanie, gdy będziemy mieli trudności ze zrozumieniem dostarczonego przez klienta algorytmu sekwencyjnego? Czy jesteśmy zdani na samych siebie?

Oczywiście, że nie - w ciągu całego przedsięwzięcia utrzymujemy stały kontakt z Reprezentantem Klienta. W razie potrzeby możecie zasięgnąć także rady Eksperta Klienta, którym jest inż. Paweł Widera, który ma doświadczenie, jeśli chodzi o pisanie rozproszonych wersji algorytmów asemblacji. Oczywiście Wy sami musicie także wykazać się pracą - ekspert klienta nie będzie wykonywał jej za Was.

 

Słyszałem, że klient oprócz dostarczenia algorytmów zaproponuje także sposób stworzenia wersji rozproszonej. Czy to prawda?

Tak. Będziecie mieli oczywiście sposobność stworzenia rozproszonej wersji algorytmu, aczkolwiek może się okazać, że klient poda Wam już gotowy sposób jej napisania.

 

Skoro klient poda nam algorytmy asemblacji a także propozycje sposobu zrównoleglenia, to cały projekt wydaje się być bardzo łatwy. Czy tak jest w istocie?

Tak.

 

Będziemy prowadzili rozproszone obliczenia na jakichś dziwnych komputerach - caly projekt wydaje się być trudny. Czy tak jest w istocie?

Tak. ;-) 

Wszystko oczywiście zależy od punktu widzenia.

 

Nie znam dobrze Javy i pomyślałem, że dobrze byłoby się jej nauczyć. Wydaje mi się, ze mógłbym to zrobić podczas pisania pracy inżynierskiej. Czy ten projekt jest dla mnie?

Niestety nie - w tym projekcie Javy się raczej nie nauczysz. (Osobną sprawą, którą warto w tym miejscu przemyśleć, jest to, czy pisanie pracy inżynierskiej jest odpowiednim momentem na poznawanie nowego języka programowania...?)

 

Dlaczego w ogóle mam pisać pracę inżynierską w ramach SDS?

Praca inżynierska w ramach SDS - Software Developement Studio różni się pod wieloma względami od "normalnej" pracy inżynierskiej. Dla Was najważniejszą różnicą będzie udział w projekcie studentów IV i V roku specjalności Inżynieria Oprogramowania, którzy będą nadzorowali Wasz projekt, kierowali nim, zarządzali ryzykiem, organizowali regularne spotkania z klientem, śledzili postępy, prowadzili negocjacje z klientem itd. Ostateczny wpływ będzie taki, że projekt, w którym będziecie brali udział będzie dobrze zarządzany a prawdopodobieństwo tego, że zakończy się porażką będzie bardzo małe. Oczywiście podstawowym warunkiem powodzenia projektu będzie Wasza praca i zaangażowanie.

 

Czy ja się w ogóle nadaje do tego projektu?

TAK! :-) O ile jesteś pracowity, masz dobre pomysły, nie boisz się ich realizować i jesteś studentem III roku informatyki na Politechnice Poznańskiej.

 

Czym jest asemblacja DNA dla informatyków?

Pomimo dość egzotycznej nazwy problem asemblacji DNA 
jest dość łatwo opisywalny. Pomijając znaczenie biologiczne 
możemy uznać, że asemblacja DNA, to składanie jednego 
dużego łańcucha znaków z kilku(tysięcy) mniejszych łańcuchów 
podanych na wejście. Problemem jest tutaj fakt, że łańcuchy 
składowe nie są podane we właściwej kolejności. Ułatwieniem 
natomiast (i faktem pozwalającym na rozwiązanie tego problemu) 
jest to, że mniejsze łańcuchy z reguły dość znacznie nakładają się 
na siebie, co umożliwia ich dopasowywanie. To właściwie wszystko. 
Niestety w rzeczywistym świecie problem różni się trochę 
od opisanego przypadku idealnego  - dane wejściowe mogą one 
posiadać błędy - należy zatem brać to pod uwagę.  Dla bardziej 
zainteresowanych cytujemy fragment raportu 
PCSS RA - 003 / 2002, jednak wiedza tu zawarta nie jest 
konieczna do wzięcia udziału w projekcie:

"Idealna instancja problemu asemblacji, to taka, dla której 
do każdego fragmentu sekwencji wynikowej zostanie dopasowanych 
wiele sekwencji wejściowych. Zakłada się dodatkowo, że sekwencje 
wejściowe nie zawierają błędów, pochodzą z jednej nici DNA 
i że w oczekiwanej sekwencji wyjściowej nie występują długie 
powtórzenia. Taki przypadek ilustruje poniższy rysunek:

Rysunek  1 . Asemblacja - przypadek idealny. 

Przypadek rzeczywisty 

Rzeczywista instancja problemu asemblacji może posiadać 
jedną z poniższych własności:

§        brak pokrycia - wśród fragmentów wejściowych brak fragmentów
 odpowiadających niektórym pozycjom oczekiwanego 
łańcucha wynikowego,

Rysunek  2 . Asemblacja - brak pokrycia sekwencji wynikowej.

§         błędy:

§         Niedokładność sekwencjonowania 

 

Rysunek 3 . Błędy - niedokładność sekwencjonowania. 

§         Chimery

błędne fragmenty powstałe z połączenia odległych 
Ž
podsekwencji, mających przypadkowo odpowiednio 
dużą część wspólną

§         Zanieczyszczenia

fragmenty obcego DNA, błędnie dołączonego 
w procesie Žreplikacji

§         nieznana orientacja (Žorientacja łańcucha DNA) – nie 
z której nici DNA pochodzi dany fragment,

 

Rysunek 4 . Asemblacja - nieznana orientacja. 

§         powtarzające się fragmenty - długie podsekwencje, 
które są takie same lub w dużym stopniu podobne."

Rysunek 2 . Asemblacja - brak pokrycia sekwencji wynikowej. 

§         błędy:

§         Niedokładność sekwencjonowania 

Rysunek 3 . Błędy - niedokładność sekwencjonowania. 

§         Chimery

błędne fragmenty powstałe z połączenia odległych 
Ž
podsekwencji, mających przypadkowo odpowiednio 
dużą część wspólną

§         Zanieczyszczenia

fragmenty obcego DNA, błędnie dołączonego 
w procesie Žreplikacji

§         nieznana orientacja (Žorientacja łańcucha DNA) - nie wiadomo, 
z której nici DNA pochodzi dany fragment,

Rysunek 4 . Asemblacja - nieznana orientacja.

§         powtarzające się fragmenty - długie podsekwencje, które 
są takie same lub w dużym stopniu podobne."

 

Problem asemblacji DNA - część raportu PCSS  RA - 003 / 2002

"Biologia molekularna jest dziedziną nauki, która ma wybitne znaczenie 
praktyczne, a środki na nią przeznaczone szybko przynoszą wymierne 
korzyści. Obecnie prace związane z genetyką prowadzone są bardzo
 intensywnie. W roku 1995 odczytano cały genom popularnej bakterii 
escherichia coli
, rok później drożdży piekarskich, a następnie innych 
organizmów. Kolejnym krokiem jest analizowanie genów człowieka. 
Wykryto już wiele genów odpowiedzialnych za niektóre choroby. 
Obecnie pracuje się nad zbudowaniem kompletnego genomu ludzkiego. 
Po dokładnym jego poznaniu będzie możliwe jeszcze lepsze zrozumienie 
dziedziczenia cech przez ludzi, dokładna jego analiza, wczesne wykrywanie 
chorób, a co ważniejsze próby stworzenia leków opartych na tej wiedzy. 
Jak więc widać korzyści są ogromne! Nic więc dziwnego, że na znalezienie 
rozwiązania tego problemu przeznacza się ogromne środki, zarówno 
w firmach prywatnych, jak i finansowanych przez rządy państw, ośrodkach 
naukowych. Można nawet zaryzykować twierdzenie, że w zainteresowanych 
środowiskach odbywa się swoisty wyścig.

To wszystko powoduje, że są już pierwsze sukcesy w tej dziedzinie. Firma 
Celera Genomics 26 czerwca 2000 roku ogłosiła, że odczytała genom 
ludzki[1]. Przypuszcza się jednak, że jest on jak na razie bardzo 
niedokładny, w związku z czym, prace nad powyższym a także nad 
odczytaniem genomu innych organizmów prowadzone są nadal przez 
wiele znaczących ośrodków naukowych na całym świecie. Nie można 
nie wspomnieć w tym momencie o projekcie Human Genome Organisation
(HUGO), w którym udział biorą znakomite ośrodki naukowe z całego 
świata. Nie są to łatwe prace, wymagają one bowiem interdyscyplinarnej 
współpracy biologów i informatyków. Jak się bowiem okazuje, to właśnie 
ci ostatni odgrywają znaczącą rolę we współczesnej biologii molekularnej.
 Oczywiście praca biologów jest nie do przecenienia, jednak 
w pewnym momencie do dzieła muszą przystąpić informatycy. Obecnie 
można nawet śmiało mówić o dziale biologii zwanym biologią obliczeniową. 
Dzieje się tak dlatego, iż problem poznania ułożenia wszystkich zasad 
z których zbudowane jest DNA jest bardzo złożony. Mamy tutaj 
do czynienia z sekwencjami liczącymi miliony par zasad (genom ludzki 
odczytany przez Celera Genomics ma długość 3,12 miliarda par 
zasad[2]). Do ich analizy nie wystarczają tradycyjne metody obliczeniowe.
 Aby mieć szansę coś osiągnąć, należy użyć możliwie najszybszych
 dostępnych komputerów i [...] algorytmów heurystycznych. Nie bez
powodu zapewne, jedne z pierwszych prac związanych z asemblacją 
sekwencji DNA prowadzone były w ośrodku Los Alamos w Stanach
 Zjednoczonych, który, jak wiadomo, od lat szczyci się posiadaniem 
najszybszych superkomputerów na świecie. Odkrycie dokładnego 
genomu ludzkiego należy bowiem ciągle do grupy problemów stanowiących 
tzw. challenge jeśchallenge” jeśli chodzi o problemy

Problem, który był przedmiotem analizy w niniejszym opracowaniu dotyczy
 asemblacji łańcuchów sekwencji DNA. Asemblacja jest to składanie 
dłuższych
 fragmentów z mniejszych części poprzez analizowanie ich części 
wspólnych. 
Nie ma tutaj oczywiście znaczenia, czy asemblujemy DNA człowieka, 
konia, 
myszy, czy escherichia coli; za każdym razem jest to ten sam problem. 
Obliczeniowo jest on bardzo złożony. Powstaje dlatego, że dostępne
 metody 
biologiczne pozwalają na wydobycie materiału genetycznego z organizmów 
jedynie w postaci maleńkich strzępków - sekwencji o długości około 
100 - 1000 par zasad. Jest to etap sekwencjonowania DNA. Kolejny etap, 
to właśnie asemblacja. Wykonuje się ją, ponieważ strzępki nici DNA 
uzyskane w fazie sekwencjonowania nie są satysfakcjonujące dla biologów. 
Aby móc odkryć ciekawe zależności potrzebne są całe sekwencje, 
a nie ich fragmenty. Asemblacja jest więc nieodzowna - w etapie tym 
z łańcuchów uzyskanych na poziomie sekwencjonowania budujemy 
dłuższą sekwencję. Jest to już typowy problem informatyczny. 
Kolejnym etapem jest mapowanie, czyli składanie sekwencji z dość 
długich łańcuchów będących wynikiem asemblacji z wykorzystaniem
 map restrykcyjnych, w których znajdują się oznaczone i zbadane 
już fragmenty sekwencji (tzw. punkty restrykcji lub markery).
 Można by jednak zaryzykować stwierdzenie, że dobrze wykonana 
asemblacja 
jest w stanie wyeliminować nawet proces mapowania - postulat forsowany
 przez byłego szefa Celera Genomics - Craiga Ventera. Jest przy tym bardziej 
uniwersalna (nie potrzebujemy mapy - możemy asemblować dowolne, 
nawet całkowicie nowe sekwencje). Widzimy więc, że asemblacja DNA 
jest chyba najważniejszym problemem we współczesnej biologii 
obliczeniowej."

[1] http://www.pecorporation.com/press/prccorp062600.html
strona odwiedzona dnia 16.06.2002 godz.22.55.

[2] Ibidem.

 

Jest jeszcze tyle rzeczy o które chciałbym zapytać...

Pytaj śmiało - pisz do nas maile. Możemy się umówić na spotkanie - chętnie Cię poznamy i porozmawiamy IRL.