Maciej Nalewaj,
Dariusz Janny,

laboratorium

Laboratorium: Rozpoznawanie obrazów

Raport zadania

Temat projektu: Śledzenie ruchu pojazdów na skrzyżowaniach.

Spis treści dokumentu:

Cel projektu

Ogólny cel

Głównym celem projektu jest śledzenie, identyfikacja i wizualizacja ruchu pojazdów na skrzyżowaniach dróg miejskich.
Analizując ruch pojazdów na skrzyżowaniu można dokładnie przebadać ich zachowanie, jak i wykroczenia, których mogą się oni dopuścić. Z analizowanej sekwencji video interesują nas tylko te pojazdy, które się poruszają. Nie będziemy więc brali po uwagę inne poruszające sie obiekty do których możemy zaliczyć: rowerzystów, pieszych.
Słowa kluczowe

wykryanie ruchu(ang. motion detection), lokalizacja obiektów(ang. localisation of objects), inicjalizacja śledzenia(ang. initialisation for tracking), śledzenie obiektów(ang. tracking of vehicles).
Kryterium oceny skuteczności systemu
- I kryterium
  
  W projekcie tym pierwszym kryterium, które będziemy brali pod uwagę, to ocena prawidłowości śledzenia obiektów. Wyznaczymy je, jako stosunek liczby dobrze śledzonych pojazdów do liczby rzeczywiście poruszających się pojazdów. Kryterium to może zostać rozstrzygnięte tylko w sposób obiektywny.
- II kryterium
  
  Drugim kryterium jest trafność rozróżnienia pojazdów od pieszych i innych poruszających się obiektów. Wskaźnik ten wyznaczymy jako stosunek źle zidentyfikowanych obiektów do liczby wszystkich ruchomych obiektów. Kryterium to, podobnie jak poprzednie może zostać rozstrzygnięte w sposób obiektywny.
Dane wejściowe

Dane wejściowe zaczerpnęliśmy ze strony: http://i21www.ira.uka.de/image_sequences/ (dane z 'Institut für Algorithmen und Kognitive Systeme').
Są to kilkusekundowe sekwencje video w formacie AVI, lub MPEG zarejestrowane przez kamery zainstalowane na różnych skrzyżowaniach. Przeważnie sekwencje te są czarno-białe(obrazy w skali szarości), dlatego najprawdopodobniej będziemy operować tylko na sekwencjach czarno-białych(w skali szarości). Uważamy, że algorytm wykrywający, śledzący poruszające się obiekty będzie działał poprawnie dla obrazów w skali szarości, jak i kolorowych (sekwencje te będziemy analizować po transformacji z obrazu kolorowego do czarno-białego).

Dodatkowo korzystaliśmy z sekwencji nagranych w ramach zajęć Przetwarzanie Obrazów.

Wszystkie sekwencje wideo zostaną umieszczone na płycie CD. Dodatkowo można je znaleźć pod adresem
Dodatkowo korzystaliśmy z sekwencji nagranych w ramach zajęć Przetwarzanie Obrazów.

Wszystkie sekwencje zostały odpowiednio przygotowane. Polegało to na ich kompresji standardowym kodekiem DivX 5.11. Krok ten poczyniliśmy w celu ujednolicenia danych wejściowych i konieczności instalowania dodaktowych kodeków.
http://fanthom.math.put.poznan.pl/~janny/download/ro/
Login oraz hasło do wiadomości prowadzącego oraz autorów.

Poniżej zamieszczamy kilka przykładów obrazów z sekwencji video:

Osadzenie projektu w dziedzinie rozpoznawania obrazów

w naszym projekcie nie przewidujemy zastosowania mechanizmu uczenia się,
sposób analizy obrazu będzie zarówno globalny, jak i lokalny - tzn. wyznaczenie wektorów ruchu(ang. motion vector) będzie globalne(analiza całościowa klatek video - przetworzenie i analiza obrazu jako całości), natomiast ekstrakcja i analiza cech obiektów będzie już lokalna(przetwarzanie i analiza obrazu skupi się na jego fragmentach),
jeśli chodzi o podział ze względu na obecność modułu ekstrakcji cech/opisu, to nasz projekt można zaliczyć do pośrednich(niebezpośrednie), ponieważ głownie będziemy wnioskować na podstawie wektorów ruchu,
sposób wnioskowania jest oparty na modelu(ang. model-based - poprzednia klatka będzie odniesieniem). Na podstawie poprzedniej klatki będziemy dokonywać pomiaru podobieństwa,
przepływ danych i przepływ sterowania można zaliczy do rozpoznawania 'sterowanego obrazem'(ang. image-driven);

Proponowane podejście

Pierwotnie planowane

Początkowo planowaliśmy następujące podejście:
- ekstrakcja tła,
- lokalizacja poruszających się obiektów (różnica między analizowanym obrazem a tłem),
- ekstrakcja cech poruszających się obiektów (wielkość, kolor),
- detekcja trasy pokonanej przez obiekty (odczyt współrzędnych obiektów w poszczególnych klatkach),
- wizualizacja trasy pokonanej przez obiekty (na wcześniej dowolnej klatce, lub tle);
Jednak biorąc pod uwagę słabą jakość filmów i inne problemy wynikające np. z drgania kamery postanowiliśmy, że nasz system oprzemy o algorytm wyznaczania wektorów ruchu.
Aktualnie zatwierdzone
- wyznaczenie wektorów ruchu,
- ustalenie lokalizacji poruszających się pojazdów na podstawie analizy skupiska wektorów o podobnych wartościach w pierwszych 2, albo 3 klatkach(dobór liczby klatek w wyniku uzyskanych pomiarów optymalizacyjnych),
- ekstrakcja cech znalezionych obiektów (kształt, kolor(y)),
- filtracja obiektów, które nie są pojazdami (np. małe obiekty - to najprawdopodobniej będą piesi lub rowerzyści),
- śledzenie obiektów (pojazdów) na podstawie wektorów ruchu i uprzednio wyekstrachowanych cech oraz zapamiętywanie trasy,
- wizualizacja trasy pokonanej przez obiekty (na dowolnej klatce wejściowej sekwencji);

Przewidywane trudności, problemy

przesłanianie się obiektów(pojazdy mijające się, pojazdy przesłaniane przez inne przeszkody),
warunki atmosferyczne (deszcz, śnieg, mgła),
cienie rzucane przez obiekty,
mylenie samochodów z pieszymi,
dwa samochody jadące blisko siebie z tą samą prędkością mogą być traktowane, jako jeden obiekt;

Proponowane środki zaradcze

zapamiętywanie cech obiektów,
globalne wyznaczanie średniej wielkości pojazdu, dzięki czemu pieszy będzie znacznie mniejszy od średniego rozmiaru,
być może ekstrakcja tła pomoże w rozdzielaniu dwóch samochodów jadących blisko siebie;

Przewidywane środowisko realizacji projektu:

Środowisko:

Projekt będziemy realizowali w środowisku Visual C++ 6.0 ponieważ, trochę znamy je z doświadczenia, jest to bardzo dobre narzędzie deweloperskie, a poza tym jest ono dostępne na naszej uczelni - licencja na oprogramowanie.
Biblioteka:
Zrezygnowaliśmy z wykorzystania biblioteki DirectX 9.0b do obsługi sekwencji multimedialnych ze względu na jej stopień skomplikowania.
Zamiast tego postanowiliśmy wykorzystać dostępną dla wszystkich bibliotekę OpenCV, czyli Intel® Open Source Computer Vision Library. Jest to zbiór funkcji w C, kilka klas napisanych w C++, które implementują kilka popularnych algorytmów z dziedziny Image Processing and Computer Vision.
Adres strony projektu: http://cimg.sourceforge.net/
Interfejs graficzny:

Możliwość oglądania poszczególnych klatek i wizualizacja wyznaczonych trajektorii pojazdów. Znalezione obiekty będą zaznaczane.

Parametry programu

wczytywanie z pliku;
liczba klatek pomiędzy kolejnymi punktami obserwacji (obliczania wektorów ruchu)

Poniżej zamieszczamy zrzut ekranu dla aplikacji:

Aplikacja składa się z dwóch okien. Okno dolne służy do wykonywania standardowych operacji na pliku video. Są to mianowicie: