Scene Text Translation For Handheld Devices Using Computer Vision and Augmented Reality – Københavns Universitet

Videresend til en ven Resize Print kalender-ikon Bookmark and Share

Datalogisk Institut, DIKU > Begivenhedsmappen > Begivenheder 2011 > Scene Text Translation...

Scene Text Translation For Handheld Devices Using Computer Vision and Augmented Reality

MSc thesis defence by Asger Lund Pedersen

Abstract (in Danish below)

Understanding signs in a foreign country can be a challenging task, especially when
they are written in unfamiliar characters. This thesis presents an augmented reality
translation system, implemented on an Apple iPhone 4. The general idea is to simply
let the user hold up the phone, point it at a sign, and see a translation augmented
directly on the screen in real time. The presented system consists of 3 main parts:
Text detection, tracking, and augmentation. The thesis starts with a general introduction to the problem that the presented work is trying to solve, along with a review of already existing solutions. Then, each of the three main parts of the developed system is described in detail followed by selected implementation details. Besides making a functional prototype, the main focus of this thesis has been on the text tracking part. Two models for improving the tracking using the iPhones built in motion sensors are presented. The vision and motion sensors are combined using an Extended Kalman Filter. Finally, an evaluation of the system is made followed by a discussion on the obtained results.

Resume

At kunne tyde skilte i et fremmed land kan være en stor udfordring, især hvis
der er brugt anderledes skrifttegn end man er vant til. Dette speciale præsenterer et
oversættelses-system der viser oversættelsen ved hjælp af augmented reality. Systemet er implementeret på en Apple iPhone 4. Ideen er at lade brugeren holde sin telefon op foran et skilt, og se en oversættelse augmenteret direkte på skræmen i real-tid. System præsenteret i dette speciale består af 3 grundlæggende dele. Tekst detektering, følge teksten i billedet og augmentering af oversættelsen. Specialet begynder med en general introduktion til problemet som der forsøges at imødekomme, samt en gennemgang af allerede eksisterende løsninger. Hver af de tre grundlæggende dele af systemet gennemgåes herefter i detaljer. Herefter beskrives udvalgte dele af implementationen. Udover at implementere en funktionel prototype, har fokus for dette speciale at været at forbedre algoritmen til at følge tekstens placering i billedet. Dette er gjort ved at drage fordel af de indbyggede bevægelses sensorer der er i en iPhone. Billeddata og sensordata er kombineret ved hjælp af et Extended Kalman Filter. Til sidst evalueres det samlede system og resultaterne diskuteres.

Supervisor: Kim Steenstrup Pedersen
Censor: Rasmus Paulsen, IMM DTU