Task- and Knowledge-Driven Scene Representation : A Flexible On-Demand System Architecture for Vision

In this thesis a flexible system architecture is presented along with an attention control mechanism allowing for a task-dependent representation of visual scenes. Contrary to existing approaches, which measure all properties of an object, the proposed system only processes and stores information relevant for solving a given task. The system comprises a short- and long-term memory, a spatial saliency algorithm and multiple independent processing routines to extract visual properties of objects. Here, the proposed control mechanism decides which properties need to be extracted and which processing routines should be coupled in order to effectively solve the task. This decision is based on the knowledge stored in the long-term memory of the system. An experimental evaluation on a real-world scene shows that, while solving the given task, the computational load and the amount of data stored by the system are considerably reduced compared to state-of-the-art systems.

Die Umgebung des Menschen ist voller visueller Details. Diese immense Menge an Information kann, unter der Annahme von begrenzten Verarbeitungs- und Speicherresourcen, nur teilweise aufgenommen und gespeichert werden. Daraus ergibt sich die Notwendigkeit einer selektiven Verarbeitung, die, je nach Aufgabenstellung, zu einer unterschiedlichen Repräsentation der visuellen Szene führt. Psychophysische Experimente zeigen, dass dabei die erfasste Umgebung nicht nur örtlich, sondern auch im Merkmalsraum selektiv bearbeitet wird, dass heißt es wird nur die visuelle Information aufgenommen, die für das Lösen der jeweiligen Aufgabe erforderlich ist. Im Rahmen dieser Arbeit werden eine flexible Systemarchitektur und eine Kontrollstruktur zur aufgabenbezogenen Szenenrepräsentation vorgestellt. Im Gegensatz zu existierenden Arbeiten ermöglicht dieser Ansatz eine selektive Informationsaufnahme. Die vorgeschlagene Architektur enthält neben einem Lang- und Kurzzeitgedächtnis sowie einer Aufmerksamkeitskarte auch mehrere Verarbeitungsmodule zur Merkmalsextraktion. Diese Verarbeitungsmodule sind spezialisiert auf die Extraktion eines Merkmals und arbeiten unabhängig voneinander. Sie können jedoch je nach Aufgabenstellung dynamisch miteinander gekoppelt werden um gezielt die benötigte Information aus der Szene zu extrahieren. Die Entscheidung, welche Information benötigt wird und welche Module zur Extraktion dieser Merkmale gekoppelt werden müssen, trifft die im Rahmen der Arbeit entwickelte Kontrollstruktur, welche das gespeicherte Wissen des Systems und die gestellte Aufgabe berücksichtigt. Weiterhin stellt die Kontrollstruktur sicher, dass algorithmische Abhängigkeiten zwischen den Verarbeitungsmodulen unter Zuhilfenahme von systemimmanentem Prozesswissen automatisch aufgelöst werden. Die hier vorgestellte Systemarchitektur und die ebenfalls vorgeschlagene Kontrollstruktur werden experimentell anhand einer realen Tischszene evaluiert. Bei den durchgeführten Experimenten zeigt sich, dass bei Lösung einer gestellten Aufgabe die Menge der vom System verarbeiteten und gespeicherten Informationen deutlich reduziert wird. In der Folge werden die Anforderungen an die Verarbeitungs- und Speicherressourcen ebenfalls deutlich reduziert. Diese Arbeit leistet damit einen Beitrag zur aufgabenbezogenen Repräsentation von visuellen Szenen, da nur noch die Information verarbeitet und gespeichert wird, die tatsächlich zur Lösung der Aufgabe erforderlich ist.

The visual environment of humans is full of details. This incredible amount of data can neither be processed nor stored when assuming a limited computational power and memory capacity. Consequently, a selective processing is necessary, which leads to different representations of the same scene depending on the given task. Psychophysical experiments show that both the spatial domain as well as the feature domain are parsed selectively. In doing so, only those information are extracted from the visual scene that are required to solve a given task. This thesis proposes a flexible system architecture along with a control mechanism that allows for a task-dependent representation of a visual scene. Contrary to existing approaches, the resulting system is able to acquire information selectively according to the demands of the given task. This system comprises both a short-term and a long-term memory, a spatial saliency algorithm and multiple visual processing modules used to extract visual properties of a focused object. At this, the different visual processing modules operate independently and are specialized in extracting only a single visual property. However, the dynamic coupling of multiple processing modules allows for the extraction of specific more complex features that are relevant for solving the given task. Here, the proposed control mechanism decides which properties need to be extracted and which processing modules should be coupled. This decision is based on the knowledge stored in the long-term memory of the system. Additionally, the control mechanism ensures that algorithmic dependencies between processing modules are resolved automatically, utilizing procedural knowledge which is also stored in the long-term memory. A proof-of-concept system is implemented according to the system architecture and the control mechanism presented in this thesis. The experimental evaluation using a real-world table scene shows that, while solving the given task, the amount of data processed and stored by the system is considerably lower compared to processing regimes used in state-of-the-art systems. This in turn leads to a noticeable reduction of the computational load and memory demand. In doing so, the present thesis contributes to a task-dependent representation of visual scenes, because only those information are acquired and stored that are relevant for solving the given task.

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten