Considerazioni "notturne" sulla visione artificiale
La percezione visiva è un fenomeno molto complesso che si basa su differenti processi a vari livelli di complessità. Il riconoscimento del volto umano è un tipico problema di visone artificiale in cui è possibile affrontere le insidie della percezione visiva in un ambito di estremo interesse. Le note quì riportate evidenziano alcune considerazioni di carattre generale relative a tale problema.
|
Federico Ceccarini Engineering.IT |
Key research interests: Human-computer interfaces. Artificial Intelligence. Multi-modal signal processing. Computational Emotion Model. Emotion recognition by gesture. |
Un algoritmo ideale per il riconoscimento del volto e più in generale degli oggetti all’interno di immagini o filmati non dovrebbe basarsi esclusivamente dall'analisi delle immagini vista come un insieme "informe" di pixel. Spesso le deludenti performance di alcuni algoritmi può ricondursi al tentativo di utilizzare come features base per il riconoscimento i pixel. Il problema si può sintetizzare con un paragone. L'analisi delle immagini basata esclusivamente sui pixel è paragonabile ad un sistema che tenta di riconoscere un autore,ad esempio Shakespeare, analizzando le lettere di cui si compone un'opera o ancor peggio in base al modo in cui l’inchiostro è distribuito sul foglio. E’ opinione diffusa, e noi ne siamo fortemente convinti, che il riconoscimento di un oggetto nel nostro cervello rappresenta un meta-processo composto da innumerevoli sotto processi ognuno dei quali agisce ad un livello diverso . Una prima elaborazione avviene certamente ad un livello molto basso che possiamo definire livello pixel. Nella retina e sulle aree visive del cervello immediatamente adiacenti ad essa ci sono gruppi di cellule/neuroni altamente specializzate ad individuare features di livello maggiore a partire dall'analisi dei pixel. A conferma di ciò alcune ricerche hanno mostrato l’esistenza di cellule che sono in grado di attivarsi al riconoscimento/individuazione di linee verticali. Tali gruppi di cellule propagano queste informazioni all’interno del cervello dove altri gruppi di neuroni le utilizzano come dati di input per più complesse funzioni di classificazione. Quest'ultime, a differenza delle precedenti, non basano le loro elaborazioni sui pixel ma sulle features individuate dagli strati di neuroni di livello inferiore e così via in una struttura altamente stratificata in cui l’output di uno strato fornisce l’input (di livello superiore) per lo strato successivo. Ad ogni livello, le configurazioni di queste features può corrispondere o meno alle tracce caratteristiche di specifici features o oggetti di livello superiore. Ad ogni passo, mentre si va via via verso l’alto, nuove informazioni sono collezionate, dedotte ed aggiunte alle precedenti. Queste idee non sono nuove ed in parte sono state utilizzate ad esempio nei sistemi di riconoscimento basati su classificatori haar-like con algoritmi di selezione on cascade. Ma il cervello fa qualcosa in più: effettua associazioni! Quando una certa configurazione sembra rispondere a quella di un dato oggetto si attivano aree del cervello in cui è memorizzato il modello dell’oggetto. Il cervello stesso prova a mettere assieme i dati percepiti con quelli del modello. Osservato da questo punto di vista il fenomeno della percezione visiva risulta essere un fenomeno dinamico ed interattivo a cui il cervello contribuisce attivamente. Crediamo che un sistema multilivello, parallelo, basato su stratificazioni di algoritmi operanti su features a differenti livelli e con feed-back legati a meta-modelli mentali possegga le principali caratteristiche necessarie per affrontare il problema della percezione visiva. E’ importante sottolineare che il processo di riconoscimento è un processo a due vie: l’input iniziale è quello fornito dalla retina ed è costituito principalmente da informazioni circa il colore, l’intensità, il contrasto ma ad ogni passo elaborativo l’input viene arricchito di informazioni plausibili che modificano l’input iniziale stesso in un fenomeno che potremmo definire "falsificazione percettiva". Questo fenomeno è probabilmente alla base sia dell’efficacia e flessibilità del sistema di riconoscimento adottato dai cervelli sia della sua fallibilità. Ognuno di noi ha sperimentato fenomeni di tipo visivo in cui si crede di vedere qualcosa che non c’è o che non avremmo potuto vedere. Fino a quando si cercherà di riconoscere la divina commedia dalla distribuzione dell’inchiostro sulle pagine i sistemi che riusciremo a realizzare saranno solo poco più di giocattoli. L’inchiostro dovrà essere riconosciuto in lettere (attraverso un sistema associativo che provi ad effettuare il match di ciò che si percepisce con i modelli mentali di cui si dispone per le lettere ed i segni di interpunzione), le lettere porteranno al riconoscimento delle parole, le parole si comporranno in frasi, le frasi in periodi ed i periodi, le frasi e le parole saranno confrontate con le mappe associative che rappresentano le parole, le frasi ed i periodi usati dal sommo poeta. A livello più alto risiede il processo, l’unico, di cui noi esseri umani siamo consci e che chiamiamo riconoscimento e che ci consente di riconoscere l’inconfondibile stile che caratterizza le opere di Dante.


SocialCom 2012 workshop on: Exploring Stances in Interactions: Conceptual and Practical Issues in Social Signal Processing Research
