IT201600103076A1 - Procedimento di rilevazione del c.d. view frustum, sistema e prodotto informatico corrispondenti - Google Patents
Procedimento di rilevazione del c.d. view frustum, sistema e prodotto informatico corrispondentiInfo
- Publication number
- IT201600103076A1 IT201600103076A1 IT102016000103076A IT201600103076A IT201600103076A1 IT 201600103076 A1 IT201600103076 A1 IT 201600103076A1 IT 102016000103076 A IT102016000103076 A IT 102016000103076A IT 201600103076 A IT201600103076 A IT 201600103076A IT 201600103076 A1 IT201600103076 A1 IT 201600103076A1
- Authority
- IT
- Italy
- Prior art keywords
- person
- frustum
- attention
- head
- attention map
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 35
- 238000001514 detection method Methods 0.000 title description 6
- 238000012545 processing Methods 0.000 claims description 25
- 230000000007 visual effect Effects 0.000 claims description 21
- 230000003993 interaction Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 13
- 241000282414 Homo sapiens Species 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 230000033001 locomotion Effects 0.000 claims description 6
- 238000012886 linear function Methods 0.000 claims description 3
- 238000010295 mobile communication Methods 0.000 claims description 3
- 210000003128 head Anatomy 0.000 description 35
- 230000036544 posture Effects 0.000 description 28
- 238000013459 approach Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000007637 random forest analysis Methods 0.000 description 5
- 230000001276 controlling effect Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000019771 cognition Effects 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 206010057315 Daydreaming Diseases 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 101100258093 Drosophila melanogaster stum gene Proteins 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 101100258095 Mus musculus Stum gene Proteins 0.000 description 1
- 241000287181 Sturnus vulgaris Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000005755 formation reaction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000001846 repelling effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Burglar Alarm Systems (AREA)
- Radar Systems Or Details Thereof (AREA)
- Geophysics And Detection Of Objects (AREA)
Description
“Procedimento di rilevazione del c.d. view frustum e sistema e prodotto informatico corrispondenti”
TESTO DELLA DESCRIZIONE
Campo tecnico
La descrizione si riferisce alla rilevazione del view frustum.
Una o più forme di attuazione possono essere applicate ad esempio alla gestione di sistemi di illuminazione “intelligenti”.
Nel corso di questa descrizione si farà riferimento a vari documenti riproducendo tra parentesi quadre (ad esempio [X]) un numero che identifica il documento in un ELENCO DEI DOCUMENTI CITATI che appare alla fine della descrizione.
Sfondo tecnologico
Il tracciamento o inseguimento (tracking) è un problema classico nella visione artificiale, che riceve attenzione da più di 30 anni, a causa della sua importanza in applicazioni quali la sorveglianza, la diagnostica medica e, più recentemente, la robotica.
Particolarmente nelle applicazioni di robotica, il tracciamento è stato combinato con la predizione, per consentire un intervento tempestivo di una macchina per facilitare l’attività di esseri umani, ad esempio per aprire un frigorifero quando una persona si avvicina ad esso.
Anche la rilevazione del view frustum è un problema recente con alto potenziale per le moderne applicazioni di visione.
Il view frustum (o viewing frustum) è la regione di spazio che può apparire sullo schermo di un computer, e rappresenta quindi più o meno quello che è il campo visivo per una ideale camera. La denominazione “frustum” (tronco) evidenzia il fatto che il view frustum può essere ottenuto prendendo un tronco (cioè un frustum) della piramide della visione con piani paralleli. Si tratta di una implementazione pratica del cono (ideale) di visione di un occhio quando si considera una finestra (viewport) rettangolare come utilizzata ad esempio in grafica di computer. Per questo motivo il termine piramide di visione è talvolta utilizzato come sinonimo di view frustum.
La forma esatta della regione coperta da un view frustum può variare ad esempio secondo il sistema ottico considerato. Nella maggior parte delle applicazioni, può essere considerata essere un tronco di piramide a base rettangolare.
Recenti progressi nella rilevazione di persone consentono la ricerca delle loro posture, incluso il view frustum, facilitando la comprensione della loro attenzione visiva.
Gli studi di valutazione della postura del capo (head pose) sono aumentati sistematicamente nei tempi recenti nell’area della visione artificiale. Questi studi sono principalmente nel campo dell’interazione uomo-computer e dell’elaborazione emotiva [1, 2], in cui i capi vengono rilevati con un elevato livello di dettaglio in ambienti controllati, con lo scopo di catturare segnali sociali sottili o di aiutare l'analisi dello sguardo.
Altri lavori si concentrano sulla individuazione della postura del capo in scenari aperti, come nella sorveglianza, dove un certo numero di persone può essere catturato con bassa risoluzione [3, 4, 5]. In questo caso, la postura del capo può essere utilizzata per dedurre il campo della visuale di vista (FOV) di un essere umano [6], che a sua volta può approssimare l'attività dello sguardo [7]; un concetto basilare consiste nell’allineare un cono con angoli 130°-135° in verticale e 200°-220° in orizzontale con il vettore che ha origine dal naso, ortogonale rispetto al piano coronale del volto: in questo volume o spazio, chiamato anche il visual frustum (o, con una designazione sinonima, fuoco) di attenzione (VFOA) [7], può verificarsi l’atto di fissare degli occhi.
È ragionevole ipotizzare che la distribuzione dello sguardo e i processi cognitivi siano correlazione [8, 9, 10], e la stima del FOV può quindi essere un modo per ipotizzare dove viene spesa (dedicata) l'attenzione del soggetto. In particolare, la stima della postura del capo in scenari aperti è stata applicata per dedurre l'attenzione rivolta a negozi [7], o a diverse aree di una scena [11] o per individuare le cosiddette formazioni F [5, 12].
A partire da certe indagini teoriche [13], recenti studi sull’illuminazione artificiale in spazi pubblici [14, 15], ispirati dalla ricerca delle neuroscienze [16, 17], hanno analizzato atti critici di fissare visivamente (critical visual fixation) in pedoni che camminano in spazi pubblici. Gli atti critici di fissare visivamente possono essere diversi da semplici atti di fissare perché implicano processi cognitivi focalizzati sull'oggetto dell’atto del fissare, mentre semplici atti di fissare possono essere l'effetto di sognare ad occhi aperti o di pensieri non correlati a compiti [16]. Ad esempio, grazie a dispositivi portatili di tracciamento degli occhi, esiste la possibilità di controllare quali oggetti sono stati fissati (criticamente), classificandoli per esempio in otto categorie: persona, percorso (cammino nel senso di marcia), minaccia latente, obiettivi, veicoli, rischi di viaggio, oggetti di grandi dimensioni, ambiente generale. I risultati suggeriscono che le osservazioni critiche più frequenti sono il percorso e le altre persone, con una tendenza a fissare altre persone a grandi distanze e a fissare il percorso a distanze ravvicinate.
A questo proposito, è stato osservato che la postura del capo può rappresentare un segnale espressivo per la ricerca di gruppi in una folla [14] e che informazioni sui gruppi potrebbero migliorare le prestazioni di tracciatori guidati socialmente [18], e permettere un approccio di tracciamento-tramite-rilevazione [19].
Per esempio, in [13] sono investigati compiti visivi critici eseguiti da pedoni mentre vagano, suggerendo che questi compiti comprendono rilevazione di ostacoli, riconoscimento facciale di altri pedoni e orientamento visivo, senza tuttavia convalidare queste ipotesi e/o soppesarne l'importanza relativa. Il tracciamento degli occhi è stato quindi adottato per ottenere risultati quantitativi, in primo luogo su impostazioni di laboratorio controllate.
In [16], i partecipanti camminano su tre percorsi di 10m; due dei percorsi hanno impronte distanziate in modo regolare o irregolare che i soggetti devono calpestare, mentre un terzo percorso non ha impronte. I risultati mostrano che, per oltre il 59% del tempo totale dell’atto di fissare, lo sguardo era tenuto sul percorso vicino ad una distanza fissa leggermente più avanti del pedone, con atti di fissare le impronte che rappresentano il 16%. La relazione tra velocità e ampiezza del VFOA è investigata in [21], in cui è stato chiesto a ciclisti di percorrere un tratto di 15m in un ambiente interno con tre larghezze di corsia e a tre diverse velocità. I risultati hanno mostrato che i percorsi più stretti e le velocità più elevate richiedono un più ristretto modello di ricerca visiva e un minor numero di atti di fissare senza compiti. Questi studi sono stati criticati come essere innaturali, svolgendosi in scenari obbligati carenti delle caratteristiche di distrazione che sono presenti nel mondo reale, come ad esempio altri pedoni, edifici e oggetti attrattivi.
Sistemi mobili di tracciamento degli occhi possono affrontare questo problema, permettendo che il tracciamento degli occhi possa essere eseguito in situazioni ambientali all'aperto. I primi studi di questo tipo hanno mostrato che il 21% del tempo dell’atto di fissare era diretto verso persone, il 37% verso il percorso, e il 37% verso altri oggetti [22], con la percentuale di atti di fissare verso il percorso in aumento durante le ore notturne (40-50 %) [23].
Questi risultati sono stati criticati notando ad esempio che l'oggetto o l'area che una persona fissa non riflette sempre dove si focalizza la sua attenzione, a causa ad esempio di attività di sogni ad occhi aperti o di pensieri non correlati a compiti [23, 24, 14]. Sono stati studiati protocolli alternativi, ad esempio concentrandosi su cambiamenti negli atti di fissare, che dovrebbero riflettere cambiamenti rispetto a dove è focalizzata l'attenzione, con la connessione tra movimenti degli occhi e attenzione ancora oggetto di studi.
Per questo motivo, in [14, 15] è stato sfruttato il concetto dell’atto di fissare critico, notando che atti critici di fissare visivamente sono diversi da semplici atti di fissare poiché comportano processi cognitivi focalizzati sull'oggetto dell’atto del fissare. Il modo per rilevare atti di fissare critici si basa sulla presenza di un compito secondario: oltre al compito primario (camminare in un ambiente), deve essere eseguito un compito secondario (premendo un pulsante dopo aver ascoltato uno stimolo uditivo). Un ritardo nel completamento del compito secondario viene utilizzato per identificare atti di fissare critici. Nello studio di [14], già menzionato, è stato chiesto ai partecipanti di camminare per un tragitto breve (900m) e eterogeneo (incroci stradali, terreno irregolare, zone residenziali e piazze affollate) indossando un equipaggiamento di tracciamento degli occhi e realizzando un duplice compito. Come indicato, atti di fissare critici sono stati suddivisi in otto categorie: persona, percorso (cammino nel senso di marcia), minaccia latente, obiettivi, veicoli, rischi di viaggio, oggetti di grandi dimensioni, ambiente generale. I risultati hanno mostrato che le osservazioni critiche più frequenti sono sul percorso (22%), su persone (19%) e sull'obiettivo (15%), con una tendenza a fissare altre persone a grandi distanze (> 4 m) e a fissare il percorso a distanze ravvicinate (≤ 4m). Inoltre, si ipotizza che atti di fissare persone sono dovuti alla necessità di percepire il loro movimento (velocità e direzione) [15].
Alcuni studi fisiologici hanno lo scopo di determinare la dimensione del VFOA (ad esempio un cono con angoli a 130° -135° in verticale e 200° -220° in orizzontale) [9]; in [25], è dimostrato che vi è un graduale calo in efficienza di elaborazione intorno al fuoco di attenzione.
I risultati di [14, 15] e simili esperimenti non sono indirizzati al caso di soggetti che formano gruppi. Questo può essere un punto di interesse, in quanto persone che camminano insieme possono avere un comportamento dell’atto di fissare differente rispetto a soggetti singoli; infatti, persone in un gruppo in movimento, oltre agli atti di fissare individuali necessari per la pianificazione del percorso, possono mantenere un contatto visivo reciproco per mantenere connessione sociale, vale a dire, la gestione dei turni in una conversazione, l'elaborazione di segnali sociali non verbali etc. [26, 27].
Diversi studi impiegano VFOA in scenari senza restrizioni, senza sensori ad alta risoluzione per catturare l'attività esatta dello sguardo. In precedenza lavori come [3, 7] si concentravano sulla stima di VFOA sulle immagini a bassa risoluzione, congiuntamente con la postura della persona, con il VFOA utilizzato principalmente per individuare le interazioni sociali.
In [28] la direzione del capo serve per dedurre un visual frustum 3D come approssimazione del VFOA di una persona. Dati il VFOA e l’informazione di vicinanza, sono stimate interazioni: l'idea di base è che persone vicine, il cui view frustum si sta intersecando stanno interagendo in qualche modo. La stessa idea è stata esplorata in [29].
Più in dettaglio, in [8], il VFOA è definito come un vettore che punta al fuoco di attenzione, grazie ad una stima approssimativa della direzione dello sguardo ad una bassa risoluzione, con l'obiettivo di analizzare il comportamento dello sguardo di persone davanti ad una vetrina. La proiezione del VFOA sul pavimento è stata modellata come una distribuzione Gaussiana di “campioni di attenzione” davanti ad un pedone in [30]: maggiore è la densità, più forte è la probabilità che in quella zona possano fissarsi gli occhi.
La modellazione di [31] è più fondata fisiologicamente, con il VFOA caratterizzato da una direzione θ (che è l'orientamento del capo della persona), un'apertura α = 160° ed una lunghezza l. L'ultimo parametro corrisponde alla varianza della distribuzione gaussiana centrata intorno alla posizione di una persona. Anche in questo caso, sono stati usati campioni di attenzione per misurare la probabilità di dove possono fissarsi gli occhi: un campionamento più denso è stato usato in posizioni più vicine alla persona, diminuendo la densità nelle zone più lontane. Il frustum è generato dal prelievo di campioni dal kernel gaussiano di cui sopra e mantenendo solo quei campioni che rientrano nel cono determinato dall’angolo α. In [32], l'apertura del cono è mostrata modulata in modo da simulare le zone di attenzione più o meno focalizzata.
Acquisire la semantica dalla scena ha vasta applicazione in differenti campi che vanno dalla visione artificiale alla illuminazione intelligente.
Come miglioramento rispetto agli interruttori manuali convenzionali, nel prodotto disponibile presso le società OSRAM con il nome commerciale di Lightify<TM>[20], un'interfaccia utente grafica (GUI) consente il raggruppamento di luci e la loro commutazione tramite tocco su un display di un dispositivo intelligente.
Entrambe tali tecniche di commutazione hanno svantaggi: gli interruttori manuali non possono essere cambiati dopo l’ordine, o senza l'intervento di un tecnico, mentre in Lightify<TM>i gruppi sono definiti da elenchi di luci collegate, il che non facilita rendere intuitiva la loro selezione.
Scopo e sintesi
Uno scopo di una o più forme di attuazione è quello di contribuire a fornire ulteriori miglioramenti nel settore della tecnologia discussa in quanto precede.
Secondo una o più forme di attuazione, tale scopo può essere raggiunto mediante un procedimento come esposto nelle rivendicazioni che seguono.
Una o più forme di attuazione possono riferirsi ad un sistema corrispondente, nonché ad un prodotto informatico caricabile nella memoria di almeno un modulo di elaborazione (ad esempio, un computer) e comprendente porzioni di codice software per eseguire le fasi del procedimento quando il prodotto viene eseguito su almeno un modulo di elaborazione. Come qui utilizzato, il riferimento ad un tale prodotto informatico è inteso come essere equivalente al riferimento ad un mezzo leggibile da computer contenente istruzioni per il comando del sistema di elaborazione in modo da coordinare l'attuazione del procedimento secondo una o più forme di attuazione. Il riferimento a “almeno un computer” è inteso per sottolineare la possibilità che una o più forme di attuazione siano attuate in forma modulare e/o distribuita.
Le rivendicazioni sono parte integrante della descrizione qui fornita in relazione all’una o più forme di attuazione.
Una o più forme di attuazione possono basarsi sul riconoscimento che il visual frustum di attenzione (VFOA) identifica il volume di una scena su cui possono fissarsi gli occhi di una persona; questo può essere dedotto dalla stima della postura del capo, e può essere importante in quelle situazioni in cui non si possono recuperare informazioni precise sullo sguardo, come in scenari di sorveglianza con occlusione.
In passato, questo è stato sfruttato per individuare l'interesse riscontrato in certe zone di vari ambienti (negozi, piazze aperte, hall di aeroporti, etc.), o per individuare gruppi: una o più forme di attuazione possono basarsi sul riconoscimento del fatto che la stima VFOA può essere vantaggiosa, oltre che in queste applicazioni specifiche, anche più in generale per affrontare una situazione di tracciamento multi-oggetto.
Una o più forme di attuazione possono quindi consentire di prendere in considerazione teorie sociali e risultati di psicologia sperimentale, e di fornire un modello di previsione per il tracciamento che utilizza mappe di attenzione derivate da stime del VFOA. Anche in scenari affetti da rumore, queste mappe possono consentire ad un tracciatore di identificare ad esempio quelle aree in cui ad esempio i pedoni potrebbero essere presenti con maggiore probabilità nel futuro, tenendo conto di potenziali collisioni e formazioni di gruppi.
Una o più forme di attuazione possono fornire un modello di previsione che è preciso e robusto. Se associato ad esempio ad un approccio tracciamento-tramiterilevazione, una o più forme di attuazione possono migliorare sistematicamente le prestazioni di tracciamento su diversi benchmark.
Una o più forme di attuazione possono contemplare di utilizzare VFOA per applicazioni di illuminazione intelligenti, ad esempio in disposizioni in cui la direzione visiva di un umano può essere utilizzata per interagire con un sistema di gestione di luci.
Una o più forme di attuazione possono contare sul riconoscimento che la stima della postura del capo può essere usata per configurare un modello predittivo efficace per il tracciamento multi-oggetto, in grado di migliorare in modo sistematico le prestazioni di approcci di tracciamento convenzionali.
Una o più forme di attuazione possono essere basate sull'ipotesi che una stima robusta in tempo reale dell'orientamento del capo di un pedone, e quindi della sua VFOA, può facilitare la previsione del suo percorso vicino futuro, tenendo conto degli altri elementi che sono nella scena (pedoni, ostacoli).
Una o più forme di attuazione possono implicare la creazione di mappe di attenzione della scena (ad esempio una per ciascun pedone) che ad ogni pixel contengono la probabilità di passarvi. Per esempio, queste mappe possono essere create accumulando VFOA ad ogni intervallo di tempo, in modo che un orientamento stabile del capo possa prevedere un percorso possibile nel futuro con maggiore affidabilità di una postura del capo che cambia frequentemente. I-noltre, si possono trovare posture del capo di altre persone per agire su mappe di attenzione per esempio scoraggiando potenziali traiettorie che possono portare a collisioni.
Una o più forme di attuazione possono basarsi sul riconoscimento che la postura del capo (head pose) può essere un segnale espressivo per la ricerca di gruppi in una folla, per esempio permettendo così di raccogliere informazioni di attenzione sui gruppi nella forma di VFOA collettivi.
In una o più forme di attuazione questi elementi possono essere utilizzati per creare mappe nel tempo, che possono essere impiegate nella configurazione di modelli di previsione per una grande varietà di tracciatori. Una o più forme di attuazione possono avvalersi della capacità di mappe di attenzione di migliorare le prestazioni di tracciatori a guida sociale, per esempio per consentire il tracciamento mediante rilevazione.
In una o più forme di attuazione, la rilevazione robusta in tempo reale di VFOA può servire inoltre come uno strumento di interazione uomo-illuminazione, migliorando così gli attuali procedimenti per il comando dell'illuminazione che comprendono interruttori manuali a parete nel muro.
Per esempio, mentre in sistemi di illuminazione convenzionali più dispositivi di illuminazioni vengono comandati in modo indipendente per mezzo di interruttori diversi, in una o più forme di attuazione un VFOA decodificato può essere utilizzato per indirizzare i dispositivi di illuminazione guardandoli, determinando così un modo più naturale e intuitivo di interazione uomo-illuminazione.
Una o più forme di attuazione possono implicare una combinazione di un approccio di VFOA per identificare un dispositivo di illuminazione da comandare e di una tecnica di comando dell’illuminazione (interruttore a parete o ad esempio una disposizione Lightify<TM>) per cambiare lo stato della luce, ad esempio, commutazione, attenuazione, colore, offrendo così la possibilità di applicare un VFOA decodificato per la commutazione della luce.
In una o più forme di attuazione, un VFOA può essere combinato con il comando basato su gesti, per un comando dell’illuminazione completo basato sul corpo umano. Per esempio, VFOA può essere utilizzato per indirizzare un dispositivo o sorgente di illuminazione “oggetto”, mentre un gesto della mano può essere utilizzato per modificare il suo stato, offrendo così la possibilità di applicare un VFOA decodificato in combinazione con il comando basato su gesti.
Una o più forme di attuazione possono implicare il tracciamento di persone utilizzando un visual frustum di attenzione (VFOA) come un modello predittivo in un contesto di tracciamento.
In una o più forme di attuazione un VFOA può essere sfruttato per la raccolta di posizioni plausibili su cui possono fissarsi gli occhi (non esattamente stimabili in uno scenario di sorveglianza in cui la camera è lontana dalle persone) offrendo così la possibilità di utilizzare VFOA come informazione di supporto per esempio nel caso di occlusione.
Considerando il graduale calo in efficienza di elaborazione attorno al fuoco di attenzione, una o più forme di attuazione possono adottare un VFOA con contorni smussati.
Una o più forme di attuazione possono assumere che l'intersezione del VFOA con la scena indichi il percorso futuro probabile, e, nel caso di altre persone all'interno del VFOA, questi possono essere elaborati per determinare possibili aree di collisione, che saranno evitate con una certa probabilità.
In una o più forme di attuazione, persone distribuite in gruppi possono essere considerate come un unico soggetto (ad esempio condividendo una traiettoria abbastanza simile, con una destinazione simile), con un VFOA esteso ottenuto come l’unione dei loro VFOA individuali.
In una o più forme di attuazione, un segnale visivo di ingresso può essere trasmesso ad un sistema di elaborazione (ad esempio una pipeline di elaborazione) con l’orientamento del capo di un soggetto da prima stimato, seguito da formulazione di view frustum sulla base dell'orientamento del capo; una mappa di attenzione probabilistica (o, con una designazione sinonima, maschera di attenzione) può poi essere creata sulla base dell'orientamento, della posizione del soggetto, e di altri pedoni nella scena.
Una o più forme di attuazione possono quindi coinvolgere l’utilizzo del VFOA in un modello predittivo.
Breve descrizione delle figure
Una o più forme di attuazione verranno ora descritte, soltanto a titolo di esempio, con riferimento alle figure allegate, in cui:
- la figura 1 è uno schema a blocchi funzionale esemplificativo di una o più forme di attuazione, e
- la figura 2 è un diagramma di flusso esemplificativo di possibili fasi in una o più forme di attuazione.
Descrizione particolareggiata
Nel seguito sono illustrati uno o più dettagli specifici, finalizzati a fornire una comprensione approfondita di esempi di forme di attuazione. Le forme di attuazione possono essere ottenute senza uno o più dei dettagli specifici, o con altri procedimenti, componenti, materiali, etc. In altri casi, strutture, materiali od operazioni noti non sono illustrati o descritti in dettaglio in modo che certi aspetti di forme di attuazione non saranno oscuri.
Il riferimento a “forma di attuazione” o “una forma di attuazione” nell'ambito della presente descrizione intende indicare che una particolare configurazione, struttura o caratteristica descritta in relazione alla forma di attuazione è compresa in almeno una forma di attuazione. Quindi, frasi come “in una forma di attuazione” o “nella forma di attuazione” che possono essere presenti in uno o più punti della presente descrizione non si riferiscono necessariamente ad una e alla stessa forma di attuazione. Inoltre, particolari conformazioni, strutture o caratteristiche possono essere combinate in un qualsiasi modo adeguato in una o più forme di attuazione.
I riferimenti citati nel presente documento sono forniti solo per comodità e, quindi, non definiscono l'estensione della protezione o l’ambito delle forme di attuazione.
Una o più forme di attuazione possono basarsi sull’elaborazione di segnale eventualmente eseguita in un sistema 1000 configurato - in un modo di per sé noto - per ricevere ed elaborare un segnale di immagine (ad esempio un segnale video digitale) come fornito da un dispositivo di acquisizione di immagini, come ad esempio una camera W. Tale sistema 1000 può essere configurato (per esempio come pipeline di elaborazione) in modo da attuare un procedimento come esemplificato nel seguito.
In una o più forme di attuazione, tale procedimento può comprendere un certo numero di fasi/blocchi come esemplificato nella figura 1.
In breve, in una o più forme di attuazione, un segnale visivo di ingresso (ad esempio digitale) come fornito da un dispositivo di acquisizione di immagini W (ad esempio una camera) può essere alimentato ad una pipeline di elaborazione comprendente un modulo o blocco di ingresso 100 il la cui uscita viene trasmessa ad un secondo modulo/blocco 102 in cui può essere stimato l'orientamento del capo di un soggetto incluso nel segnale dell’immagine acquisita dal dispositivo W. In un successivo modulo/blocco 104, un view frustum può essere formulato come una funzione di orientamento del capo come stimato. Infine può essere creata in un modulo/blocco 106 una mappa (o maschera) di attenzione probabilistica sulla base dell'orientamento, della posizione del soggetto e delle informazioni su altri pedoni inclusi nella scena come vista dal dispositivo di acquisizione di immagini W.
La mappa (maschera) di attenzione probabilistica così creata può essere emessa in uscita dal sistema 10 ad esempio per l’uso come ulteriormente discusso nel seguito, per esempio per comandare un sistema di illuminazione “intelligente” L.
Una o più forme di attuazione possono quindi contemplare fasi quali:
- trasmettere un segnale visivo di ingresso ad una pipeline di elaborazione,
- stimare l'orientamento del capo di un soggetto, - formulare un view frustum in base all'orientamento stimato del capo,
- creare una mappa (maschera) di attenzione probabilistica in base all'orientamento e alla posizione del soggetto (e di altri possibili soggetti ad esempio i pedoni nella scena).
Una o più forme di attuazione possono contemplare fasi quali:
- stimare una postura del capo di un soggetto che entra in una scena come rilevato da un dispositivo di acquisizione di immagini (ad esempio una camera W),
- generare una maschera (mappa) del view frustum in funzione dell'orientamento del soggetto in base alla postura stimata del capo,
- creare una mappa (maschera) di attenzione per il soggetto in base alla posizione e all'orientamento del soggetto e, eventualmente, di altri soggetti (ad esempio pedoni) nella scena.
Una o più forme di attuazione possono contemplare fasi quali:
- generare un segnale rappresentativo della posizione e dell'orientamento di un soggetto e di altri soggetti nella scena,
- costruire un frustum individuale dello stesso,
- costruire un frustum di gruppo,
- costruire un frustum di interazione,
- accumulare una mappa (maschera) di attenzione per derivare un punto di destinazione D.
La stima della postura del capo è di per sé un compito impegnativo a causa di sottili differenze tra le posture umane.
Tuttavia, sono state sviluppate diverse tecniche che vanno da caratteristiche delle immagini a basso livello ad architetture di apprendimento basate sull’aspetto al fine di affrontare il problema della stima della postura del capo.
Per esempio [33, 34] descrivono l’utilizzo di reti neurali per stimare la postura del capo.
In [11] è adottato un approccio fern-based randomizzato per stimare l'orientamento del capo. La designazione fern randomizzato indica una estensione/variazione del concetto di foresta casuale (Random Forest - RF), tranne per il fatto che nel randomized fern uno stesso test è utilizzato per tutti i rami che hanno la stessa profondità, con la possibilità di dare origine a soluzioni che possono essere computazionalmente migliori di un RF.
In alcuni casi la precisione può essere limitata a causa ad esempio di due immagini della stessa persona in postura differenti che appaiono più simili rispetto a due persone differenti in una stessa postura. Inoltre, l’elaborazione di caratteristiche di immagini di basso livello in immagini a bassa risoluzione può essere di per sé difficile e un'architettura di apprendimento può contenere scostamenti sulla base di campioni positivi e negativi [35].
Una o più forme di attuazione possono adottare una tecnica simile a quella descritta in [35] per valutare la postura del capo nel modulo/blocco/passo 102.
Per esempio, in una o più forme di attuazione, un frammento dell’immagine del capo può essere trasmesso come un ingresso ad un banco di filtri. La risposta del banco di filtri può essere sparsa e contenere informazioni di gradiente e colore dell'immagine in ingresso. La dimensionalità della risposta sparsa può essere ulteriormente compressa da ogni nodo della foresta casuale utilizzando proiezione casuale. Infine, questa risposta compressa del filtro può essere classificata utilizzando una foresta casuale.
Per l’addestramento, una postura del capo può essere quantizzata nell'intervallo da 0° a 360° ad esempio con un intervallo di 15°, vale a dire con una granularità della classificazione fino a 15°.
In una o più forme di attuazione, i dati possono essere suddivisi casualmente in insiemi di addestramento e di test con un classificatore di addestramento su dati di addestramento etichettati manualmente.
Infine, le prestazioni del classificatore possono essere valutate su un insieme di test.
Per esempio, si può considerare una sequenza video di T fotogrammi dell’immagine S = {It}t=1….T. Ad ogni frame t si può ritenere che un insieme di N pedoni sia rilevato e descritto dalla loro posizione e orientamento sul piano di terra Pt,i= [xt,i, yti, αt,i], i = 1……N.
Per ogni pedone del frame t, si può calcolare un fru-
stum personale come una distribuzione gaussiana sulla variabile θ in coordinate polari, con valore medio αt,i e deviazione standard σ:
dove .
Se si assume che le persone che interagiscono in un gruppo stanno camminando verso un punto di destinazione comune, esiste la possibilità di trattarli come una singola persona assegnando a tutti loro uno stesso frustum di grup-
po definito come la media di tutti i frustum personali degli individui appartenenti al gruppo:
dove G è un gruppo generico di persone interagenti. Inoltre, si può supporre che le persone, cercando di evitare collisioni con altri individui, possano non focalizzarsi sulla collocazione del loro obiettivo se qualcuno è sulla loro linea di visuale.
Così, si può generare un frustum di interazione sottraendo dal frustum di gruppo del soggetto tutti i frustum di gruppo relativi ai pedoni che:
(1) sono all’interno della regione più alta del view frustum del soggetto, (2) stanno puntando il proprio frustum verso il soggetto, e (3) sono più vicini di una soglia di distanza.
Questo può essere espresso in termini matematici come:
dove dijè la distanza euclidea tra le posizioni della persona i e j, in cui τp and τd sono due soglie i cui valori possono essere impostati per esempio a 0,8 e 2 metri, secondo per esempio la letteratura sociologica [36].
I frustum di interazione di un singolo soggetto come generati nel modulo/blocco/passo 104 nella figura 1 possono poi essere accumulati nel tempo per generare una mappa o
maschera di attenzione per ogni pedone al tempo t, come dato ad esempio da:
Sulla base di tale maschera di attenzione, si può stimare un punto di destinazione più plausibile Dt,i, per il percorso del pedone specifico per esempio per essere utilizzato nel prevedere la posizione successiva.
In una o più forme di attuazione, il punto di destinazione può essere definito come il picco (massimo) della maschera di attenzione.
In quei casi in cui la maschera di attenzione è multimodello (ad esempio dimostra massimi di pixel locali multipli) il punto di destinazione può essere definito come il picco/massimo locale che è meglio allineato con l'orientamento corrente del capo:
dove M è un generico picco/massimo locale è
un vettore unitario con orientamento è un vet-
tore unitario con orientamento , e rappresenta il prodotto interno di due vettori nello spazio euclideo.
Il diagramma a blocchi di figura 2 è un esempio di una possibile forma di attuazione del processo appena descritto.
Una volta che viene acquisita l’informazione sulla posizione e l'orientamento di tutti i pedoni in una certa scena nel passo 200, nel passo 202 si può generare un frustum personale come una distribuzione gaussiana dell'orientamento come discusso in precedenza.
La passo 204 è esemplificativa di una situazione in cui per esempio due pedoni, ossia il Pedone 1 e il Pedone 2 vengono rilevati come appartenenti ad uno stesso gruppo, in modo che un frustum di gruppo può essere generato mediante unione in un passo 206 come discusso in precedenza.
Si può poi supporre che un ulteriore pedone, per esempio il Pedone 5, interagisca con il Pedone 1 in quanto soddisfa le tre condizioni considerate in quanto precede, e il suo / la sua frustum può essere sottratto a quello del soggetto in un passo 208.
Come discusso in precedenza, in un passo 210 può quindi verificarsi l’accumulazione sulla maschera di attenzione per trovare un punto di destinazione D.
La presente discussione assume, a titolo di esempio, che altri pedoni nella scena (ad esempio i Pedoni 6 e 7) non possano soddisfare la prima condizione considerata in quanto precede, mentre ancora altri pedoni, ad esempio i Pedoni 3 e 4, non possono soddisfare la seconda e la terza condizione considerate in quanto precede.
Una volta generata la mappa o maschera di attenzione e stimato il punto di destinazione è possibile prevedere una successiva posizione di un particolare pedone ad esempio nel passo 212 formulando un problema di minimizzazione di energia.
A tale riguardo si può presumere che l'accelerazione di un pedone possa essere bassa se confrontata con la frequenza dei frame di una sequenza video come generata da un dispositivo di acquisizione di immagini, come una camera W. Ciò significa che la velocità del pedone cambia gradualmente nei frame, lo stesso vale anche per l'orientamento del capo.
Per questo motivo, una previsione giudiziosa può essere una funzione lineare di un vettore di stato che comprende la posizione del pedone e l’orientamento del capo correnti, la velocità corrente e la velocità prevista
St,i=
in modo tale che
La stima della velocità prevista può quindi essere formulata come un problema di minimizzazione dell'energia.
In una o più forme di attuazione può essere adottata una funzione di costo che è una combinazione lineare di tre termini diversi:
- un termine di interazione fra persone, che tiene conto della natura multi-agente del sistema,
- un termine di destinazione, che tiene conto dell'obiettivo di ciascun comportamento individuale,
- un termine di velocità costante:
In una o più forme di attuazione una velocità costante può essere favorita (regolarizzata) nel modello definendo il termine S come la norma al quadrato dell'accelerazione:
In una o più forme di attuazione, il termine di destinazione può essere l'inverso additivo dell'angolo compreso tra il punto di destinazione, la posizione corrente e la velocità prevista:
Per il potenziale di interazione, in letteratura sono stati proposti vari modelli differenti, basati principalmente sul concetto di forza sociale.
Per esempio, una o più forme di attuazione possono utilizzare il modello di annullamento presentato in [18]. In questo modello, il potenziale di interazione si presenta come una forza di repulsione che penalizza le previsioni che generano configurazioni in cui due pedoni stanno per essere più vicini di una soglia di agio. L'idea di fondo è che una persona non avrebbe permesso ad un altro individuo di entrare nel suo spazio personale; così le persone, quando camminano, possono modificare la loro velocità per evitare che si verifichi questo tipo di situazione.
Da un punto di vista matematico, questo termine può diventare una sommatoria pesata su tutti gli individui nella scena (non considerando il soggetto stesso) delle distanze tra le posizioni previste
dove
La solidità di un tale modello di previsione può essere convalidata introducendola in due diversi tipi di approcci del percorso (ad esempio un approccio con filtro di Kalman ed un approccio con filtro particellare).
In una o più forme di attuazione, si può usare la posizione prevista di una persona con un’alta probabilità assegnata alla regione di ricerca attorno alle posizioni previste nei frame successivi, potendosi così sopprimere (ad esempio scartare) associazioni false semplicemente limitando la zona di ricerca.
In una o più forme di attuazione l’elaborazione come evidenziata in quanto precede può essere sfruttata per il comando dell'illuminazione, ad esempio per comandare il funzionamento di una o più sorgenti (dispositivi) di illuminazione schematicamente rappresentate come L nella figura 1. Sebbene in figura 1 sia indicata per ragioni di semplicità una sola sorgente o dispositivo di illuminazione L, una o più forme di attuazione possono essere applicate per comandare sistemi di illuminazione comprendenti una pluralità di sorgenti o dispositivi di illuminazione L.
Per esempio, in una o più forme di attuazione, data una persona in una stanza, il visual frustum di attenzione (VFOA) come generato nel blocco/modulo/passo 106 di figura 1 può essere decodificato identificando così la direzione in cui la persona sta guardando.
Nella stanza può quindi essere identificata una luce “oggetto” corrispondente (ad esempio in quanto più vicina o la più vicina) alla linea di direzione della VFOA della persona.
In una o più forme di attuazione, ciascuna fra una pluralità di sorgenti/dispositivi di illuminazione in una stanza può essere identificata dalle sue coordinate di posizione x, y, in modo che una linea proveniente dalla persona e diretta lungo la VFOA può consentire di identificare una sorgente/dispositivo di illuminazione come quello per cui la distanza del punto (posizione della luce) dalla linea (VFOA) sia minima, nel piano di terra della mappa.
La distanza da una linea generica ax by c = 0 dal punto (x0 , y0) può essere stimata come:
La sorgente/dispositivo di illuminazione così identificato può quindi essere comandato per mezzo di un sistema di comando C che può comprendere uno qualsiasi fra:
- un interruttore a parete: in questo caso, pur essendo in linea di principio “comune” ad esempio condiviso da una pluralità di sorgenti/dispositivi, l'interruttore a parete interesserà solo la luce “oggetto” identificata tramite il VFOA della persona,
- un dispositivo di comunicazione mobile come ad esempio uno smartphone dotato di una corrispondente applicazione (app): in questo caso tutti i comandi possono essere destinati ad interessare solo la luce oggetto identificata tramite il VFOA della persona;
- un sensore di gesti umani: un tale sensore può attuare ad esempio un procedimento di stima della postura sulla base di immagini per recuperare la posizione/postura della persona a partire dalla posizione del suo corpo e dei suoi arti come rilevati.
Per esempio, in una forma di attuazione per la stima della postura si può adottare una disposizione come Deeper-Cut come descritta in [37]. A titolo di esempio (senza perdita di generalità) si può considerare che il sollevamento e l'abbassamento della mano destra di un utente possono produrre l’attenuazione e l’intensificazione della luce oggetto identificata tramite il VFOA dell'utente.
Una o più forme di attuazione possono quindi consentire:
- la previsione del percorso di persone con l'utilizzo del view frustum,
- il tracciamento di persone con l'utilizzo del view frustum,
- la stima della mappa (maschera) di attenzione di persone con l'utilizzo del view frustum,
- l’utilizzo per l'interazione umana dell’illuminazione.
Una o più forme di attuazione possono fornire previsioni di traiettorie basate su VFOA.
Il tracciamento di persone sulla base del VFOA, ad esempio con previsione del percorso può beneficiare di una zona di ricerca più stretta e più solida: la posizione prevista di una persona in corrispondenza dei frame successivi può essere usata come punto di partenza per la ricerca di una nuova vera posizione di una persona.
Una o più forme di attuazione possono fornire una stima della mappa di attenzione delle persone sulla base di un view frustum.
Per esempio, un VFOA di regressione può permettere di stimare una mappa di attenzione della scena (per esempio una mappa VFOA normalizzata sommando i VFOA di tutti i pedoni in una scena). Questo può evidenziare i fuochi di attenzione delle persone nella scena, cioè quali aree in un'immagine osservata sono principalmente e più probabilmente guardate.
Una o più forme di attuazione possono prevedere l’utilizzo di VFOA per interazioni uomo-illuminazione. Per esempio, una sorgente/dispositivo di illuminazione oggetto può essere identificato su una mappa come la sorgente/dispositivo al quale sono diretti i comandi del controllo (come applicato ad esempio tramite un interruttore a parete, una applicazione intelligente o tramite gesti umani), per esempio “instradando” l'azione di un interruttore ad un apparecchio di illuminazione mirato “visivamente”.
Una o più forme di attuazione possono fornire un procedimento comprendente ricevere (ad esempio 100) da almeno un sensore di immagine (ad esempio una camera digitale W) un segnale d'immagine indicativo della postura del capo di almeno una persona, il procedimento comprendendo elaborare detto segnale di immagine tramite:
- stimare (ad esempio 102), in funzione di detto segnale di immagine ricevuto da almeno un sensore di immagine, detta postura del capo di detta almeno una persona, - generare (ad esempio 104) da detta postura stimata del capo un view frustum di detta almeno una persona,
- generare (ad esempio 106) da detto view frustum un visual frustum di attenzione o VFOA di detta almeno una persona, e
- generare da detto visual frustum di attenzione almeno una fra:
- una traiettoria di movimento prevista di detta almeno una persona, o
- una mappa di attenzione della scena stimata per detta almeno una persona in funzione di detto visual frustum di attenzione.
Una o più forme di attuazione possono comprendere tracciare detta almeno una persona in funzione di detta traiettoria di movimento prevista, ad esempio per attivare automaticamente dispositivi di illuminazione lungo il suo percorso di movimento.
Una o più forme di attuazione possono comprendere l'identificazione in detta mappa di attenzione di almeno un oggetto (ad esempio un dispositivo di illuminazione L) da comandare.
Una o più forme di attuazione possono comprendere comandare mediante un dispositivo di comando (ad esempio C) detto almeno un oggetto identificato in detta mappa di attenzione.
Una o più forme di attuazione possono comprendere identificare in detta mappa di attenzione almeno un dispositivo di illuminazione da comandare.
Una o più forme di attuazione possono comprendere comandare detto almeno un dispositivo di illuminazione mediante un dispositivo di comando, detto dispositivo di comando opzionalmente comprendendo uno fra:
- un interruttore,
- un dispositivo di comunicazione mobile,
- un sensore di gesti umani.
Una o più forme di attuazione possono comprendere:
- predisporre una pluralità di dispositivi di illuminazione controllabili mediante un dispositivo di comando, - individuare in detta mappa di attenzione almeno un dispositivo di illuminazione da comandare in detta pluralità di dispositivi di illuminazione, e
- comandare tramite detto un dispositivo di comando il dispositivo di illuminazione identificato in detta pluralità di dispositivi di illuminazione in detta mappa di attenzione.
Una o più forme di attuazione possono comprendere, per una pluralità di persone in una scena:
- generare (ad esempio 202) un rispettivo view frustum personale per detta pluralità di persone,
- calcolare (ad esempio 204) un view frustum di gruppo medio dei rispettivi frustum personali di un gruppo di persone in detta pluralità di persone,
- generare (ad esempio 206) un frustum di interazione per una persona in detto gruppo sottraendo da detto frustum di gruppo i view frustum relativi a persone in detto gruppo che:
- i) sono all'interno della regione più alta del view frustum di detta una persona,
- ii) stanno puntando il loro view frustum verso detta una persona, e
- iii) sono più vicini di una soglia di distanza a detta una persona, e
- accumulare nel tempo, il frustum di interazione per detta una persona producendo così una mappa di attenzione per detta una persona.
Una o più forme di attuazione possono comprendere il calcolo di un punto di destinazione stimato per detta una persona come un picco di detta mappa di attenzione.
Una o più forme di attuazione possono comprendere:
- rilevare l'orientamento del capo di detta una persona, e
- calcolare detto punto di destinazione stimato come un picco in detta mappa di attenzione che meglio si adatta a detto orientamento del capo rilevato.
Una o più forme di attuazione possono comprendere tracciare detta una persona mediante:
- fornire una mappa di attenzione e un punto di destinazione stimato per detta una persona, e
- prevedere una posizione successiva per detta una persona come funzione, preferibilmente come funzione lineare, della posizione corrente, della postura del capo, della velocità corrente e di una velocità prevista di detta una persona.
Una o più forme di attuazione possono prevedere un sistema comprendente:
- almeno un sensore di immagine (ad esempio una camera W) per generare un segnale d'immagine indicativo della postura del capo di almeno una persona,
- un sistema di elaborazione (ad esempio 1000) accoppiato con detto almeno un sensore di immagine per ricevere da detto almeno un sensore di immagine detto segnale di immagine, il sistema di elaborazione configurato per elaborare detto segnale di immagine secondo una o più forme di attuazione.
Una o più forme di attuazione possono riferirsi ad un prodotto informatico caricabile in almeno un sistema di elaborazione (ad esempio il sistema 1000) e comprendente porzioni di codice software per attuare il procedimento di una o più forme di attuazione quando il prodotto è eseguito su almeno un sistema di elaborazione.
ELENCO DEI DOCUMENTI CITATI
[1] Roberto Valenti, Nicu Sebe, and Theo Gevers, “Combining head pose and eye location information for gaze estimation” IEEE Transactions on Image Processing, vol. 21, no. 2, pp. 802–815, 2012.
[2] Gabriele Fanelli, Juergen Gall, and Luc Van Gool, “Real time head pose estimation with random regression forests” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2011.
[3] N. Robertson and I. Reid, “Estimating gaze direction from low-resolution faces in video” in European Conference on Computer Vision (ECCV), 2006.
[4] Diego Tosato, Mauro Spera, Matteo Cristani, and Vittorio Murino, “Characterizing humans on riemannian manifolds” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, no. 8, pp. 1972–1984, 2013.
[5] Elisa Ricci, Jagannadan Varadarajan, Ramanathan Subramanian, Samuel Rota Bulò, Narendra Ahuja, and Oswald Lanz, “Uncovering interactions and interactors: Joint estimation of head, body orientation and formations from surveillance videos” in IEEE International Conference on Computer Vision (ICCV), 2015.
[6] Sileye O. Ba and Jean-Marc Odobez, “A probabilistic framework for joint head tracking and pose estimation” in IEEE International Conference on Pattern Recognition (ICPR), 2004.
[7] Kevin Smith, Sileye O. Ba, Jean-Marc Odobez, and Daniel Gatica-Perez, “Tracking the visual focus of attention for a varying number of wandering people” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.
30, no. 7, pp. 1212–1229, 2008.
[8] Jelena Jovancevic-Misic and Mary Hayhoe, “Adaptive gaze control in natural environments” The Journal of Neuroscience, vol. 29, no. 19, pp. 6234–6238, 2009.
[9] T. Taylor, A. K. Pradhan, G. Divekar, M. Romoser, J. Muttart, R. Gomez, A. Pollatsek, and D. L. Fisher, “The view from the road: The contribution of on-road glancemonitoring technologies to understanding driver behavior” Accident Analysis & Prevention, vol. 58, pp.175–186, 2013.
[10] Geoffrey Underwood, Nicola Phelps, Chloe Wright, Editha Van Loon, and Adam Galpin, “Eye fixation scanpaths of younger and older drivers in a hazard perception task” Ophthalmic and Physiological Optics, vol. 25, no. 4, pp.
346–356, 2005.
[11] Ben Benfold and Ian Reid, “Guiding visual surveillance by tracking human attention” in British Machine Vision Conference (BMVC), 2009, pp. 1–11.
[12] Francesco Setti, Chris Russell, Chiara Bassetti, and Marco Cristani, “F-formation detection: Individuating free-standing conversational groups in images” PLoS ONE, vol. 10, no. 5, pp. 1–26, May 2015.
[13] J. F. Caminada and W. J. M. van Bommel, “Philips engineering report 43”, 1980.
[14] S. Fotios, J. Uttley, C. Cheal, and N. Hara, “Using eyetracking to identify pedestrians ́critical visual tasks, Part 1. Dual task approach” Lighting Research and Technology, vol. 47, no. 2, pp. 133–148, 2015.
[15] S. Fotios, J. Uttley, and B. Yang, “Using eyetracking to identify pedestrians ́ critical visual tasks. part 2. Fixation on pedestrians” Lighting Research and Technology, vol. 47, no. 2, pp. 149–160, 2015.
[16] Aftab E. Patla and Joan N. Vickers, “How far ahead do we look when required to step on specific locations in the travel path during locomotion?” Experimental brain research, vol. 148, no. 1, pp. 133–138, 2003.
[17] Daniel S. Marigold and Aftab E. Patla, “Gaze fixation patterns for negotiating complex ground terrain” Neuroscience, vol. 144, no. 1, pp. 302–313, 2007.
[18] Stefano Pellegrini, Andreas Ess, K. Schindler, and Luc Van Gool, “You’ll never walk alone: Modeling social behavior for multi-target tracking” in IEEE International Conference on Computer Vision (ICCV), Sept. 2009, pp. 261– 268.
[19] Andreas Geiger, Martin Lauer, Christian Wojek, Christoph Stiller, and Raquel Urtasun, “3d traffic scene understanding from movable platforms” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 36, no. 5, pp. 1012–1025, May 2014.
[20] OSRAM, “Lightify - smart connected light” http://www.osram.com/osramcom/tools-andservices/tools/lightify---smart-connected-light/.light=.
[21] Pieter Vansteenkiste, Greet Cardon, Eva D’Hondt, Renaat Philippaerts, and Matthieu Lenoir, “The visual control of bicycle steering: The effects of speed and path width” Accident Analysis & Prevention, vol. 51, pp. 222– 227, 2013.
[22] Tom Foulsham, Esther Walker, and Alan Kingstone, “The where, what and when of gaze allocation in the lab and the natural environment” Vision research, vol. 51, no. 17, pp. 1920–1931, 2011.
[23] N. Davoudian and P. Raynham, “What do pedestrians look at at night?” Lighting Research and Technology, p.1477153512437157, 2012.
[24] Tom Foulsham, James Farley, and Alan Kingstone, “Mind wandering in sentence reading: Decoupling the link between mind and eye” Canadian Journal of Experimental Psychology/Revue canadienne de psychologie expérimentale, vol.
67, no. 1, pp. 51, 2013.
[25] Umberto Castiello and Carlo Umiltà, “Size of the attentional focus and efficiency of processing,” Acta psychologica, vol. 73, no. 3, pp. 195–209, 1990.
[26] Adam Kendon, “Some functions of gaze-direction in social interaction,” Acta psychologica, vol. 26, pp. 22–63, 1967.
[27] Adam Kendon, Conducting interaction: Patterns of behavior in focused encounters, vol. 7, CUP Archive, 1990.
[28] Loris Bazzani, Marco Cristani, Diego Tosato, Michela Farenzena, Giulia Paggetti, Gloria Menegaz, and Vittorio Murino, “Social interactions by visual focus of attention in a three-dimensional environment” Expert Systems, vol. 30, no. 2, pp. 115–127, 2013.
[29] N. M. Robertson and I. D. Reid, “Automatic reasoning about causal events in surveillance video” EURASIP Journal on Image and Video Processing, 2011.
[30] Marco Cristani, Loris Bazzani, Giulia Paggetti, Andrea Fossati, Diego Tosato, Alessio Del Bue, Gloria Menegaz, and Vittorio Murino, “Social interaction discovery by statistical analysis of f-formations” in British Machine Vision Conference (BMVC), 2011, pp. 23.1–23.12.
[31] Sebastiano Vascon, Eyasu Z. Mequanint, Marco Cristani, Hayley Hung, Marcello Pelillo, and Vittorio Murino, “Detecting conversational groups in images and sequences: A robust game-theoretic approach” Computer Vision and Image Understanding, vol. 143, pp. 11–24, 2016.
[32] Lu Zhang and Hayley Hung, “Beyond f-formations: Determining social involvement in free standing conversing groups from static images,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.
[33] Nicolas Gourier, Jérôme Maisonnasse, Daniela Hall, and James L Crowley, “Head pose estimation on low resolution images” in International Evaluation Workshop on Classification of Events, Activities and Relationships. Springer, 2006, pp. 270–280.
[34] Michael Voit, Kai Nickel, and Rainer Stiefelhagen, “A bayesian approach for multi-view head pose estimation” in 2006 IEEE International Conference on Multisensor Fusion and Integration for Intelligent Systems. IEEE, 2006, pp. 31–34.
[35] Donghoon Lee, Ming-Hsuan Yang, and Songhwai Oh, “Fast and accurate head pose estimation via random projection forests” in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 1958–1966.
[36] Stephanos Ioannou, Paul Morris, Hayley Mercer, Marc Baker, Vittorio Gallese, and Vasudevi Reddy, “Proximity and gaze influences facial temperature: a thermal infrared imaging study”, Towards an embodied science of intersubjectivity: Widening the scope of social understanding research, p. 178, 2015.
[37] Eldar Insafutdinov, Leonid Pishchulin, Bjoern Andres, Mykhaylo Andriluka, and Bernt Schiele, “Deepercut: A deeper, stronger, and faster multi-person pose estimation model,” in ECCV, 2016.
Senza pregiudizio per i principi evidenziati, i particolari e le forme di attuazione possono variare, anche in modo significativo rispetto a quanto è stato descritto a titolo di solo esempio, senza per questo uscire dall'estensione della protezione. L’estensione della protezione è definita dalle rivendicazioni allegate.
Claims (13)
- RIVENDICAZIONI 1. Procedimento comprendente ricevere (100) da almeno un sensore di immagine (W) un segnale d'immagine indicativo della postura del capo di almeno una persona, il procedimento comprendendo elaborare detto segnale di immagine mediante: - stimare (102), in funzione di detto segnale di immagine ricevuto (100) da almeno un sensore di immagine (W), detta postura del capo di detta almeno una persona, - generare (104) da detta postura stimata del capo un view frustum di detta almeno una persona, - generare (106) da detto view frustum un visual frustum di attenzione o VFOA di detta almeno una persona, e - generare da detto visual frustum di attenzione almeno una fra: - una traiettoria di movimento prevista di detta almeno una persona, o - una mappa di attenzione stimata per detta almeno una persona in funzione di detto visual frustum di attenzione.
- 2. Procedimento secondo la rivendicazione 1, comprendente tracciare (tracking) detta almeno una persona in funzione di detta traiettoria di movimento prevista.
- 3. Procedimento secondo la rivendicazione 1 o la rivendicazione 2, comprendente identificare in detta mappa di attenzione almeno un oggetto (L) da comandare (C).
- 4. Procedimento secondo la rivendicazione 3, comprendente comandare mediante un dispositivo di comando (C) detto almeno un oggetto (L) identificato in detta mappa di at tenzione.
- 5. Procedimento secondo la rivendicazione 3 o la rivendicazione 4, comprendente identificare in detta mappa di attenzione almeno un dispositivo di illuminazione (L) da comandare.
- 6. Procedimento secondo la rivendicazione 5, comprendente comandare detto almeno un dispositivo di illuminazione (L) mediante un dispositivo di comando (C), detto dispositivo di comando (C), preferibilmente comprendendo uno fra: - un interruttore, - un dispositivo di comunicazione mobile, - un sensore di gesti umani.
- 7. Procedimento secondo la rivendicazione 5 o la rivendicazione 6, comprendente: - provvedere una pluralità di dispositivi di illuminazione (L) controllabili mediante un dispositivo di comando (C), - individuare in detta mappa di attenzione almeno un dispositivo di illuminazione (L) da comandare in detta pluralità di dispositivi di illuminazione, e - comandare tramite detto un dispositivo di comando (C) il dispositivo di illuminazione identificato in detta pluralità di dispositivi di illuminazione in detta mappa di attenzione.
- 8. Procedimento secondo una qualsiasi delle rivendicazioni precedenti, comprendente, per una pluralità di persone in una scena: - generare (202) un rispettivo view frustum personale per ogni persona in detta pluralità di persone, - calcolare (204) un view frustum di gruppo medio dei rispettivi frustum personali di un gruppo di persone in detta pluralità di persone, - generare (206) un frustum di interazione per una persona in detto gruppo sottraendo da detto frustum di gruppo i view frustum relativi a persone in detto gruppo che: - i) sono all'interno della regione più alta del view frustum di detta una persona, - ii) stanno puntando il loro view frustum verso detta una persona, e - iii) sono più vicini di una soglia di distanza a detta una persona, e - accumulare nel tempo, il frustum di interazione per detta una persona producendo così una mappa di attenzione per detta una persona.
- 9. Procedimento secondo la rivendicazione 8, comprendente calcolare un punto di destinazione stimato per una persona come un picco di detta mappa di attenzione.
- 10. Procedimento secondo la rivendicazione 9, comprendente: - rilevare (102) l'orientamento del capo di detta una persona, e - calcolare detto punto di destinazione stimato come picco in detta mappa di attenzione che meglio si adatta a detto orientamento del capo rilevato (102).
- 11. Procedimento secondo la rivendicazione 9 o la ri vendicazione 10, comprendente tracciare detta una persona mediante: - fornire una mappa di attenzione e un punto di destinazione stimato per detta una persona, e - prevedere una posizione successiva per detta una persona come funzione, preferibilmente come una funzione lineare, della posizione corrente, della postura del capo, della velocità corrente e di una velocità prevista di detta una persona.
- 12. Sistema comprendente: - almeno un sensore di immagine (W) per generare un segnale d'immagine indicativo della postura del capo di almeno una persona, - un sistema di elaborazione (1000) accoppiato con detto almeno un sensore di immagine (W) per ricevere da detto almeno un sensore di immagine (W) detto segnale di immagine, il sistema di elaborazione (1000) configurato per elaborare detto segnale di immagine secondo il procedimento di una qualsiasi delle rivendicazioni da 1 a 11.
- 13. Prodotto informatico, caricabile nella memoria di almeno un sistema di elaborazione (1000) e comprendente porzioni di codice software per attuare il procedimento secondo una qualsiasi delle rivendicazioni da 1 a 11 quando il prodotto è eseguito su almeno un sistema di elaborazione.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT102016000103076A IT201600103076A1 (it) | 2016-10-13 | 2016-10-13 | Procedimento di rilevazione del c.d. view frustum, sistema e prodotto informatico corrispondenti |
DE112017005182.7T DE112017005182T8 (de) | 2016-10-13 | 2017-10-10 | Ein Verfahren zur Sicht-Pyramidenstumpf-Detektion, entsprechendes System und Computerprogrammprodukt |
PCT/IB2017/056244 WO2018069826A1 (en) | 2016-10-13 | 2017-10-10 | A method of view frustum detection, corresponding system and computer program product |
US16/341,467 US11175733B2 (en) | 2016-10-13 | 2017-10-10 | Method of view frustum detection and a corresponding system and product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT102016000103076A IT201600103076A1 (it) | 2016-10-13 | 2016-10-13 | Procedimento di rilevazione del c.d. view frustum, sistema e prodotto informatico corrispondenti |
Publications (1)
Publication Number | Publication Date |
---|---|
IT201600103076A1 true IT201600103076A1 (it) | 2018-04-13 |
Family
ID=57796894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
IT102016000103076A IT201600103076A1 (it) | 2016-10-13 | 2016-10-13 | Procedimento di rilevazione del c.d. view frustum, sistema e prodotto informatico corrispondenti |
Country Status (4)
Country | Link |
---|---|
US (1) | US11175733B2 (it) |
DE (1) | DE112017005182T8 (it) |
IT (1) | IT201600103076A1 (it) |
WO (1) | WO2018069826A1 (it) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10962780B2 (en) * | 2015-10-26 | 2021-03-30 | Microsoft Technology Licensing, Llc | Remote rendering for virtual images |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090293012A1 (en) * | 2005-06-09 | 2009-11-26 | Nav3D Corporation | Handheld synthetic vision device |
WO2013173728A1 (en) * | 2012-05-17 | 2013-11-21 | The University Of North Carolina At Chapel Hill | Methods, systems, and computer readable media for unified scene acquisition and pose tracking in a wearable display |
US20150061998A1 (en) * | 2013-09-03 | 2015-03-05 | Electronics And Telecommunications Research Institute | Apparatus and method for designing display for user interaction |
US20150331485A1 (en) * | 2014-05-19 | 2015-11-19 | Weerapan Wilairat | Gaze detection calibration |
EP2980675A2 (en) * | 2014-07-29 | 2016-02-03 | Samsung Electronics Co., Ltd. | Mobile device and method of pairing the same with electric device |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113918018B (zh) * | 2013-03-15 | 2025-01-17 | 奇跃公司 | 显示系统和方法 |
-
2016
- 2016-10-13 IT IT102016000103076A patent/IT201600103076A1/it unknown
-
2017
- 2017-10-10 US US16/341,467 patent/US11175733B2/en active Active
- 2017-10-10 WO PCT/IB2017/056244 patent/WO2018069826A1/en active Application Filing
- 2017-10-10 DE DE112017005182.7T patent/DE112017005182T8/de not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090293012A1 (en) * | 2005-06-09 | 2009-11-26 | Nav3D Corporation | Handheld synthetic vision device |
WO2013173728A1 (en) * | 2012-05-17 | 2013-11-21 | The University Of North Carolina At Chapel Hill | Methods, systems, and computer readable media for unified scene acquisition and pose tracking in a wearable display |
US20150061998A1 (en) * | 2013-09-03 | 2015-03-05 | Electronics And Telecommunications Research Institute | Apparatus and method for designing display for user interaction |
US20150331485A1 (en) * | 2014-05-19 | 2015-11-19 | Weerapan Wilairat | Gaze detection calibration |
EP2980675A2 (en) * | 2014-07-29 | 2016-02-03 | Samsung Electronics Co., Ltd. | Mobile device and method of pairing the same with electric device |
Also Published As
Publication number | Publication date |
---|---|
US11175733B2 (en) | 2021-11-16 |
DE112017005182T8 (de) | 2019-11-07 |
DE112017005182T5 (de) | 2019-07-04 |
WO2018069826A1 (en) | 2018-04-19 |
US20190250702A1 (en) | 2019-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Narayanan et al. | Proxemo: Gait-based emotion learning and multi-view proxemic fusion for socially-aware robot navigation | |
Simôes et al. | Blind user wearable audio assistance for indoor navigation based on visual markers and ultrasonic obstacle detection | |
Shackleton et al. | Tracking people with a 360-degree lidar | |
Basso et al. | Fast and robust multi-people tracking from RGB-D data for a mobile robot | |
Lee et al. | Real-time staircase detection from a wearable stereo system | |
WO2021249114A1 (zh) | 目标跟踪方法和目标跟踪装置 | |
KR101839827B1 (ko) | 원거리 동적 객체에 대한 얼굴 특징정보(연령, 성별, 착용된 도구, 얼굴안면식별)의 인식 기법이 적용된 지능형 감시시스템 | |
Leykin et al. | Robust multi-pedestrian tracking in thermal-visible surveillance videos | |
Gupta et al. | A robust visual human detection approach with UKF-based motion tracking for a mobile robot | |
Treptow et al. | Active people recognition using thermal and grey images on a mobile security robot | |
EP3414641A1 (en) | System and method for achieving fast and reliable time-to-contact estimation using vision and range sensor data for autonomous navigation | |
KR20210129043A (ko) | 이벤트 기반 센서로부터의 정보를 처리하는 방법 | |
Pundlik et al. | Collision detection for visually impaired from a body-mounted camera | |
JP2019121019A (ja) | 情報処理装置、3次元位置推定方法、コンピュータプログラム、及び記憶媒体 | |
Chae et al. | Collision detection method using image segmentation for the visually impaired | |
CN106780539B (zh) | 机器人视觉跟踪方法 | |
Thakur et al. | Autonomous pedestrian detection for crowd surveillance using deep learning framework | |
Abdul-Khalil et al. | A review on object detection for autonomous mobile robot | |
Yamaguchi et al. | Towards intelligent environments: Human sensing through 3d point cloud | |
IT201600103076A1 (it) | Procedimento di rilevazione del c.d. view frustum, sistema e prodotto informatico corrispondenti | |
Cai et al. | Robust human detection under visual degradation via thermal and mmwave radar fusion | |
Ukyo et al. | Pedestrian tracking in public passageway by single 3d depth sensor | |
Chan et al. | Autonomous person-specific following robot | |
Zhang et al. | Night time vehicle detection and tracking by fusing sensor cues from autonomous vehicles | |
Llorca et al. | Assistive pedestrian crossings by means of stereo localization and rfid anonymous disability identification |