Mots clés : mouvement, champs denses, disparité, segmentation, suivi temporel, triangulation, maillages 2D et 3D, maillages actifs, maillages hiérarchiques, contour actif, cartes de profondeur, géométrie projective, modèles par facettes, réalité augmentée, ombrage, modèles d'illumination, image mosaïque .
Les approches de modélisation, basées sur la mise en correspondance de points de vue distants dans les séquences, reposent sur des techniques d'estimation conjointe du relief de la scène observée et du mouvement de la caméra. En l'absence de données a priori, le mouvement de la caméra est déterminé à partir de la matrice fondamentale, elle-même estimée à partir de points singuliers extraits et suivis dans la séquence. L'estimation du mouvement dans la séquence est une étape cruciale de la modélisation 3D.
Nos travaux cette année ont d'abord porté sur la prise en compte des occultations dans l'estimation du mouvement par maillage triangulaire. Nous avons montré que, lorsque les paramètres internes de la caméra ne sont connus qu'approximativement, les méthodes classiques de décomposition de la matrice fondamentale aboutissent à des solutions incohérentes avec la géométrie épipolaire estimée. Nous avons alors proposé une méthode robuste d'estimation du mouvement de la caméra, basée sur un algorithme itératif intégrant un calcul de pose par la méthode de Dementhon [25]. Nous avons ensuite amélioré notre schéma global de reconstruction-représentation d'une séquence par création d'un ensemble de modèles 3D. L'originalité de l'approche est de ne pas reconstruire un modèle 3D unique de la scène, mais une suite de modèles 3D indépendants liés par des points de vue communs (images clés). Ce schéma génère un flux séquentiel de modèles VRML pouvant facilement être transmis sur un réseau en vue d'une navigation à distance dans la scène. Cependant du fait de l'indépendance des modèles, certaines fonctionalités apportées par une modélisation 3D telles que l'incrustation d'un objet dans une séquence, ne sont plus réalisables car elles requièrent un référenciel constant. Nous avons alors développé un algorithme d'ajustement par fenêtre glissante (sliding bundle adjustment) produisant à la volée un recalage géométrique des modèles 3D successifs, sous la contrainte de continuité de la séquence reconstruite.
La méthode de modélisation a été testée et validée sur de nombreuses séquences réelles. Elle a été appliquée à des manipulations de scène telles que le ré-éclairage, l'insertion d'objets avec occultation (voir figure 4), la stabilisation de séquences et la génération de séquences stéréoscopiques sur matériel spécialisé (salle de Réalité Immersive de l'IRISA). Des démonstrations sont disponibles sur le site web de l'équipe (http://www.irisa.fr/temics/Demos/3D4).
a)
b)
c)
d)
|
Les travaux en codage orienté-objets reposent souvent sur une segmentation de la scène qui se veut être aussi fidèle que possible aux objets physiques présents. Dans le cadre du projet RNRT Osiam, nous avons développé une technique de segmentation et de suivi temporel répondant à un tel critère. Les développements de cette année ont porté sur l'introduction d'une métrique statistique spatio-temporelle afin d'améliorer le schéma de suivi, notamment la gestion des zones indéterminées liées aux occultations entre objets.
Toutefois, dans le cadre d'une application de codage, la segmentation idéale ne correspond pas forcément à une segmentation sémantique (un exemple typique concerne les objets immobiles qui n'ont pas besoin d'être segmentés). Nous avons alors développé un nouvel algorithme de segmentation mieux adapté à des objectifs de codage et de compression. Les objets vidéos recherchés sont définis comme ayant une texture variant peu au cours du temps, et ayant un mouvement continu. Pour chaque objet, un modèle de déformation par maillages actifs est utilisé. Un suivi utilisant des mesures de cohérence à long-terme de ces maillages a été mis en place. Le problème de la segmentation est alors posé comme un problème d'étiquettage minimisant une fonctionnelle énergétique (modèle Markovien). Les termes énergétiques et les modèles utilisés sont adaptés à des objectifs de compression.
L'outil de représentation par maillage déformable hiérarchique des objets dans une séquence est utilisé comme support d'estimation et de compensation du mouvement d'un objet dans une séquence vidéo. Afin de permettre un suivi à long terme du maillage, cet estimateur a été robustifié en introduisant une technique d'estimation de mouvement multi-grille. L'outil de maillage déformable hiérarchique couplé à l'estimateur de mouvement est utilisé pour plaquer par suivi à long terme et compensation la texture de l'objet observé sur une image de référence.
Cet outil est utilisé à la fois dans un contexte de codage et de création d'images mosaïques (voir fig. 5). Les techniques de création d'images mosaïques sont souvent basées sur des hypothèses fortes ; les mouvements de la caméra doivent appartenir à une certaine classe (en général mouvement de type 'pan & tilt'), à défaut, le contenu de la scène doit être à une profondeur éloignée (afin de pouvoir utiliser un modèle de mouvement global - souvent homographique ou quadratique). Par ailleurs la scène observée doit être une scène rigide. L'utilisation de maillages actifs permet d'éviter au moins en partie ces hypothèses et de créer des images mosaïques pour des objets déformables. L'image mosaïque générée peut être à contenu temporellement dynamique afin de refléter les variations temporelles de texture. L'utilisation d'un filtre de Kalman réglable peut permettre de diminuer le bruit de la caméra.
a
|
Les applications de compression, d'édition de séquences et de réalité augmentée peuvent bénéficier d'outils de segmentation des zones d'ombres dans la séquence. Cette segmentation nécessite d'une part de caractériser en intensité et en position les sources de lumière (supposées ponctuelles) présentes dans la scène. La position de la source de lumière est estimée par analyse des contours de l'objet (après segmentation) et de la position d'un cône d'ombre associé à cet objet. La segmentation de l'ombre est ensuite affinée en minimisant un critère combinant la position estimée de la source de lumière, la distance au contour de l'objet, les variations d'illumination et les caractéristiques texturelles de la zone d'ombre à estimer. Le résultat est illustré sur la figure 6.
La création d'images mosaïques nécessite aussi une certaine harmonisation de l'éclairement des images fusionnées. Le coefficient de recouvrement (ou coefficient de ``blending'') est défini de manière adaptative dans la zone de recouvrement de deux images. La zone de recouvrement est découpée en deux régions délimitées par une ``ligne de partage''. Cette ligne de partage est calculée de manière à ce que les variations de texture de part et d'autre de cette ligne soient la plus faible possible. Une compensation d'illumination globale est alors appliquée sur une des images en fonction des variations d'illumination résiduelles de part et d'autre de la ligne de partage. Cette technique permet d'améliorer la qualité des images mosaïques lorsque les images originales ont des illuminations significativement différentes.
Les segments d'une séquence vidéo peuvent être caractérisés par le mouvement des objets présents entre deux instants clés. Les instants clés sont déterminés par des changements d'orientation d'un objet par rapport à la caméra. Ces changements peuvent être dûs à des mouvements de rotation non plan ou de translation d'amplitude forte. Les objets supposés rigides sont d'abord segmentés. Le mouvement apparent (avec ses paramètres de translation, de rotation 2D et son facteur d'échelle) est estimé entre deux instants clés. La validité du modèle de mouvement plan est évaluée à l'aide d'un critère prenant en compte la qualité de compensation de mouvement, ainsi que les dimensions et la structure géométrique des zones non-recouvertes. Lorsque ce modèle n'est pas valide, cela signifie que l'objet a changé d'orientation par rapport à la caméra. La direction de l'axe de rotation de l'objet et l'angle de rotation correspondant sont alors déterminés en maximisant un critère basé d'une part sur la détection des zones découvertes et recouvertes de l'objet, et des zones pour lesquelles la mise en correspondance obtenue avec le modèle de mouvement plan estimé n'est pas satisfaisante. Finalement, l'intervalle de temps considéré est divisé en deux segments et le processus est réitéré jusqu'à ce que l'on détermine les instants correspondants au début et à la fin du mouvement générant les variations d'orientation.