<< Up Title Contents


III.3.3. Premiers pas vers l'élaboration de comportements complexes


 

Il est bien évident que des comportements un tant soit peu complexe ne peuvent être purement réactifs. En particulier, il est souvent nécessaire de prendre des décisions sur une base de temps plus large que le simple instant présent et sur un domaine spatial plus grand que la pure information sensorielle immédiate.

Dans cette expérience, nous faisons grâce à l'approche F+D un premier pas dans cette direction.
L'expérience va consister pour Khépéra à apprendre à reconnaître un certain nombre d'objets. Cet apprentissage est totalement non supervisé. On présente les objets sans dire au robot à quel objet il a à faire, n'y même s'il s'agit d'un nouvel objet ou d'un objet déjà connu. Khépéra doit donc les classer de lui-même, et créer, de lui-même, une nouvelle classe quand un nouvel objet lui est présenté.

Le protocole expérimental est le suivant :

Les variables manipulées sont les suivantes : Nvd, Nvg, Per, Lgc et O. O est la variable permettant d'identifier les classes d'objets. Lorsque n classes d'objets ont déjà été identifiées O peut prendre n+1 valeurs différentes. La description qui nous intéresse est donc :

[3.20]

On suppose que Nvg, Nvd, Per et Lgc sont des variables indépendantes conditionnellement à O. On obtient donc comme structure de dépendance :

[3.21]

Comme connaissances préalables d'observation, on choisit des gaussiennes comme représentation paramétrique des 4 distributions à identifier. Pour chaque valeur de O on identifie donc une moyenne et un écart type pour Nvg, Nvd, Per et Lgc.
La valeur O=0 est traitée à part. est fixée a priori uniforme. Cette distribution va être utilisée comme référence pour détecter la nouveauté.

Pour répondre à la question qui lui est posée, Khépéra calcule pour chaque valeur possible de O: [3.22]

 

Figure 14 :
Seules les dimensions Per et Nvg sont représentées. Chaque pique correspond à un objet appris. La distribution uniforme (plan grisé) sert de référence pour reconnaître la nouveauté. Si pour un jeu de valeurs de Nvg, Nvd, Per et Lgc il s'avère que c'est la distribution uniforme qui est le modèle le plus probable, alors Khépéra pense avoir rencontré un nouvel objet.



Figure 15 : les objets présentés à Khépéra

Il trouve ainsi la valeur de O la plus probable.
Si cette valeur est i différente de 0, Khépéra considère avoir reconnu l'objet i et modifie les paramètres correspondants pour tenir compte de cette nouvelle instance.
Si cette valeur est 0, Khépéra considère être en face d'un nouvel objet. Il crée une nouvelle classe (nouvelle valeur possible pour O) sur la base des données qu'il vient de recueillir.

O est une variable plus abstraite et plus synthétique que les variables sensori-motrices. O a une constante de temps d'acquisition plus longue que les variables sensori-motrices puisqu'elle suppose l'intégration dans l'espace et dans le temps d'un certain nombre de valeurs des ces variables de bases. O peut à son tour être utilisé dans de nouvelles descriptions.
On peut espérer ainsi construire de véritables hiérarchies de descriptions, de plus en plus abstraites, correspondant à des comportements de plus en plus complexes, avec des constantes de temps de plus en plus longues. C'est l'une de nos voies privilégiées de recherche actuelle.

La figure 15 montre les objets qui ont été appris avec cette méthode. Chacun a été présenté 4 fois, en suivant un ordre aléatoire. Seuls les 2 objets à base carré, en haut à droite de la photo, ont été confondus. Ils sont en fait parfaitement indiscernables avec les 4 variables choisies. Dans tous les autres cas, les objets ont été reconnus sans erreur. La nouveauté a, elle aussi, été identifiée à chaque fois sans erreur et sans oublis.


<< Up Title Contents ÿ