Il est bien évident que des comportements un tant soit peu complexe
ne peuvent être purement réactifs. En particulier, il est souvent
nécessaire de prendre des décisions sur une base de temps
plus large que le simple instant présent et sur un domaine spatial
plus grand que la pure information sensorielle immédiate.
Dans cette expérience, nous faisons grâce à l'approche
F+D un premier pas dans cette direction.
L'expérience va consister pour Khépéra à apprendre
à reconnaître un certain nombre d'objets. Cet apprentissage
est totalement non supervisé. On présente les objets sans
dire au robot à quel objet il a à faire, n'y même s'il
s'agit d'un nouvel objet ou d'un objet déjà connu. Khépéra
doit donc les classer de lui-même, et créer, de lui-même,
une nouvelle classe quand un nouvel objet lui est présenté.
Le protocole expérimental est le suivant :
Les variables manipulées sont les suivantes : Nvd, Nvg,
Per, Lgc et O. O est la variable permettant
d'identifier les classes d'objets. Lorsque n classes d'objets ont déjà
été identifiées O peut prendre n+1 valeurs différentes.
La description qui nous intéresse est donc :
[3.20]
On suppose que Nvg, Nvd, Per et Lgc sont des
variables indépendantes conditionnellement à O. On
obtient donc comme structure de dépendance :
[3.21]
Comme connaissances préalables d'observation, on choisit des gaussiennes
comme représentation paramétrique des 4 distributions à
identifier. Pour chaque valeur de O on identifie donc une moyenne
et un écart type pour Nvg, Nvd, Per et Lgc.
La valeur O=0 est traitée à part. est fixée
a priori uniforme. Cette distribution va être utilisée comme
référence pour détecter la nouveauté.
Pour répondre à la question qui lui est posée, Khépéra
calcule pour chaque valeur possible de O: [3.22]
Figure 14 :
Seules les dimensions Per et Nvg sont représentées. Chaque
pique correspond à un objet appris. La distribution uniforme (plan
grisé) sert de référence pour reconnaître la
nouveauté. Si pour un jeu de valeurs de Nvg, Nvd, Per et Lgc il s'avère
que c'est la distribution uniforme qui est le modèle le plus probable,
alors Khépéra pense avoir rencontré un nouvel objet.
Figure 15 : les objets présentés à Khépéra
Il trouve ainsi la valeur de O la plus probable.
Si cette valeur est i différente de 0, Khépéra considère
avoir reconnu l'objet i et modifie les paramètres correspondants
pour tenir compte de cette nouvelle instance.
Si cette valeur est 0, Khépéra considère être
en face d'un nouvel objet. Il crée une nouvelle classe (nouvelle
valeur possible pour O) sur la base des données qu'il vient
de recueillir.
O est une variable plus abstraite et plus synthétique que
les variables sensori-motrices. O a une constante de temps d'acquisition
plus longue que les variables sensori-motrices puisqu'elle suppose l'intégration
dans l'espace et dans le temps d'un certain nombre de valeurs des ces variables
de bases. O peut à son tour être utilisé dans
de nouvelles descriptions.
On peut espérer ainsi construire de véritables hiérarchies
de descriptions, de plus en plus abstraites, correspondant à des
comportements de plus en plus complexes, avec des constantes de temps de
plus en plus longues. C'est l'une de nos voies privilégiées
de recherche actuelle.
La figure 15 montre les objets qui ont été appris avec cette
méthode. Chacun a été présenté 4 fois,
en suivant un ordre aléatoire. Seuls les 2 objets à base carré,
en haut à droite de la photo, ont été confondus. Ils
sont en fait parfaitement indiscernables avec les 4 variables choisies.
Dans tous les autres cas, les objets ont été reconnus sans
erreur. La nouveauté a, elle aussi, été identifiée
à chaque fois sans erreur et sans oublis.