<< Up Title Contents


IV.2.2. Justification du principe de maximum d'entropie

La justification la plus intuitive du principe de maximum d'entropie repose sur un argument combinatoire issu directement de son origine venant de la mécanique statistique. Cet argument fut proposé originellement par Boltzmann.
Supposons que nous ayons un ensemble de n particules identiques et que chacune de ces particules puisse être dans q différents états microscopiques équiprobables.
Définissons [nu]k, un état macroscopique, comme un ensemble {n1,...,nq} de q nombres tel que ni soit le nombre de particules dans l'état microscopique i.

Nous devons, bien sûr, avoir :

[4.23]

Nous devons de plus avoir, par exemple, des contraintes tel que :

[4.24]

où, e est l'énergie globale du système et ei l'énergie de l'état i.

Appelons W([nu]k) le nombre de manière de réaliser l'état macroscopique [nu]k. Nous avons:

[4.25]

Pour Boltzmann, l'état macroscopique le plus probable est alors celui qui peut être réalisé du plus grand nombre de manières microscopiques possible, c'est-à-dire celui qui maximise W([nu]k) tout en respectant les contraintes imposées [4.23] et [4.24].
En utilisant la formule de Stirling :

[4.26]

On obtient alors que l'état le plus probable est celui qui maximise (toujours en respectant les contraintes [4.23] et [4.24]):

[4.27]

On retrouve ainsi la forme de la fonction H.

Dans notre terminologie PaL, le principe de maximum d'entropie peut être vu comme l'exact équivalent du raisonnement de Boltzmann.
Supposons que dans notre système formel probabiliste, nous ayons q propositions mutuellement exclusives possibles (l'analogue des états microscopiques).
Supposons que nous ayons n expériences à notre disposition. Une expérience consistant à constater que l'une des q propositions est vérifiée (l'analogue d'une particule étant dans l'état q).
Définissons dk, une description, comme une distribution de probabilité :

[4.28]

sur les q propositions mutuellement exclusives du système formel (l'analogue des états macroscopiques).

Nous devons, bien sur, avoir :

[4.29]

Nous pouvons, de plus avoir des contraintes traduisant les connaissances préalables d'observations que nous avons sur le phénomène. Ces contraintes peuvent prendre des formes très diverses, le principe de maximum entropie étant toujours applicable. Par exemple, les connaissances préalables peuvent avoir la forme de m observables :

[4.30]

Appelons W(dk) le nombre de manière de permuter les expériences en conservant les fréquences ni/n correspondant à la description dk. Nous avons:

[4.31]

En utilisant la formule de Stirling, on obtient comme précédemment que la description la meilleure est celle qui correspond au plus grand nombre possible de permutations des expériences, c'est-à-dire celle qui maximise (en respectant les m+1 contraintes issues de [4.29] et [4.30]):

[4.32]

Reprenons l'exemple de l'hypothèse C1. La variable V peut prendre 6 valeurs entières entre 1 et 6. Nous avons fait 20 000 expériences dont nous avons choisi de ne mémoriser que la moyenne (observable f1(V)=V) valant 3,5983.
Parmi les 620000 séries d'expériences possibles, très peu, bien sûre, ont cette moyenne. Ces dernières peuvent être regroupées en "classes" (les descriptions), chaque classe étant caractérisée par la donné de 6 nombres (les pi ou ni) correspondant aux nombres d'apparitions de chacune des 6 valeurs possibles. A une classe donnée correspond W(dk) séries d'expériences possibles.
Numériquement, soit les trois classes :

ayant toutes les trois une moyenne de 3,5983, on calcule aisément (à partir de la formule [4.32]) que la première peut être réalisée par 1015549 séries d'expériences, la deuxième par 1015546 séries d'expériences et la troisième par 105869 séries d'expériences. Donc en tirant au hasard parmi les séries de 20000 expériences ayant 3,5983 comme moyenne (ce que nous pensons avoir fait en observant nos 20000 données) nous avons 1000 fois plus de chance de tirer une série d'expériences de la classe d1 que de la classe d2 et 109680 fois plus de chance de tirer une série d'expériences de la classe d1 que d3. Comment, dès lors, ne pas considérer que la classe d1 est une meilleure description que les 2 autres ?

Les connaissances préalables définissent "l'instrument d'optique", le point de vue sous lequel on décide d'observer le phénomène étudié. Différentes connaissances préalables correspondent à différents points de vue et résultent en des distributions de maximum d'entropie, des descriptions différentes. Changer de connaissances préalables, c'est changer la forme de la paroi de la caverne de Platon sur laquelle se projettent les ombres portées de la "réalité", c'est changer inexorablement la perception intime du phénomène observé.

Il existe, bien entendu, des manières plus rigoureuses de justifier l'emploi du principe de maximum d'entropie, notamment les théorèmes, dits de "concentration d'entropie", tels que démontrés par Jaynes et par Robert. On se référera aux notes bibliographiques pour plus de précisions.


<< Up Title Contents ÿÿÿÿ