La justification la plus intuitive du principe de maximum d'entropie
repose sur un argument combinatoire issu directement de son origine venant
de la mécanique statistique. Cet argument fut proposé originellement
par Boltzmann.
Supposons que nous ayons un ensemble de n particules identiques et que chacune
de ces particules puisse être dans q différents états
microscopiques équiprobables.
Définissons [nu]k, un état macroscopique, comme
un ensemble {n1,...,nq} de q nombres tel que ni
soit le nombre de particules dans l'état microscopique i.
Nous devons, bien sûr, avoir :
[4.23]
Nous devons de plus avoir, par exemple, des contraintes tel que :
[4.24]
où, e est l'énergie globale du système et ei
l'énergie de l'état i.
Appelons W([nu]k) le nombre de manière de réaliser
l'état macroscopique [nu]k. Nous avons:
[4.25]
Pour Boltzmann, l'état macroscopique le plus probable est alors celui
qui peut être réalisé du plus grand nombre de manières
microscopiques possible, c'est-à-dire celui qui maximise W([nu]k)
tout en respectant les contraintes imposées [4.23] et [4.24].
En utilisant la formule de Stirling :
[4.26]
On obtient alors que l'état le plus probable est celui qui maximise
(toujours en respectant les contraintes [4.23] et [4.24]):
[4.27]
On retrouve ainsi la forme de la fonction H.
Dans notre terminologie PaL, le principe de maximum d'entropie peut être
vu comme l'exact équivalent du raisonnement de Boltzmann.
Supposons que dans notre système formel probabiliste, nous ayons
q propositions mutuellement exclusives possibles (l'analogue des états
microscopiques).
Supposons que nous ayons n expériences à notre disposition.
Une expérience consistant à constater que l'une des q propositions
est vérifiée (l'analogue d'une particule étant dans
l'état q).
Définissons dk, une description, comme une distribution
de probabilité :
[4.28]
sur les q propositions mutuellement exclusives du système formel
(l'analogue des états macroscopiques).
Nous devons, bien sur, avoir :
[4.29]
Nous pouvons, de plus avoir des contraintes traduisant les connaissances
préalables d'observations que nous avons sur le phénomène.
Ces contraintes peuvent prendre des formes très diverses, le principe
de maximum entropie étant toujours applicable. Par exemple, les connaissances
préalables peuvent avoir la forme de m observables :
[4.30]
Appelons W(dk) le nombre de manière de permuter les expériences
en conservant les fréquences ni/n correspondant à
la description dk. Nous avons:
[4.31]
En utilisant la formule de Stirling, on obtient comme précédemment
que la description la meilleure est celle qui correspond au plus grand nombre
possible de permutations des expériences, c'est-à-dire celle
qui maximise (en respectant les m+1 contraintes issues de [4.29] et [4.30]):
[4.32]
Reprenons l'exemple de l'hypothèse C1. La variable V peut prendre
6 valeurs entières entre 1 et 6. Nous avons fait 20 000 expériences
dont nous avons choisi de ne mémoriser que la moyenne (observable
f1(V)=V) valant 3,5983.
Parmi les 620000 séries d'expériences possibles,
très peu, bien sûre, ont cette moyenne. Ces dernières
peuvent être regroupées en "classes" (les descriptions),
chaque classe étant caractérisée par la donné
de 6 nombres (les pi ou ni) correspondant aux nombres
d'apparitions de chacune des 6 valeurs possibles. A une classe donnée
correspond W(dk) séries d'expériences possibles.
Numériquement, soit les trois classes :
ayant toutes les trois une moyenne de 3,5983, on calcule aisément
(à partir de la formule [4.32]) que la première peut être
réalisée par 1015549 séries d'expériences,
la deuxième par 1015546 séries d'expériences
et la troisième par 105869 séries d'expériences.
Donc en tirant au hasard parmi les séries de 20000 expériences
ayant 3,5983 comme moyenne (ce que nous pensons avoir fait en observant
nos 20000 données) nous avons 1000 fois plus de chance de tirer une
série d'expériences de la classe d1 que de la classe d2 et
109680 fois plus de chance de tirer une série d'expériences
de la classe d1 que d3. Comment, dès lors, ne pas considérer
que la classe d1 est une meilleure description que les 2 autres ?
Les connaissances préalables définissent "l'instrument
d'optique", le point de vue sous lequel on décide d'observer
le phénomène étudié. Différentes connaissances
préalables correspondent à différents points de vue
et résultent en des distributions de maximum d'entropie, des descriptions
différentes. Changer de connaissances préalables, c'est changer
la forme de la paroi de la caverne de Platon sur laquelle se projettent
les ombres portées de la "réalité", c'est
changer inexorablement la perception intime du phénomène observé.
Il existe, bien entendu, des manières plus rigoureuses de justifier
l'emploi du principe de maximum d'entropie, notamment les théorèmes,
dits de "concentration d'entropie", tels que démontrés
par Jaynes et par Robert. On se référera aux notes bibliographiques
pour plus de précisions.