3. La freccia del tempo

INTRODUZIONE

In natura esistono numerosi fenomeni irreversibili: ad esempio il profumo di un fiore si diffonde spontanemanete nell'aria e non ritornerà più a concentrarsi nei pressi del fiore stesso. Oppure se cade una goccia di inchiostro nell'acqua macchierà l'intero volume di liquido. Possiamo dunque dare un ordine temporale (passato-futuro) ai due stati del sistema, affermando che esiste una freccia del tempo.

Dal passato... ... al futuro.

Come posso descrivere questo fenomeno con le leggi della fisica?

Abbiamo bisogno di una grandezza fisica che sia crescente nel tempo: la chiamiamo entropia del sistema. Il principio che descrive la freccia del tempo sarà dunque il principio di entropia. La domanda centrale è questa: quali sono le origini microscopiche del principio di entropia e come collegarle a leggi macroscopiche?

 


 

SOMMARIO

Primo paragrafo - FONDAMENTI DELLA MECCANICA STATISTICA E TEORIA CINETICA. Come emerge la freccia del tempo a partire da un approccio microscopico? Analizziamo il piano di Boltzmann nella teoria cinetica dei gas diluiti e in particolare la formulazione del teorema-H e delle ipotesi di caos molecolare, senza trascurare di rispondere alle obiezioni a questo piano di lavoro.

Secondo paragrafo - COMPORTAMENTO TIPICO DI UN SISTEMA E PROBABILITÁ IN MECCANICA STATISTICA (CLASSICA O QUANTISTICA). Definiamo con attenzione la tipicitá di un sistema fisico e esprimiamo chiaramente in che modo la statistica é un elemento essenziale nel passaggio dal microcosmo al macrocoscmo, anche confrontandoci con la teoria degli ensemble (e con l'entropia di Gibbs) sia in meccanica classica che quantistica e ponendo il problema del teorema H quantistico.

Terzo paragrafo - MECCANICA STATISTICA DEL NON EQUILIBRIO E CAOS NEI SISTEMI DINAMICI. Cerchiamo le proprietà meccaniche microscopiche che ci permettono di giustificare e derivare in modo rigoroso la freccia del tempo. Le ipotesi di mixing e di caos deterministico, le scale temporali di Bogoliubov e l'elevato numero di gradi di libertá sono il contributo principale della meccanica statistica del non-equilibrio per risolvere questa complessa questione.

Quarto paragrafo - INFERENZA E APPRENDIMENTO. L'entropia esce dalla fisica e la ritroviamo nello studio della teoria dell'informazione, grazie al lavoro di Shannon. Inoltre possiamo formulare il principio di entropia come un generale principio di inferenza statistica, definito MaxEnt (Jaynes). Potremo illuminare, a partire anche dall'inferenza Bayesiana, i meccanismi di apprendimento automatico e di teoria della decisione grazie a queste trasformazioni della freccia del tempo?

3.1 Il piano di Boltzmann nella teoria cinetica dei gas

Vi lancio una provocazione... Descriviamo la freccia del tempo, la osserviamo a partire da fenomeni anche semplici e quotidiani, magari approfondiamo certi approcci macroscopici per capire meglio quello che succede all'enorme numero di particelle del sistema... Ma siamo tranquilli così? Non ci chiediamo: di cosa è fatto un gas? Ci basta davvero l'equazione di stato per dire: conosco la fisica? No. Abbiamo sentito da altre ricerche che la materia è fatta di particelle e vogliamo capire se possiamo far emergere tutte le leggi della termodinamica, principio di entropia compreso, a partire dalle leggi della meccanica classica.

La freccia del tempo è già presente a livello microscopico o emerge dai calcoli e dalle assunzioni della teoria come un fenomeno macroscopico?


 

FORMULAZIONE DEL PROBLEMA

Dato un gas diluito classico composto da N particelle distinguibili interagenti, definiamo una funzione di distribuzione f che dipenda dalle posizioni r e momenti p di ogni particella e dal tempo. Lo spazio di analisi è lo spazio μ(r,p) che descrive lo stato di una particella e l'obiettivo è trovare f per una data forma di interazione tra le particelle e dedurne la termodinamica dell'equilibrio per tempi lunghi.

Il primo passo è trovare l'equazione del moto per f in presenza di collisioni tra le particelle e sotto ipotesi di pareti ideali elastiche. Dopo aver definito la massa m della particella e la forza F esterna agente su di essa (si trascurano quell non impulsive come la forza peso), la dinamica è definita dalla variazione temporale e dai gradienti rispetto a r e p e ci resta a questo punto da determinare come varia f in seguito alle collisioni tra le particelle.

Ebbene, per collisioni elastiche binarie tra particelle puntiformi si usa la teoria dello scattering con potenziale centrale, si calcola la sezione d'urto differenziale e totale, il flusso incidente e il parametro d'urto. Si trova dunque l'equazione del trasporto di Boltzmann, un'equazione integro-differenziale non lineare per la funzione di distribuzione f.

Boltzmann ha compiuto per primo questo lavoro e ha formulato lungo il suo procedimento alcune ipotesi che permettono di non considerare le correlazioni tra i momenti:

  • ipotesi di caos molecolare: la probabilità di trovare simultaneamente due momenti è uguale al prodotto delle probabilità di trovarli singolarmente.

Per approfondire vedi i CALCOLI PER DERIVARE L'EQUAZIONE DI BOLTZMANN e anche la SOLUZIONE DELL'EQUAZIONE DI BOLTZMANN (dal libro "An introduction to chaos in nonequilibrium statistical mechanics" di Dorfman).


 

IL TEOREMA H DI BOLTZMANN

Definiamo funzione di distribuzione di equilibrio la soluzione dell'equazione del trasporto indipendente dal tempo (si vede che essa è anche la forma di f per tempi lunghi). Senza forze esterne f non dipende da r per cui abbiamo f0(p) e si dimostra che essa non dipende neanche dalla sezione d'urto differenziale, per cui l'unica condizione necessaria e sufficiente per trovare f0 si rivela equivalente all'indipendenza dal tempo di un funzionale definito dall'integrale nelle velocità del prodotto di f(p,t) per il logaritmo naturale di f(p,t)

Per verificare che H non varia nel tempo Boltzmann ha formulato un teorema, che afferma: se la funzione di distribuzione soddisfa l'equazione del trasporto, allora il funzionale è decrescente nel tempo.

Questo teorema si dimostra sotto ipotesi di caos molecolare, con un cambio di variabile tra i momenti di due particelle e con alcune somme di termini.

Per approfondire vedi i CALCOLI RELATIVI AL TEOREMA H (Dorfman).


 

EMERGENZA DEL PRINCIPIO DI ENTROPIA

La f0(p) è chiamata distribuzione di Maxwell-Boltzmann (vedere #qui il lavoro originale di Maxwell) e se ne trova la forma nel seguente modo.

Costruendo una legge di conservazione dell'energia e del momento della particella e nel caso in cui il gas nel suo complesso non si muova di moto traslazionale si ricava f0 dipendente da due costanti arbitrarie che si possono determinare in termini di proprietà del sistema osservate quali la densità di particelle, il momento medio e l'energia media della particella.

Per collegare l'energia media con grandezze misurabili cerchiamo l'equazione di stato corrispondente alla funzione di equilibrio f0, calcolando la temperatura del sistema (con il teorema di equipartizione) e la pressione (definita come forza media per unità di superficie) esercitata dal gas sulle pareti.

Il punto interessante è che per mezzo di semplici considerazioni energetiche (calcolo del lavoro compiuto dal gas e dell'energia interna del sistema) e in virtù della prima legge della termodinamica, per cui l'energia di un sistema isolato si conserva, abbiamo che il funzionale definito da Boltzmann è proporzionale all'opposto dell'entropia per unità di volume, per cui il teorema H è l'equivalente della seconda legge della termodinamica.

E' stato dunque formulato per la prima volta il principio di entropia a partire da un approccio microscopico. Esso emerge dai calcoli assumendo valide le ipotesi di caos molecolare.

 


 

IL CAOS MOLECOLARE RESISTE A RICORRENZA E REVERSIBILITÀ TEMPORALE

Facciamo ora un'analisi approfondita del teorema-H di Boltzmann per il gas diluito (ricordandoci che H è proporzionale all'opposto dell'entropia termodinamica S):

  • Una distribuzione f in generale non soddisfa l'equazione di Boltzmann, ma solo nell'istante in cui è valida l'assunzione di caos molecolare;
  • Se ad un istante di tempo c'è caos molecolare, allora nell'istante successivo il funzionale H è diminuito. Esso resta costante solo se f è quella di Maxwell-Boltzmann.
  • I protagonisti sono gli urti molecolari, i quali possono produrre o distruggere le ipotesi di caos molecolare.

Notiamo che da questi presupposti non risulta necessario che la variazione  dH/dt  sia una funzione continua nel tempo, anzi essa si rivela discontinua nel tempo a causa della reversibilità temporale delle leggi della dinamica.

Infatti se invertiamo il verso delle velocità di tutte le particelle del sistema nello stesso istante la dinamica non cambia. Cosa succede alle ipotesi di caos molecolare? In generale non saranno più valide le assunzioni di caos molecolare. In modo più esplicito: "Se adesso c'è caos molecolare allora nel prossimo istante dH/dt è negativo, mentre se nel prossimo istante ci sarà caos molecolare allora adesso dH/dt è positivo", per cui H si trova in un picco locale.

 


 

Andamento generale nel tempo di H. Ma il teorema ci permette di interpretare anche come il sistema va all'equilibrio a partire da uno stato di non-equilibrio.

  • Sappiamo che H ha un minimo quando la distribuzione è di Maxwell-Boltzmann (fatto indipendente dall'assunzione di caos molecolare); siccome inoltre assumiamo che gli urti molecolari avvengono casualmente abbiamo che il sistema presenta un comportamento tipico, per cui la distribuzione è quasi-sempre di Maxwell-Boltzmann e presenta piccole fluttuazioni sopra il minimo di H. Grandi fluttuazioni sono altamente improbabili, per cui si considera lo stato di equilibrio stabile.
  • Se invece preparo il sistema in uno stato improbabile (o esso diviene tale in seguito alla rimozione di alcuni vincoli macroscopici) allora mentre prima nulla potevamo affermare di quanto poteva accadere, grazie al teorema posso immaginare un andamento gradualmente decrescente nel tempo della funzione H, in presenza di una sequenza di picchi locali in tutti gli istanti in cui è valida l'assunzione del caos molecolare.

 


 

Un finto paradosso. Si potrebbe affermare l'inconsistenza e l'illusorietà - rafforzata anche dall'uso della statistica - della freccia del tempo rispetto alla reversibilità della dinamica microscopica, ma abbiamo appena mostrato come questi due concetti siano legati tra di loro e non si contraddicano a vicenda. Infatti si ribadisce la validità delle ipotesi di caos molecolare solo in certi istanti di tempo.

Il paradosso matematico della ricorrenza. Poincaré ha formulato e dimostrato il seguente teorema: "Un sistema confinato in un certo volume e con energia finita ritornerà dopo un tempo sufficientemente lungo in un intorno arbitrariamente piccolo di quasi qualunque stato iniziale assegnato". Da questo teorema si deriva che H sia una funzione quasi-periodica nel tempo, il che non crea grossi problemi a riguardo delle piccole fluttuazioni entro la banda di rumore, le quali ci aspettiamo dunque che si ripetano. Per quanto riguarda le grandi fluttuazioni se stimiamo il ciclo di Poincaré scopriamo che esse si ripetono per un tempo che cresce esponenzialmente con il numero di particelle del sistema, rendendo impossibile la loro osservazione e dunque non fisico il paradosso.

Per approfondire questi si veda in merito il libro "Meccanica Statistica" di Huang, l'articolo di Angelo Vulpiani "Qualche osservazione su irreversibilitá, equazione di Boltzmann e teorema H" #qui e l'articolo "Su due obiezioni ben note al teorema H di Boltzmann" di Paul e Tatiana Ehrenfest #qui.

3.1.1 Equazione di Boltzmann

 

 

3.1.2 Teorema H

3.1.3 Soluzione dell'equazione di Boltzmann

3.1.4 Entropia di Boltzmann e th-H per gas densi in non equilibrio

(Schema)

(+ Formule)

Tratto dall'articolo "On the (Boltzmann) Entropy of Nonequilibrium Systems" di Goldstein e Lebowitz.

3.1.5 Ulteriori percorsi relativi al piano di Boltzmann

Ritorno su alcuni passi cruciali relativi all'emergenza della freccia del tempo dal microscopico al macroscopico nel lavoro di Boltzmann.

1) Grazie alla tesina di Marco Martins Afonso #qui possiamo osservare come ci siano altre tecniche risolutive dell'equazione integro-differenziale di Boltzmann, oltre a quanto visto su questo wiki. Inoltre é interessante soffermarsi sui regimi di rarefazione. Un esempio paradigmatico é l'effusione, cioé "la fuoriuscita di un gas da un orifizio sulla parete di un recipiente. Il risultato piú notevole consiste nel fatto che il flusso netto di particelle uscenti risulta sempre maggiore nell’approssimazione idrodinamica (cioé quando il diametro del buco é notevolmente maggiore del cammino libero medio) rispetto a quella cinetica (situazione opposta): tale fenomeno é collegato al cosiddetto “congelamento termico”, per cui il gas, pur espandendosi nel vuoto (o in un ambiente di densitá comunque minore), non riesce a supplire alla propulsione necessaria per mantenere il flusso".

2) Nelle lezioni di Meccanica Statistica di Errico Presutti #qui troviamo da un lato tutte le informazioni relative alla teoria dello scattering, sia d'altra parte un buon percorso che dall'equazione di Boltzmann permette di giungere all'equazione di stato dei gas perfetti. In particolare dopo aver definito con precisione il funzionale entropia e aver dimostrato i suoi legami all'equazione di Boltzmann e la validitá del teorema H, l'autore dice: "Il fatto, per certi versi sorprendenti, é che nel limite l’evoluzione della densitá di particelle diventa autonoma, non dipende quindi dalle correlazioni tra particelle ed obbedisce appunto ad equazioni chiuse. L’equazione di Boltzmann é quindi un’equazione ridotta: mentre l’equazione originaria, prima del limite macroscopico, coinvolge tutte le funzioni di correlazioni ed é reversibile, quella limite é ridotta e dissipativa. Il fenomeno che consente la riduzione e che é quindi all’origine della dissipativitá, si basa sul fatto che si ottiene una buona approssimazione (esatta nel limite) quando si calcola la frequenza degli urti come indipendenti da quelli avvenuti nel passato. Si tratta appunto di una proprietá di debole correlazione tra le particelle che porta alla nozione fondamentale in teoria cinetica di propagazione del caos, introdotta originariamente da Boltzmann".

3) Infine nella tesi di Donato D'Ambrosio #qui (pag. 70 e seguenti) incontriamo una applicazione importante di questi temi che stiamo affrontando: i gas reticolari e i modelli di Boltzmann su reticolo come applicazioni di Automi Cellulari. I primi a studiare tali modelli furono nel 1976 Hardy, Pomeau e de Pazzis (gas con griglia quadrata), poi contribuirono al tema nel 1986 anche Frish, Hasslacher e Pomeau (gas con griglia esagonale regolare) e Chopard e Droz (derivazione delle equazioni di Navier-Stokes dalle regole di collisione del modello). Ma l'approccio che piú vogliamo sottolineare é quello relativo alla turbolenza, con i lavori di McNamara e Zanetti e di Higuera e Jimenez (1988-89) che studiarono l'evoluzione delle densitá delle particelle e non le posizioni delle particelle stesse. Le leggi che determinano la dinamica nei modelli di Boltzmann su reticolo riducono le condizioni di non equilibrio nel contesto locale del vicinato. Queste applicazioni (vedere #qui) possono aiutare a far comprendere con piú chiarezza la freccia del tempo e possono aprire a nuovi percorsi di ricerca.

4) Uscendo dalle frontiere della fisica é possibile leggere due articoli: consiglio vivamente di leggere #qui un testo di Boltzmann del 1905 sulla Meccanica Statistica, tradotto in brasiliano nel 2006 da Dahmen (che ha prodotto anche un articolo sulla fisica di Boltzmann #qui)  e invece #qui un altro articolo in brasiliano a cura di Antonio Augusto Videira, 2006, Rio de Janeiro. Questo ultimo testo parla dell'epistemologia della fisica di Boltzmann e il suo approccio di pluralismo teorico. L'autore dice: "Para ele, não existe qualquer método científico (ou teoria) que seja intrinsecamente melhor que qualquer outro; nenhum método (ou teoria), sob risco de transformar-se em dogma, pode pretender excluir do domínio científico outros métodos (ou teorias) científicos" e poi "A história do processo evolutivo sofrido pela humanidade deverá ensinar aos que se dedicam à Ciência a prudência necessária para evitar perigosas e dogmáticas generalizações científicas e epistemológicas que poderão conduzir à exclusão de outras teses". Per una visione storica delle obiezioni al teorema H e una riaffermazione del lavoro di Boltzmann, anche nella modifica del suo pensiero tra 1882 e 1887 si veda #qui l'articolo di Brown e Myrvold.

5) Altre letture sull'approccio di Boltzmann alla meccanica statistica, a cura di Nino Zanghì si trovano #qui e #qui; altri articoli sul teorema H si trovano su arXiv.org #qui .

3.2 Il principio di entropia: una solida e sottile legge statistica

 

COMPORTAMENTO TIPICO DI UN SISTEMA E FLUTTUAZIONI ATTORNO ALL'EQUILIBRIO

Boltzmann utilizzó elementi di statistica per provare che la seconda legge della termodinamica, derivata dalla costruzione dell'equazione onomina sotto ipotesi di caos molecolare e dal teorema H, non esprime l'impossibilitá affermata da Klevin e Clausius, ma una altissima improbabilitá. Per argomentare xxx vedere articolo suo xxx.

La distribuzione di equilibrio di un gas perfetto trovata non dipende dalle interazioni molecolari e si può calcolare considerando l'equiprobabilità a priori dei microstati del sistema a energia fissata. Per far questo sviluppiamo l'utile idea di ensemble statistico microcanonico (secondo il piano di lavoro di Gibbs), per cui possiamo immaginarci una collezione di microstati diversi nello spazio delle fasi compatibili con lo stesso macrostato.

La dinamica del sistema classico conservativo è governata dalle equazioni di Hamilton, invarianti per inversione temporale del tempo, e si definisce la densità dei microstati la quale è soggetta all'equazione di continuità di Liouville (comportandosi come un fluido incomprimibile).

Metodo della distribuzione più probabile. Prendiamo un sistema isolato di particelle N e energia E e calcoliamo il volume (o molteplicità di un macrostato) nello spazio delle fasi occupato dal sistema e associato ad una funzione di distribuzione f arbitraria. Per molte particelle uso la formula di Stirling e con il metodo dei moltiplicatori di Lagrange massimizzo il volume W in virtù della validità del principio di entropia, in quanto posso definire quest'ultima nel modo seguente

S = k ln W

e il massimo di W equivarrà sempre al massimo di S (ricordando che il logaritmo è una funzione crescente e k è la costante di Boltzmann).

Dalla teoria delle fluttuazioni delle grandezze macroscopiche termodinamiche si scopre che le prime vanno a zero al crescere di N (come il reciproco della radice quadrata di N, precisamente) e si può allora definire una distribuzione tipica del sistema, tale che se il sistema si trova inizialmente in questa, anche in presenza di deboli interazioni molecolari, dopo un certo tempo (che dipende dalla sezione d'urto differenziale) si troverà ad essere quasi certamente una distribuzione di equilibrio.

La domanda che sorge è questa: dopo quanto tempo si raggiunge l'equilibrio? Ci sono possibilità che non venga mai raggiunto? E una volta raggiunto, quanto è stabile nel tempo una tale situazione di equilbrio? Il principio di entropia  viene riformulato in questo ambito come una legge statistica, per cui le impossibilità enunciate nelle definizioni termodinamiche divengono improbabilità.

Per approfondire questo paragrafo si veda in merito il libro "Meccanica Statistica" di Huang.

 


Per approfondire vedere #qui e #qui.

3.2.1 E' possibile formulare un teorema H quantistico?

Ho letto l’articolo di Goldstein, Lebowitz, Tumulka, Zanghi “Long-Time Behavior of Macroscopic Quantum Systems: Commentary Accompanying the English Translation of John von Neumann’s 1929 Article on the Quantum Ergodic Theorem” (da arXiv.org #qui, anno 2010) dove viene fatto un confronto tra il teorema H quantistico formulato da von Neumann e il teorema H di Boltzmann. Nel primo caso si definisce una entropia media (vedi #qui la formula) che è distinta da quella che potrebbe essere l'entropia di Boltzmann quantistica (vedi #qui la formula).

Nello stesso articolo vengono descritte due visioni distinte della meccanica statistica: quella ensemblista più vicina all'approccio di Gibbs e quella individualista più vicina all'approccio di Boltzmann. Il punto centrale è che non vi è ancora consenso in merito a cosa sia la definizione di equilibrio termico in termini microscopici. I primi parlano di stato mixed rappresentabile tramite un insieme di microstati (tutti compatibili con certi vincoli), gli altri ritengono che un solo stato puro (un solo punto nello spazio delle fasi) possa già trovarsi di per sé in equilibrio.

3.3 Un'introduzione al caos in meccanica statistica del non-equilibrio

Le ipotesi di caos molecolare permettono una derivazione euristica della freccia del tempo nel piano di Boltzmann visto precedentemente, in quanto esse rimangono ingiustificate nell'ambito della teoria cinetica e non costituiscono una derivazione rigorosa della freccia del tempo.

Ma come giustificare queste assunzioni? Tale domanda ci introduce nel vasto panorama della meccanica statistica del non-equilibrio e nello studio delle proprietà meccaniche dei sistemi dinamici.

 


 

Ipotesi ergodica. Se partendo da un qualunque punto nello spazio delle fasi la traiettoria di un sistema dinamico hamiltoniano esplora molte regioni in scale temporali del laboratorio (in modo che il tempo speso in una regione sia proporzionale ad una certa misura di probabilità) allora il sistema in questione si dice ergodico. In questi casi vale inoltre il teorema di Birkhoff, per cui la media temporale di una grandezza dinamica è costante sulla superficie equienergetica, indipendentemente dalla scelta iniziale del punto sulla traiettoria.

Nell'ensemble microcanonico questa sembrerebbe l'ipotesi ideale per giustificare la massimizzazione del volume per il calcolo dell'entropia del sistema all'equilibrio, e quindi il principio di entropia.

Ma ci sono alcuni problemi nel confrontare le grandezze calcolate con i dati sperimentali relativi ad esse:

  • Le medie temporali sono definite per tempi molto lunghi che non sono i tempi tipici del laboratorio;
  • Non esistono sistemi isolati in laboratorio e l'interazione con l'ambiente potrebbe farli sembrare ergodici, mentre in realtà senza interazione essi non lo sarebbero (non tratteremo questo aspetto);
  • L'ipotesi ergodica spiega bene l'equilibrio ma non è sufficiente a garantire l'approccio all'equilibrio, in quanto non ci dice se per qualunque configurazione iniziale di non-equilibrio la media di ensemble di una grandezza dinamica raggiungerà la media microcanonica.

 

Di seguito viene mostrato il piano di lavoro moderno per risolvere il primo e il terzo problema dell'ipotesi ergodica.

 


 

SISTEMI MIXING

Proviamo a descrivere il comportamento medio di un insieme di punti, e non di uno solo, sulla stessa superficie a energia costante (approccio di Gibbs). Ebbene se tale insieme a causa della dinamica viene stirato, allungato e sfilacciato in modo che su una scala grossolana sia distribuito uniformemente sull'intera superficie, il sistema in questione viene definito mixing (in modo più formale si enuncia questo concetto con un'uguaglianza tra i rapporti di misure non nulle nel limite di tempo infinito; si dimostra inoltre che se un sistema è mixing allora è ergodico, mentre non vale il viceversa).

Grazie a questa proprietà meccanica un sistema isolato raggiunge l'equilibrio in senso debole, per cui la media di ogni variabile dinamica tende per tempi lunghi al valore microcanonico corrispondente alla condizione di equilbrio. La distribuzione di densità verrà allungata, stirata e sfilettata (potendo inoltre ritornare alla forma iniziale nel caso di inversione temporale della dinamica) nel corso del tempo e le medie calcolate con essa per tempi lunghi coincideranno con le medie calcolate con una distribuzione di densità dolce (concetto alla base delle misure SRB che vedremo in seguito) di equilibrio.

 


 

CAOS DETERMINISTICO E DIPENDENZA SENSIBILE DALLE CONDIZIONI INIZIALI

L'evoluzione di un sistema dinamico si può conoscere a partire da due informazioni fondamentali: la dinamica del moto e le condizioni iniziali da cui parte il sistema. 

Da quanto abbiamo detto precedentemente un sistema mixing presenta un comportamento caotico dovuto alle sue particolari proprietà dinamiche, in quanto nascosto nello sparpagliarsi del sistema è il concetto di dipendenza sensibile dalle condizioni iniziali: le singole traiettorie nello spazio delle fasi devono essere delle funzioni altamente sensibili alla scelta delle coordinate e dei momenti coniugati delle particelle che compongono il sistema (questo ci permette di distinguere anche tra le poche costanti del moto - come energia e momento angolare - controllabili in laboratorio e le numerose costanti criptiche ignote). Inoltre scegliere una nuvola di traiettorie con le stesse condizioni iniziali definite entro una precisione finita tiene conto dei limiti operativi delle misurazioni in laboratorio.

Per definire tale situazione di caos deterministico si cerca di computare gli esponenti di Lyapunov del sistema, che descrivono il tasso di separazione tra due traiettorie di un sistema dinamico discreto. Se tali esponenti sono strettamente positivi allora il sistema presenta divergenza esponenziale delle traiettorie lungo le direzioni instabili.

 


 

SCALE TEMPORALI E OSSERVABILI SECONDO BOGOLIUBOV

Quanto tempo impiega il sistema mixing a raggiungere l'equilibrio? Ebbene se consideriamo il sottospazio definito dalle direzioni instabili del sistema, lungo le quali il comportamento è caotico, abbiamo in genere tempi più brevi rispetto a quelli ergodici (che sono dell'ordine del periodo di ricorrenza di Poincaré). Una qualunque funzione di distribuzione ridotta lungo queste direzioni tende a divenire più regolare e noi studieremo proprio queste secondo il criterio per cui osservabili che variano lentamente nel tempo sono più rilevanti dal punto di vista fisico del laboratorio rispetto ad altre che variano velocemente nel tempo.

Soffermiamoci sul caso del gas diluito: la funzione di distribuzione a N particelle determina l'evoluzione di un ensemble di sistemi in non-equilibrio, mentre la funzione di distribuzione di singola particella è l'unica che soddisfa l'equazione di Boltzmann. Tale funzione rimane costante su scale temporali della durata di una collisione binaria e varia solo su scale temporali della durata del cammino libero medio, per cui essa è l'osservabile rilevante da studiare.

Identificare le scale temporali rilevanti è un fattore cruciale per la derivazione rigorosa della freccia del tempo, in particolare nella scelta delle grandezze dinamiche e dei sottospazi fisicamente rilevanti.

 


 

ENTROPIA K-S, SISTEMI IPERBOLICI e PROCESSI STOCASTICI

L'analisi della stabilità dei sistemi dinamici e della transizione alla stocasticità è un terreno di studio vastissimo: partendo dai sistemi integrabili a quelli quasi-integrabili, dal calcolo dei punti fissi iperbolici al problema della rimozione delle risonanze, dall'overlapping delle risonanze alla stocastic web, si giunge infine ai sistemi iperbolici (vedremo solo questi ultimi).

Formalizziamo quanto detto finora definendo le proprietà meccaniche microscopiche di un sistema mixing macroscopico e con l'aiuto della teoria dell'informazione.

Dividiamo in partizioni la regione equienergetica dove si trova il sistema nello spazio delle fasi (a seconda delle pre-immagini definite dalla dinamica inversa) e facciamo l'intersezione di queste per più evoluzioni del sistema:  possiamo in tal modo seguire la traiettoria di un punto con precisione sempre maggiore all'assottigliarsi delle partizioni. Abbiamo un'indicazione del tasso di produzione di informazione h calcolando l'entropia di Kolmogorov e Sinai (che NON coincide con l'entropia definita finora) del sistema nel limite di tempo infinito e data dall'estremo superiore di h su tutte le possibili partizioni in cui è divisa la regione.

Un sistema dinamico si dice iperbolico se esiste una misura invariante e almeno una traiettoria che descrive l'evoluzione del sistema è densa nel dominio; se ad ogni punto è possibile costruire varietà stabili e instabili che cambiano con continuità nel dominio e si intersecano trasversalmente con angoli non nulli; infine se tutti gli esponenti di Lyapunov sono non nulli.

Possiamo descrivere l'evoluzione di un sistema iperbolico con un processo Markov di natura completamente stocastica e cercare una master equation dalla quale calcolare il tasso di probabilità di transizione del sistema, oppure interpretare il sistema iperbolico come un sistema di Bernoulli la cui evoluzione è regolata da una sequenza casuale di lanci di monete con equiprobabilità per testa o croce.  

 


 

Un esempio molto utile per tutta questa trattazione è la TRASFORMAZIONE DEL FORNAIO: una mappa discreta quasi ovunque reversibile rispetto all'inversione temporale che si dimostra essere mixing ed ergodica e dalla quale si può ricavare un modello di equazione di Boltzmann e di teorema H per la distribuzione di densità ridotta lungo la direzione instabile del sistema. Inoltre la baker's map è un sistema iperbolico con tasso di produzione di informazione = entropia K-S = esponente positivo di Lyapunov = ln2.

 


 

ABBIAMO TROVATO I FONDAMENTI DINAMICI DELLA FRECCIA DEL TEMPO?

Siamo riusciti a collegare i sistemi mixing-ergodici con sistemi dinamici iperbolici a pochi gradi di libertà e abbiamo mostrato come essi abbiano il comportamento caotico ideale per giustificare su basi microscopiche il principio di entropia (massimo volume nello spazio delle fasi).

Possiamo affermare che le ipotesi di mixing e le proprietà di iperbolicità sono necessarie e sufficienti per derivare le ipotesi di caos molecolare di un gas diluito? In generale NO, per i due motivi seguenti:

  • Il ruolo cruciale dei gradi di libertà. Ipotizziamo valide le proprietà di mixing e iperbolicità. Allora se prendiamo un ensemble di sistemi a pochi gradi di libertà (come ad esempio 5 sfere rigide poste in un volume molto piccolo) a causa delle numerose collisioni siamo forzati a usare l'approccio statistico. Non possiamo aspettarci però un comportamento tipico del sistema e nemmeno la derivazione della freccia del tempo. Se prendiamo invece un singolo sistema con molti gradi di libertà (come 1023 particelle poste inizialmente in un angolo di un contenitore) viene naturale usare l'approccio statistico e il sistema raggiungerà l'equilibrio (distribuzione spaziale uniforme delle sfere nel contenitore) in senso debole per tempi del laboratorio e avrà un comportamento tipico con grandi fluttuazioni per tempi di ricorrenza lunghissimi.
  • Sottigliezze sull'ipotesi di mixing. Ci sono sistemi dinamici pseudocaotici che non sono mixing ma che risultano essere buoni modelli microscopici per il calcolo dei coefficienti di trasporto in teoria cinetica dei gas, come ad esempio il modello albero a vento di Ehrenfest (con centri diffusori disposti casualmente, e forse è proprio a causa di questa disposizione che si hanno buoni risultati). Questo sistema non è iperbolico, ha esponenti di Lyapunov nulli e le traiettorie divergono nel tempo secondo una potenza algebrica e non esponenzialmente.

Come si vede il lavoro per conoscere profondamente l'emergenza della freccia del tempo è ancora lungo.

 

Per approfondire si veda il lavoro omonimo svolto per l'esame di applicazioni della meccanica statistica (con il professor Borgonovi e bibliografia principale data da un libro del Dorfman).

3.3.1 Caos nei sistemi dinamici

INTRODUZIONE

La MECCANICA CLASSICA descrive il moto di un sistema di corpi (non quantistici e non relativistici); se tale sistema è conservativo allora l'energia rimane costante e le formulazioni lagrangiana e hamiltoniana permettono di costruire le EQUAZIONI DEL MOTO nello spazio delle fasi. Importante è definire le trasformazioni canoniche e trovare eventuali costanti del moto.

La formulazione con le variabili azione-angolo è molto utile, un esempio paradigmatico è il pendolo non lineare; un oggetto importante nello spazio delle fasi è il toro N-dimensionale e il concetto di INTEGRABILITÀ è il punto di partenza nello studio dei sistemi dinamici.

Vengono tratteggiate anche le caratteristiche della TEORIA DELLE PERTURBAZIONI a 1 grado di libertà (parte media dell'energia e termine secolare), a 2 gradi di libertà (fallimento dell'espansione di Poincaré e Von Zeipel col problema dei piccoli denominatori, la media aurea e la serie di Fibonacci; il tentativo di rimozione delle risonanze e lo studio degli invarianti adiabatici del moto); emergono dunque ISOLE DI INTEGRABILITÀ nell'intorno delle risonanze.

Definiamo il CAOS DETERMINISTICO in sistemi conservativi. Iniziamo con 2 gradi di libertà dalle sezioni di Poincaré e lo studio di punti fissi (e loro stabilità) e cerchi invarianti (col teorema di Poincaré e Birkhoff), poi inseriamo le perturbazioni e vediamo che succede ai tori invarianti. Grazie al TEOREMA KAM e con l'analisi paradigmatica della twist map e del kicked rotator (fino a giungere alla standard map) apriamo lo studio delle MAPPE area-preserving. Scopriamo che i punti fissi instabili sono generatori di CAOS per cui il moto nel loro intorno è impredicibile.

La transizione alla stocasticità si ottiene dalle zone caotiche e giungendo all'OVERLAPPING DELLE RISONANZE (aumentando la perturbazione, spesso esprimente l'interazione) fino a giungere a una singola MAGLIA STOCASTICA. Si perde il concetto di traiettoria e si giustifica la trattazione statistica.

La MECCANICA STOCASTICA con variabili a distribuzione gaussiana parte da un approccio differente da quello iniziale, cerca una equazione di diffusione (alla Fokker-Planck) con perdita di memoria e studia dunque PROCESSI MARKOVIANI (grazie al teorema KCS). Esemplare è lo studio del moto browniano, a partire dalla trattazione di Langevin.

EQUAZIONI DEL MOTO E TRASFORMAZIONI CANONICHE

Formalismo Lagrangiano. Prendi un sistema e cerca i gradi di libertà  (q1,...,qN)  costruisci la lagrangiana  L(q,q',t)  e l'equazione del moto, trova le costanti del moto  p = dL/dq'  che ti aiutano a risolverla (se si può...).

Formalismo Hamiltoniano. Dalla conservazione dell'energia definita come l'hamiltoniana  H=L - p q'  possiamo trovare trasformazioni che rendano le equazioni facilmente risolubili in un certo sistema di coordinate comodo (esempio: moto centrale 2D in coordinate polari). Trasformazioni puntuali coinvolgono solo le coordinate  (q1,...,qN)  e mantengono invarianti in forma le equazioni del moto in forma lagrangiana; se si utilizza il principio variazionale di Hamilton per cui il moto è quello che minimizza il funzionale di azione  S[q] = integrale(dt L(q,q',t)) allora escono le equazioni del moto nella forma hamiltoniana. Dunque anche qui prendi un sistema, cerca i gradi di libertà, costruisci l'hamiltoniana  H(p,q)  e le equazioni del moto, dalle costanti del moto le risolvi (se si può...).

EQUAZIONI DEL MOTO DI LAGRANGE:  d(DL/Dp')/dt - DL/Dq = 0

EQUAZIONI DEL MOTO DI HAMILTON:  p' = - dH/dp  e  q' = dH/dp

Continuando il discorso, è importante considerare le trasformazioni canoniche che conservano in forma le equazioni di Hamilton. Troviamo la funzione generatrice e la trasformata di Legendre e poi classifichiamo: tutte le trasformazioni puntuali, la trasformazione identità e quella esemplare dell'oscillatore armonico sono canoniche.

Definiamo costante del moto una F(q,p,t) che si conserva nel tempo e con le equazioni di Hamilton e la definizione di parentesi di Poisson scriviamo dunque  [F,H] + DF/Dt = 0  . Ebbene, una trasformazione è canonica se e solo se lascia inalterate tali parentesi. Questa descrizione essenziale del moto è utilissima e comodissima ed è possibile costruirla individuando simmetrie nel sistema.

Le trasformazioni canoniche infinitesime sono: l'evoluzione temporale con generatrice H stessa e ogni trasformazione con generatrici le costanti del moto (le quali lasciano invariata l'Hamiltoniana). Ad esempio se H è invariante per traslazioni il generatore è il momento p, se H è invariante per rotazioni attorno a z il generatore è il momento angolare lz. Per il problema a 2 corpi in potenziale centrale in 3D abbiamo sempre l'energia, il momento e il momento angolare come costanti del moto. Ma già con tre corpi in potenziale centrale il problema si complica enormemente, come vedremo.

VARIABILI AZIONE-ANGOLO E INTEGRABILITÀ

Prendiamo il pendolo semplice: abbiamo due tipi di moto periodico, quello di librazione a piccoli angoli (p e q periodiche nel tempo con stesso periodo) e quello di rotazione completa (p è periodica nella q). Se definiamo la variabile azione  J=integrale_circolare[dq p]  allora il periodo  T=DJ/DH e l'angolo coniugato all'azione J sarà  phi tale che phi'=DH/DJ=nu con nu=1/T frequenza propria del moto, per cui  phi(t)=phi(0)+nu t  . Rappresentiamo dunque il sistema nelle coordinate canonicamente coniugate (J,nu). Per un insieme di N oscillatori armonici non accoppiati l'energia si può scrivere  H=Sigmai[nuiJi] le cui traiettorie si trovano su un toro N-dimensionale.

Possiamo definire allora un sistema TOTALMENTE INTEGRABILE se, presentando N gradi di libertà e N costanti del moto in involuzione tra loro (per cui [Ii,Ij] per ogni i,j=1,...,N), allora è parametrizzabile su un toro N-dimensionale. Ma ci troviamo in una situazione idilliaca, come vedremo.

Analizziamo il pendolo xxx

e il pendolo non lineare xxx.

TEORIA DELLE PERTURBAZIONI

Che succede ai tori se li perturbiamo? xxx

 

Tratto da appunti universitari (grazie al professor Borgonovi).

3.3.2 L'entropia di Kolmogorov-Sinai per un gas diluito in equilibrio

Sia dato un sistema di  N  particelle (intese come sfere dure identiche di diametro  σ  , massa  m  , posizione xi  , velocità  vi  soggette alle leggi della dinamica) interagenti con forze a corto raggio in un volume  V  . Si desidera, nel limite termodinamico, calcolare l'entropia di Kolmogorov-Sinai (KS) per particella,  hKS/N  come somma degli esponenti di Lyapunov positivi (dal teorema di Pesin è possibile considerando il sistema isolato) assumendo che il gas sia all'equilibrio termico con temperatura  T  e diluito, per cui  nσ3<<1  , con  n=N/V  densità di particelle.

Prendiamo in considerazione l'evoluzione temporale di una nuvola di traiettorie sulla superficie equienergetica nello spazio delle fasi 6N-dimensionale che parta in x(0)+δx(0). Per una singola traiettoria la dinamica è composta di due momenti: moto libero rettilineo uniforme di tutte le  N  particelle, per cui

e, per descrivere l'interazione a corto raggio, urto elastico istantaneo tra due particelle  (k,l)  e moto uniforme delle altre N-2, per cui

dove  n  è un vettore unitario con direzione la congiungente i centri  (k,l) e il punto di minima distanza al momento dell'urto. Le equazioni del moto per le deviazioni lineari da tale traiettoria, all'interno della nuvola scelta, assumendo che tutte le traiettorie vicine subiscono la stessa sequenza di urti, con piccole differenze nei tempi di collisione, nelle velocità e posizioni prima e dopo l'urto e nei punti di minima distanza, sono per il moto libero

e per l'urto

avendo introdotto la velocità nel centro di massa e la velocità relativa della coppia di particelle  (k,l)  . In tal caso  δn  è lo spostamento infinitesimo del vettore unitario lungo la sua stessa direzione (con  nδn=0  ) e viene calcolato con le seguenti equazioni che localizzalo la collisione sia per la traiettoria di riferimento che per quella deviata:

dove  δτlk  è la differenza temporale tra la collisione relativa alla traiettoria di riferimento e quella deviata. Assumeremo che il termine temporale dominante sia  Tkl=k+τl)/2  dell'ordine del tempo libero tra le collisioni e inversamente proporzionale alla densità del gas diluito, per cui trascureremo i primi due termini nella seconda equazione della formula precedente.

Possiamo allora trattare le ultime due formule e ottenere la lunga

(con  tlkl-τl  ) che si può felicemente scrivere in forma matriciale per una sequenza di urti

La matrice  M  ha valore 1 lungo gli elementi diagonali relativi alle N-2 particelle, elementi non nulli relativi alle due particelle che collidono e tutti gli altri elementi nulli. Per basse densità il prodotto di matrici nell'ultima formula può essere pensato come un prodotto di  3Nx3N  matrici casuali ipotizzando la non correlazione tra gli urti nella sequenza. Tale casualità è dovuta alle particelle coinvolte, ai parametri di collisione, agli intervalli di tempo per ogni collisione.

L'entropia KS si può ottenere dalla conoscenza degli autovalori del prodotto di queste matrici e dall'usuale distribuzione di equilibrio di un gas diluito  ϕ0(v), utilizzando il fatto che quasi tutte le traiettorie nello spazio delle fasi si allontanano l'un l'altra nel tempo e la probabilità di trovarne due vicine per tempi lunghi sarà infinitesima (quest'analisi ha già avuto successo per il gas di Lorentz). Il calcolo dei singoli esponenti di Lyapunov positivi sembrerebbe un problema analitico molto impegnativo, tuttavia per presentiamo ora argomenti per trovare un'espressione relativamente elementare di  hKS  . Supponendo gli autovalori in forma  exp(tλi)  , ritenendo che solo gli esponenti positivi appaiano nella formula (per l'argomentazione suddetta che quasi tutte le traiettorie divergono nel tempo) e assumendo valida l'ipotesi ergodica per questo sistema possiamo inserire nelle matrice tutte le possibili collisioni e tutti i tempi liberi possibili, scrivendo

dove con  ν  intendiamo la frequenza media di collisione per particella (e dunque  Nν/2 è il numero di collisioni che avvengono nel gas nell'unità di tempo) e con le parentesi intendiamo le medie sui tassi di collisione, sui parametri di collisione, sulle distribuzioni di tempo libero e di velocità per il gas in equilbrio. La matrice può essere scritta (considerando il vettore relativo alle deviazioni delle velocità con ai primi termini quelle del centro di massa, poi quelle relative e infine quelle delle altre particelle) con le seguenti sottomatrici

ove le prime 4 sottomatrici in alto a sinistra sono 3x3-dimensionali. Da questa formula abbiamo  detM=detB  facile da calcolare. Troviamo dunque un importante risultato teorico: l'entropia KS per unità di particella  hKS/N  vale

il quale esplicitato direttamente rispetto alle medie è

(con  σ(θ)  sezione d'urto differenziale angolare e  J2  fattore di normalizzazione ponendo a 1 il termine logaritmico nel numeratore e uguagliando a 1 l'espressione risultante) e avendo compiuto alcune integrazoni numeriche diviene

con  ν=[(4π1/22)/(βm)1/2]  e temperatura  T=(kBβ)-1  utilizzando l'usuale costante di Boltzmann.

 


 

Per confrontare l'attendibilità della formula per l'entropia KS gli autori (Beijeren et al.) hanno implementato due algoritimi di simulazione numerica ove si calcolano tutti gli esponenti di Lyapunov positivi e poi si sommano. Il primo algoritmo MD segue la dinamica molecolare "esatta" dalle equazioni del moto iniziali (sia cammino libero che urti), mentre il secondo algoritmo DSMC è una diretta simulazione alla Monte Carlo delle distribuzioni di probabilità per i parametri di collisione, i tempi di collisione, mentre l'evoluzione libera resta deterministica.

Son state utilizzate  N=32  e  N*=108  sfere con condizioni al contorno periodiche usuali e unità di misura ridotte (diametro, energia cinetica K per particella, massa unitarie; tempo in unità di  (mσ2N/K)1/2  ; densità del gas in unità di  1/σ3  e con valori tra 10-8 e 0.1; temperatura tale che  kBT=2/3  ).

Dai grafici mostrati sotto si notano alcune differenze per  N  e  N*  , considerando significanti in entrambi i casi i confronti con il valore teorico nel limite termodinamico per infinite particelle. Tali confronti sono eccellenti (tuttavia manca ancora una espressione analitica con correzione al prim'ordine di questi risultati).  

Un'ulteriore confronto può essere fatto riscrivendo la formula teorica finale in questo modo

con  ν0=4(πmσ2)-1/2(2K/3N)1/2  e parametri  "a"  e  "b"  da fittare numericamente - trascurando ordini non lineari nelle frequenze - nel range di frequenze tra 10-7 e 10-2 . Nella tabella seguente si osserva come l'eccellente corrispondenza per il primo parametro conferma la trattazione. Tuttavia il fit del secondo parametro non ricopre il valore teorico atteso. Per capirne il motivo si è presa la prima formula dell'entropia KS con la media della matrice e si è calcolata tale media lungo una simulazione DM, trovando eccellenti risultati; inoltre sembra valida l'approssimazione di trascurare le deviazioni delle posizioni prima dell'urto delle due particelle, per cui si ritiene che il trascurare la loro differenza (è l'unico termine di cui non si sanno gli effetti nei calcoli analitici) potrebbe aver portato alle discrepanze ottenute. Un'analisi più attenta (magari con il metodo BBGKY) porterebbe a non trascurare questi termini, aggiungendo un termine al parametro  "b"  stimabile rozzamente vicino a  ln2.

Dimensione    Numero particelle    Algoritmo        Parametro "a"            Parametro "b"

 

Tratto da un lavoro del 1997 di Beijeren, Dorfman, Posch, Ch. Dellago (arxiv.org).

3.4 Entropia e informazione, inferenza e apprendimento

Proviamo un nuovo percorso partendo dal lavoro di Shannon e di Jaynes, allontanandoci dalla termodinamica e dalla meccanica statistica.

Partendo dall'entropia come misura del grado di informazione scopriamo che possiamo utilizzare il principio di entropia per muoverci nelle scelte di inferenza statistica, quando si ha informazione incompleta del sistema indagato e si desidera ottenere probabilità a posteriori e dunque una maggiore conoscenza del comportamento possibile del sistema stesso.

Fino a tentare un azzardo: la freccia del tempo la osserviamo anche nell'apprendimento automatico? Verrebbe da chiamarla freccia della conoscenza... Ma non corriamo troppo, la ricerca continua.

3.4.1 L'evoluzione del principio di Carnot

La seconda legge della termodinamica è divenuta un principio di ragionamento, evolvendosi lungo gli anni passati. Il punto di metamorfosi centrale è il metodo di predizione delle condizioni di equilibrio operato da Gibbs nel 1875. 

Come è possibile che una legge della fisica divenga un fondamento per il ragionamento di inferenza proprio del genere umano? Vediamo in sintesi l'evoluzione delle formulazioni del secondo principio della termodinamica.

Principio di Carnot: nessuna macchina termica può essere più efficiente di quella reversibile che opera alle stesse temperature della prima.

Enunciato di Kelvin: una macchina termica che lavora con n serbatoi a temperature Ti (con i=1,...,n) e scambia con essi Qi quantità di calore presenta la somma di tutti i contributi Qi/Ti minore o uguale a 0 (quest'ultimo caso solo se la macchina termica è reversibile).  

Enunciato di Clausius: la variazione dell'entropia di un sistema isolato è sempre maggiore o uguale a 0 (quest'ultimo caso solo se tutti i processi che avvengono nel sistema sono reversibili).

Enunciato di Gibbs: dato uno stato di non equilibrio con una certa entropia iniziale, il sistema evolverà verso gli stati che massimizzano il valore finale di entropia.

Enunciato di Boltzmann: l'entropia S che si massimizza nell'enunciato precedente è legata al volume W nello spazio delle fasi degli stati microscopici del sistema compatibili con la stessa energia E, tramite la relazione S(E)=k logW, con k costante universale.

Bernoulli e Laplace parlarono dell'arte di congetturare come l'insieme delle regole che ci permettono di inferire nuove informazioni su un sistema a partire da una conoscenza incompleta dello stesso. Il volume W diviene dunque una misura di quanta informazione abbiamo del sistema, e il principio di entropia è la guida che ci permette di mantenere il massimo di tale informazione durante l'evoluzione spontanea del sistema stesso.

Sintesi dell'articolo omonimo di Jaynes (1996), vedi qui.

 

3.4.2 L'entropia di Shannon e la quantità di informazione

Introduzione. Consideriamo un sistema che possa trovarsi in stati denotati dall'indice "i" con probabilità  pi . Vogliamo definire una quantità che misuri la distribuzione delle  pi . Tale funzionale, definito entropia, sarà tanto maggiore quanta meno informazione abbiamo circa il suo stato più probabile. Vale che se pj=1 per j=i e pj=0 per j diverso da i, allora S=0; inoltre se pi=1/N per ogni i (con N stati equiprobabili) allora S è massima; infine S è additiva. Da questo esce un funzionale logaritmico. Per i=1,2 e N copie di tale sistema tendenti a infinito abbiamo

S(p1,p2) = -k ( p1 ln(p1) + p2 ln(p2) )

E si può generalizzare a M possibili stati.

Shannon diceva: "il problema centrale della comunicazione è riprodurre in maniera esatta o approssimata in un punto un messaggio composto in un altro punto". Un sistema di comunicazione è composto da: una sorgente di informazione (il cui alfabeto è un insieme di simboli di cardinalità K), un trasmettitore, un canale, un ricevitore, un destinatario, possibili sorgenti di rumore. Noi analizzeremo la sorgente di informazione.

Definizioni. Una distribuzione di probabilità è una funzione non negativa  p(x)  con x appartenente a un insieme discreto e finito X=(x1,...,xk) noto come alfabeto. Vale la relazione: Somma[p(x)]=1 . Se X è aleatoria PX=pX(x) è la probabilità che la X assuma il valore x dell'alfabeto.

Chiamiamo ENTROPIA H(X) di una variabile casuale discreta X come 

H(X) = - Somma[ p(x) log(p(x)) ]

con sommatoria su tutti gli x appartenenti a X e log in base 2 (H è dunque espressa in bits). Osserviamo che H non dipende direttamente dai valori assunti da X, ma solo dalle sue probabilità.

Esempio: se X=1 con probabilità p e X=0 con probabilità 1-p allora H(X)=H(p)=1 bit per X=1/2 e H è una funzione concava con valori nulli in p=0 e 1 e massima incertezza in 1/2.

Esempio 2: possiamo scegliere i simboli a, b, c, d dell'alfabeto e assegnare loro probabilità differenti (1/2,1/4,1/8,1/8): l'entropia sarà allora  H(X)=7/4 bits .

Generalizzando possiamo scegliere una sequenza di N lettere scelte da M simboli. Tale messaggio sN generato dalla sorgente fa emergere il problema della codifica: abbiamo bisogno di trasformare ogni sequenza M-aria in una sequenza binaria nel modo più economico possibile, tale per cui la lunghezza media della sequenza sia minima. Shannon dimostrò che è possibile associare a ogni messaggio ad una sequenza  l(sN)=log2(1/p(sN))  circa. Tale valore è una misura delle risorse necessarie per inviare un messaggio. Per sorgente stazionaria e priva di memoria abbiamo l'entropia a N-blocchi (con sommatoria su tutti i messaggi):

HN = - Somma[ p(sN) ln(p(sN)) ]            HN / N = H1        h = HN+1 - HN = H1

Quando la sorgente ha memoria dobbiamo trattare con un processo Markoviano di ordine m, per cui la probabilità di avere un dato simbolo dipende solo dai precedenti m simboli e  hN = h  per ogni N maggiore o uguale a m. Nel limite di N a infinito otteniamo il numero medio di bits per codificare un simbolo emesso da una sorgente, che misura la quantità di informazione "a sorpresa" che la sorgente può emettere. Tale grandezza è definita entropia di Shannon:

h = limN [ media(l)N / N ] = limN [ Somma[ p(sN) log2(1/p(sN)) ] ]

Spieghiamo meglio supponendo che la sorpresa che riceviamo nell'apprendere che un dato evento si è verificato dipenda solo da quell'evento. Se l'evento accade con certezza la nostra sopresa sarà nulla. Dal'altra parte se la probabilità di accadere è molto piccola la nostra sopresa sarà proporzionalmente grande.

Il teorema di Shannon, Mc Millan e Breiman spiega in maniera precisa in che modo l'entropia quantifica la complessità della sorgente: se N è abbastanza grande l'insieme delle sequenze di lunghezza N, le parole, può essere diviso in due classi A1 e A2 tali che tutte le parole in A1 hanno probabilità che va come p ~ e-hN e la somma di tali probabilità tende a 1 per N tendente a infinito, mentre contemporaneamente quella relativa a A2 tende a 0. L'insieme A1 è detto delle sequenze tipiche e il numero di tali sequenze è

Neff(N) ~ ehN

Osserviamo che in casi non banali, per cui h<lnm abbiamo Neff molto minore del numero totale di possibili parole mN . Ricordiamo inoltre che il teorema precedente per processi senza memoria non è altro che la legge dei grandi numeri. L'insieme delle sequenze tipiche presenta Neff = 2Nh circa elementi e la probabilità per tali sequenze è circa 1, mentre per l'insieme rimanente è circa 0. Infine si può mostrare che l'entropia di Shannon è l'analogo dell'entropia per particella in meccanica statistica. Per lo studio della complessità algoritmica si vedano i lavori di Kolmogorov.

Tratto da Note su entropia e complessità di Vittorio Loreto (2010).

 

3.4.3 Sul fondamento dei metodi di massima entropia secondo Jaynes

In questo paragrafo vediamo come il principio di entropia può superare l'originario ambito della termodinamica e aspirare a diventare un fondamentale principio alla base dell'inferenza scientifica, qualunque sia il sistema fisico in esame.

Consideriamo un sistema fisico senza rumore esterno e del quale abbiamo informazione incompleta. A partire da uno stato iniziale vogliamo trovare i fondamenti logici/combinatoriali/teorici per predire/inferire quale sarà lo stato finale del sistema in seguito ad una evoluzione temporale. E' un obiettivo arduo, ma potremo ottenere alcuni risultati in talune situazioni.

Si dimostra infatti la validità del teorema di concentrazione di entropia, il cui enunciato e le cui conseguenze tratteggiamo qui di seguito. 

 


 

A) Sia dato un esperimento casuale con n esiti possibili e sia compiuto per N tentativi. Avremo allora nN sequenze di uscite con frequenze Ni/N (ad esempio in meccanica statistica Ni potrebbe essere lo stato quantistico della i-esima particella di un sistema di N particelle) e l'entropia del sistema può essere definita come

H(fi) = - Σi(fi log(fi))

dove la sommatoria va da 1 a n e il logaritmo è in base naturale.

B) Consideriamo ora una sottoclasse C delle nN sequenze di uscite con m<n vincoli della forma

Σi(Aji fi ) = dj          (x)

con j che varia tra 1 e m. Allora le quantità fisiche misurate m presentano una natura definita dalla matrice Aji e dj sono i dati che otteniamo dalle misure.

C) Attenzione che i dati non ci forniscono informazioni sulle frequenze, mentre l'entropia sì. Come? Se prendiamo una frazione F della sottoclasse C di sequenze di uscite allora l'entropia sarà compresa entro questo intervallo

[ Hmax - ΔH ; Hmax]

con Hmax calcolato con un algoritmo noto in meccanica statistica (moltiplicatori di Lagrange e funzione di partizione).

D) Con queste premesse vale il teorema combinatoriale asintotico per cui (si veda la dimostrazione nell'articolo di Jaynes)

2N ΔH = χ2k(1-F)

che coinvolge il chi-quadro di 1-F per k=n-m-1 gradi di libertà del sistema. Si noti bene che questo teorema è una affermazione sul conteggio degli stati possibili, non sulle probabilità che il sistema raggiunga un certo stato. Frequenze e probabilità coincidono solo nel caso si consideri valido il principio di equiprobabilità a priori.

 


 

E) Facciamo un esempio con il lancio di un dado. Sia N=1000 e n=6, cosa possiamo dire? Ebbene, tutti convengono nell'affermare che "la frequenza di uscita di un numero qualsiasi del dado è fi*=1/6". Ma... come giustificare tale affermazione?

Con Σfi = 1 ho Hmax = loge6 = 1,79176 proprio per la distribuzione uniforme fi*, mentre con k = 5 abbiamo χ25(0,05) = 11,07. In tal modo il 95% di tutte le possibili sequenze di uscite presentano entropia compresa nell'intervallo [1,786 ; 1,792] e possiamo affermare che una vasta maggioranza di sequenze presenta frequenze prossime a quella fi*. Questo teorema giustifica dunque la scelta a priori. Dalle stesse parole di Max Planck: "la natura ha una forte preferenza per situazioni di maggior entropia".

Se N=1023 questo teorema possiamo chiamarlo secondo principio della termodinamica.

F) Immaginiamo ora che dai dati emerga un nuova evidenza, per cui un'influenza sistematica porta per N=1000 lanci non un valore 3,5 della relazione (x), con matrice A=i, ma un valore 4,5. Che fare? Ebbene, l'algoritmo di massima entropia funziona ancora e dai calcoli numerici si trova

fì = e -λi (Σe -λi)-1

con i che va da 1 a 6, λ = -0,37105 e Hmax = 1,61358, valore esterno persino all'intervallo di confidenza trovato prima. Siamo in presenza di una forte discrepanza e senza ulteriori informazioni sul nuovo vincolo possiamo sfruttare ancora il teorema, trovando per F al 95% e con k = 4 un intervallo di entropie H = [1,609 ; 1,614].

Quindi avendo informazione incompleta sul sistema possiamo concludere che non solo l'entropia massima fornisce la più probabile sequenza di uscite, ma che qualsiasi valore di entropia sarà molto vicino al massimo per tutte le possibili sequenze di uscite, con ΔH ~ N-1.

G) Una tecnica di conteggio ad opera di Laplace e Bernoulli permette di calcolare la molteplicità dei microstati

W = N!/(N1! N2! ... Nn!)

e usando Stirling per N tendente a inifinito esce la nota formula dell'entropia (che anche Shannon utilizzò nei suoi lavori di teoria dell'informazione). Allora possiamo dire (lo abbiamo anche già affermato nel paragrafo precedente) che distribuzioni a maggior entropia hanno maggior molteplicità di microstati.

Tuttavia arriviamo ad affermare che pur con N=50 e senza avere formule asintotiche nell'esempio dei dadi otteniamo i numeri Nk=(3,4,6,8,12,17) e dal calcolo di W abbiamo un numero talmente elevato di microstati che è prudente seguire comunque (anche senza una certezza data da implicazioni logiche) le predizioni date dal metodo di massima entropia. Se scegliessimo altre stime staremmo considerando una sottoclasse di sequenze di uscite piccola e non rappresentativa (non tipica ma "criptica") che potrebbero accadere sì, ma con una frequenza talmente bassa che non si potrebbero ripetere, controllare e osservare negli esperimenti. Questo in conclusione risulta essere un principio guida molto utile nell'attuazione di inferenze scientifiche.

 

Estratto da un vecchio articolo di Edwin Jaynes (1982) "On the rationale of Maximum-Entropy Methods".

3.4.4 Tecniche di inferenza Bayesiana

Il teorema di Bayes 

P(A|B) P(B) = P(B|A)P(A) 

tratta il calcolo della probabilità condizionata, cioè la probabilità che si verifichi l'evento A in seguito al verificarsi dell'evento B. Per Ak eventi incompatibili e corrispondenti a tutte le possibilità, possiamo calcolare

P(B) = Sommak[ P(B|Ak) P(Ak) ]

e avere una prima esperienza di inferenza Bayesiana. Vediamo il seguente esempio.

Prendiamo due vasi A e B, sapendo che vi sono rispettivamente 10 palline gialle e 30 rosse nel primo, 20 e 20 nel secondo. Qual è la probabilità di estrarre una pallina rossa, nel caso prima si scelga il vaso e poi la pallina? Abbiamo P(A)=P(B)=1/2 e P(G|A) = 1/4, P(R|A) = 3/4, P(G|B) = 1/2, P(R|B) = 1/2, per cui P(R) = P(R|A) P(A) + P(R|B) P(B) = (3/4) (1/2) + (1/2) (1/2) = 5/8 = 0.625. Ora ci poniamo un'altra domanda: se abbiamo estratto una pallina rossa, qual è la probabilità che il vaso da cui l’abbiamo estratta sia il vaso A? Conoscendo il modello fisico (cosa c'è nella scatola) la probabilità a priori è P(A)=1/2=0.5, mentre secondo il teorema di Bayes abbiamo la probabilità a posteriori P(A|R) = P(R|A) P(A) : P(R) = 0.6 che è maggiore di quella a priori (tale meccanismo si può iterare, aggiungendo la conoscenza dell'informazione precedente I).

Un altro esempio preso nella sfera medica: dati due eventi malattia (infetto o non infetto) e test (positivo o non positivo) abbiamo che P(positivo|infetto)=100% e P(non infetto|positivo)=0,2%. Quanto vale P(infetto|positivo)? Se diciamo 99,8%  siamo in errore! Infatti per calcolare tale P dobbiamo usare il teorema di Bayes che coinvolge P(infetto) e P(non infetto), i quali con 1000 persone infette su 1 milione di persone valgono 0,1% e 99,9%. Dunque dal teorema troviamo che P(infetto|positivo)=0,33=33% minore rispetto quanto pensavamo prima. Se si ripete la misura sulla popolazione dei positivi si ha P(infetto)=33% e P(non infetto)=67% con questi valori esce P(infetto|positivo)=99,9% il che fa capire quanto sia importante in taluni casi compiere due volte lo stesso test, per avere sicurezza di avere tra le mani un risultato significativo.

E importante anche non confondere gli eventi nella probabilità condizionale, in quanto il loro scambio porta a situazioni diverse: nel caso del test di compatibilità del DNA e dell'innocenza in un delitto in una città di 200001 abitanti non è P(DNA compatibile|innocente)=0,002% che vogliamo, ma P(innocente|DNA compatibile,I)=0.8.

Come altro esempio, alla Laplace, prendiamo la probabilità che il sole sorga domani P(S)  e quella che il sole sorga domani se esso è già stato visto sorgere N volte precedenti. Allora P(S|N)=1-1/(N+2) e per chi ha venti anni tale valore sarà 1-0.00014.

Formalizzando dunque l'inferenza Bayesiana sulla verità di certe ipotesi abbiamo che la probabilità a poateriori che l'ipotesi Hk sia vera se si osservano i dati D e data l'informazione precedente I è il prodotto della probabilità di osservare i dati D nel caso Hk sia vera (likelihood normalizzata/marginalizzata) con quella a priori che l'ipotesi stessa sia vera. Nel confronto tra due ipotesi Hk e Hn con uguali probabilità a priori allora il rapporto delle due probabilità a posteriori è dato dal fattore di Bayes 

P(Hk|D,I) / P(Hn|D,I) = P(D|Hk,I) / P(D|Hn,I)

mentre nell'analisi dell'iteratività nella stima di un parametro l'assunzione che dati successivi siano indipendenti tra loro semplifica i calcoli, da cui  P2(x|d1,d2,I) = (P(d2|x,I) / P(d2|I)) P1(x|d1,I) .

 


 

DISTRIBUZIONE BINOMIALE. Passando al continuo e considerando la probabilità (con C(n;k) coefficiente binomiale "n su k")

P(n|x,N) = C(n;N) (1-x)^(N-n) x^n

e volendo stimare x rispetto a distribuzione a priori uniforme otteniamo - usando il teorema di Bayes - nei parametri una distribuzione beta B definita con gamma di Eulero come B(a,b)=Γ(a)Γ(b)/Γ(a+b), per cui

P(x|n,N) = (1-x)^(N-n) x^n / B(n+1,N-n+1) = [(N+1)!/n!(N-n)!] (1-x)^(N-n) x^n

il cui valore medio è  xm=(n+1)/(N+2)~n/N  e varianza  var(x)=(N-n+1)(n+1)/[(N+3)(N+2)^3] .

Osservazione: se la probabilità a priori è diversa da quella uniforme (esempio P=2x oppure P=(k+1)x^k con k alto) allora per N finito avremo punti di partenza ben differenti.

DISTRIBUZIONE POISSONIANA. Per stimare il rate di eventi poissoniani

P(n|λ,Δt) = Δt)^n e^(-λΔt) / n!

troviamo, partendo a priori da una step function (impropria), la probabilità a posteriori

P(λ|n,Δt) = Δt)^n e^(-λΔt) / n!

con λ aleatoria, valor medio e varianza di λΔt uguali a  n+1  .

DISTRIBUZIONE GAUSSIANA. Per la stima della media m di una distribuzione con varianza fissata (k è l'inverso della radice di due pi-greco var)

P(x|m,var) = k exp[-(x-m)^2/(2 var^2)]

si usa una distribuzione a priori uniforme p(m) impropria, e si ottiene a posteriori (con m aleatoria)

P(m|x,var) = k exp[-(x-m)^2/(2 var^2)]

Se sappiamo che la media è positiva possiamo usare una distribuzione a priori diversa e ottenere anche qui risultati adeguati.

Ma il calcolo più impegnativo si ha quando la distribuzione a priori presenta una struttura gaussiana con media a priori m1. In questo caso, studiando la struttura dell'esponente, si ha distribuzione a posteriori gaussiana con media e varianza

m2 = (var1^2 x + var^2 m1)/(var1^2 + var^2)            

e

var2^2 = var^2 var1^2 / (var1^2 + var^2)

Tale processo di inferenza è tuttavia ricorsivo e si può scrivere la media come media pesata tra x e m1, ottenendo una struttura per m2 tipo filtro di Kalman con guadagno  var1^2/var1^2 +var^2  più una variazione lineare con rumore bianco gaussiano.

MINIMIZZAZIONE DEL CHI-QUADRATO. Se abbiamo una distribuzione a priori impropria l'obiettivo per ottenere la distribuzione a posteriori adeguata è massimizzare la likelihood minimizzando (con espansione e uso dell'hessiano e della matrice di covarianza) il cosiddetto chi-quadrato, che nel contesto guassiano (con dati indipendenti xi=(ai,bi) e errore trascurabile su ai) è

Chi-quadrato^2 = Sommak[(bk-b(ak;x))^2/2vark^2]

DISTRIBUZIONI A PRIORI. Quali scegliere? Due metodi: il primo considera l'invarianza per traslazioni generiche (L è likelihood e se è gaussian m è la media, d sono i dati)  P(d|m,I) = L(d,m) = g(m-f(d))  e ottiene una distribuzione uniforme (in generale impropria); il secondo considera l'invarianza di scala  P(d|t) = (1/t) e^(-d/t)  per cui con t'=k t otteniamo una distribuzione del tipo C/t (con C costante e solitamente impropria, è la Jeffreys' prior).

Tratto dal corso di ph.D di Edoardo Milotti.

 

3.4.5 Metodi MaxEnt

Applichiamo in alcuni casi il metodo MaxEnt, ricordando l'entropia di Shannon:

S = - Sommak[ pk ln(pk) ]

IL PROBLEMA DEI CANGURI (Jaynes)

In una distesa un terzo dei canguri ha gli occhi azzurri e un terzo è mancino. Qual è la frazione dei canguri che sono mancini e hanno gli occhi azzurri? Abbiamo tre casi estremi: nessuna correlazione, massima correlazione negativa e massima positiva, con le probabilità associate Pbl, P_bl, Pb_l, P_b_l (con b=azzurro, l=mancino e il simbolo '_' di negazione logica). Nel caso generico dobbiamo trovare 4 incognite ma abbiamo solo tre vincoli: Somma(P)=1, Somma(P)b=1/3 e Somma(P)l=1/3. Scriviamo dunque l'entropia

S = Pbl log(1/Pbl) + P_bl log(1/P_bl) + Pb_l log(1/Pb_l) + P_b_l log(1/P_b_l)

e la massimizziamo con il metodo dei moltiplicatori di Lagrange (tre parametri e derivate di S poste a 0) ottenendo Pbl=1/9, P_bl=2/9, Pb_l=2/9, P_b_l=4/9  (che sono gli stessi risultati per nessuna correlazione) e tale risultato coincide con quella meno informativa.

SOLUZIONE DI SISTEMI SOTTODETERMINATI (ill-posed)

Se abbiamo un sistema di equazioni con numero di incognite maggiore del numero di equazioni, possiamo trovare la soluzione ragionevole con il metodo MaxEnt, cioè quella meno informativa (con la correlazione minima tra le variabili). Si considerano vincoli le equazioni e il fattore di probabilità tra le incognite è (per x y z) del tipo P=x/(x+y+z).

DISTRIBUZIONI A PRIORI CON IL METODO MAXENT
Se abbiamo come unica informazione il vincolo di normalizzazione si ottiene  pk=1/N. Se abbiamo come unica informazione il valore medio m si ottiene  pk=e^(a0+a1xk-1)  con due vincoli determinabili con metodi numerici dalle seguenti equazioni   e^(a0-1) Sommak[e^(a1 xk)] = 1   e   Sommak[xk e^(a1 xk)] = m Sommak[e^(a1 xk)] .

ESEMPIO: IL DADO TRUCCATO. Se il valor medio di un dado è (1+2+3+4+5+6)/6=3.5 allora per un dado truccato abbiamo m=3.5(1+e). L'obiettivo è conoscere i singoli valori, dato per noto m. Con il metodo MaxEnt abbiamo la distribuzione meno informativa con vincoli nell'equazione  1 - 6e^(6a1)/(1-e^(6a1)) + e^(a1)/(1-e^(a1)) = 3.5(1+e)  risolubile numericamente. Si ottengono dunque per medie tra 3.0 e 4.0 le diverse probabilità a posteriori p1,...,p6. Questa distribuzione skewed (obliqua) è un esempio tra le DISTRIBUZIONI A PRIORI NON INFORMATIVE.

ENTROPIA RELATIVA. Per distribuzioni continue a causa di divergenze si utilizza l'entropia relativa

Sp|m = - Integrale[ p(x) ln(p(x)/m(x)) dx ]

e se abbiamo una conoscenza parziale dei momenti delle distribuzioni a priori possiamo usare MaxEnt, ottenendo una p(x) calcolabile a partire dalla scelta di m(x) e dalle equazioni vincolari (come già Boltzmann avevo esposto in meccanica statistica). In prima analisi se non si conoscono i momenti e abbiamo solo il fattore di normalizzazione e p(x) è definita in [a;b] allora si sceglie una funzione uniforme m(x)=1/(a-b) e dai vincoli esce  p(x)=1/(a-b) . Secondariamente se conosciamo anche il primo momento, la media, abbiamo equazioni vincolari risolubili numericamente, in generale. Nel caso particolare di intervallo [-L/2;L/2] e media nulla abbiamo p(x)=1/L . Invece se la media è non nulla e vale "e", si ottengono equazioni simili a quelle non lineari nella teoria del ferromagnetismo e p(x)=(1/L) (1 - 12 e x/L) . Un ultimo caso speciale lo abbiamo quando a è 0 e b tende a infinito (e media m), da cui si ottiene la funzione esponenziale p(x)= (1/m) e^(-x/m) . In terzo luogo se conosciamo la media, la varianza e l'intervallo è l'asse reale allora la probabilità che massimizza l'entropia è una gaussiana.

 


 

Facciamo una carrellata di esempi di applicazione delle tecniche Bayesiane.

1) Test di ipotesi. Sia T la temperatura di un liquido che può essere acqua oppure etanolo. Supponiamo che il liquido sia acqua e poi etanolo, per ogni caso scegliamo appropriata distribuzione a priori, apparato come funzione likelihood P(D|T,I), errore di misura massimo di ±5°C, acquisiamo un dato: il termometro legge D=-3°C, calcoliamo l'evidenza (che quantificano la preferenza verso una ipotesi rispetto all'altra) P(D)=P(D|ipotesi), applichiamo il teorema di Bayes e troviamo P(T|D,I).

2) Fit di una retta. Sia  yi = a xi + b + err  , con yi la quantità misurata, xi la variabile indipendente nota con precisione, a e b i parametri di cui dobbiamo conoscere a priori le distribuzioni, err l'errore sulla misura distribuito gaussianamente. Se la likelihood sulla yi ha forma gaussiana e la distribuzione a priori di "a" è uniforme rispetto all'angolo (a=tg(z)) e quella di "b" uniforme impopria correlata alla precedente, allora si trova dopo molti calcoli la distribuzione a posteriori (approssimando una integrazione "piccata").

3) Media pesata. Se abbiamo errori noti con distribuzione gaussiana e scegliamo una distribuzione a priori uniforme impropria otteniamo, col teorema di Bayes e riarrangiando l'esponente, la probabilità a posteriori e si osserva che anche la media è distribuita gaussianamente.

4) Trattazione di errori sistematici. Come caso precedente ma con in aggiunta errori di scala, per cui il teorema di Bayes corrisponde alla marginalizzazione della likelihood rispetto alla media (che qui viene trattata come nuisance parameter) e si prende prendiamo una densità di probabilità a priori uniforme (invariante per traslazione). Nei calcoli si usa l'argomento di invarianza di scala già visto e si ottiene la distribuzione a posteriori.

5) Un problema bidimensionale. Un faro posto in P(x0;y0 emette luci casualmente in tutte le direzioni). Ci sono dei rilevatori sulla linea di costa (asse x) e l'evento è l'arrivo di tale luce. Allora bisogna trovare dove si trova il faro. Si sceglie una prob. a priori uniforme rispetto all'angolo di emissione della luce scritta rispetto a x, si calcola la likelihood e poi col teorema di Bayes la prob. a posteriori (osservazione in prima istanza marginalizziamo rispetto a y0, non interessandoci di tale posizione, oppure se la conosciamo già y0=1). Da esperimenti numerici si trova il valore di x0 molto piccato.

 


 

ALGORITMI. Una sezione molto importante delle applicazioni del principio MaxEnt, che non tratteremo, riguarda l'algoritmo EM di Dempster, Laird e Rubin per l'elaborazione delle immagini.

Inoltre siccome si incontrano molti integrali da risolvere numericamente (marginalizzazione della likelihood, calcolo dell'evidenza) è centrale utilizzare i metodi di Monte Carlo. Per approfondire si veda: acceptance-rejection sampling, bootstrap statistico, calcolo Bayesiano in una prospettiva di campionamento-ricampionamento (Smith e Gelfand), introduzione all'algoritmo di Metropolis-Teller-Hastings e al Markov Chain Monte Carlo (MCMC).

Infine un ulteriore approfondimento si trova in "On the relationship between Bayesian and MaxEnt Inference" (from Cheeseman & Stutz - 2004, dove si considerano tre problemi più complessi di quelli tratteggiati finora e si riprende anche il problema dei canguri) e nello studio MCMC di BioBayes.
 

Tratto dal corso di ph.D di Edoardo Milotti.

 

3.4.6 Apprendimento automatico e alberi di decisione

L'apprendimento automatico rappresenta una delle aree fondamentali dell'intelligenza artificiale (IA) e si occupa della realizzazione di sistemi e algoritmi che si basano su osservazioni come dati per la sintesi di nuova conoscenza (ragionamento induttivo). L'apprendimento può avvenire catturando caratteristiche di interesse provenienti da esempi, strutture dati o sensori, per analizzarle e valutarne le relazioni tra le variabili osservate. Abbiamo tre tipologie di apprendimento automatico: supervisionato, non supervisionato e con rinforzo.

La definizione formale è dovuta a Mitchell: "un programma apprende da una certa esperienza E se: nel rispetto di una classe di compiti T, con una misura di prestazione P, la prestazione P misurata nello svolgere il compito T è migliorata dall'esperienza E".

 


 

CLASSIFICAZIONE BAYESIANA. Noti i dati X, la classe C che emerge ha una probabilità condizionale data dal teorema di Bayes. La likelihood e la probabilità a priori vengono apprese tramite un "training". Con il giungere di nuovi dati la classe viene modificata scegliendo quella che massimizza la probabilità a posteriori, considerando a priori le classi apprese fino a quel punto.

Considerando un vettore x=[xi] di N attributi booleani vogliamo esprimere una classificazione booleana y a questo vettore. Per trovare P(y) bastano un centinaio di esempi per avere distribuzione a meglio del 10%. Per trovare P(x|y) il problema è più complesso (l'argomento assume complessivamente 2N+1 valori differenti e dobbiamo stimare 2(2N-1) parametri i quali con N = 30 sono più di 2 miliardi) e si introducono le ipotesi Naive Bayesian Learning di indipendenza condizionale da parte degli attributi x. In tal modo la complessità dell'apprendimento viene ridotta. In due dimensioni abbiamo P(x1,x2|y) = P (x1|x2,y) P(x2|y) = P(x1|y) P(x2|y)  e sulle classi yk si sceglie quella y con probabilità massima a posteriori.

Se ognuna delle N variabili x può assumere J valori diversi e ci sono K classi, allora in totale ci sono N K (J-1) parametri da stimare, più accessibili che nel caso completo. Se ci sono valori continui e classi discrete, in modellizzazione gaussiana si scelgono 2NK parametri + la forma della P(y) (in generale altri K-1 parametri). Nel caso particolare gaussiano con due classi (booleane) e varianza indipendente dalla classe abbiamo P(y=0|x) e P(y=1|x) (un elemento di input appartiene alla classe 0 se P0>P1) con forme logistiche.

Abbiamo visto un caso di apprendimento supervisionato. Ci sono anche situazioni di apprendimento non supervisionato, come il programma AUTOCLASS della NASA e progetti analoghi.
 


 

Approfondiamo alcuni aspetti dell'apprendimento automatico. Un sistema che apprende cambia nel tempo, arricchendo la propria base di conoscenze, migliora il proprio comportamento e generalizza da casi particolari con regole generali applicabili a casi ancora non incontrati. Tale ragionamento è induttivo, per cui ogni sua condizione potrebbe sempre rivelarsi falsa (basta che esista una caso non osservato che contraddice le conclusioni), le premesse false si preservano e infine da tutte premesse vere possono esistere ancora conclusioni false.

APPRENDIMENTO DA ESEMPI. L'apprendimento da esempi (supervisionato) è in genere costoso - ha bisogno di un esperto e di tempo per allenarsi - ma generalmente ha buone prestazioni. DEFINIZIONE: dato un insieme di esempi positivi o negativi di un certo fenomeno, il sistema deve indurre una regola di classificazione in grado di riconoscere tutti gli esempi positivi e di scartare tutti gli esempi negativi. OSSERVAZIONE: è un tipo di apprendimento cooperativo: l’insegnante fornisce dei buoni esempi e l’allievo ha il compito di estrapolare dagli esempi una regola generale. APPLICAZIONI: classificazione di notizie, diagnosi medica, previsioni del tempo, consigli, elaborazione del linguaggio. FORMALIZZAZIONE DEL PROBLEMA: istanze (con attributi che assumono valori), concetto (funzione C(x)), esempi di allenamento, ipotesi (approssimazione del concetto). PROCEDIMENTO: 1. definire il compito 2. proprietà rilevanti 3. esempi rappresentativi 4. algoritmo che produce un classificatore 5. il classificatore viene usato per altre istanze. ALGORITMO DI GENERALIZZAZIONE: 0. inizializza h alla ipotesi più specifica 1. per ogni esempio positivo x e per ciascun attributo a in h SE a è soddisfatto da x ALLORA non fare niente ALTRIMENTI sostituisci a in h con il primo vincolo più generico che soddisfi x 2. restituisci h.

  


 

ALBERI DI DECISIONE. Un grafico dato da un insieme di regole SE-ALLORA viene definito albero di decisione, in modo che possiamo costruire una regola che congiunge la radice dell'albero con ogni nodo foglia (concetto da apprendere), sapendo che ci sono nodi intermedi (test da effettuare sugli attributi). Il procedimento per costruire un albero di decisione è 1. la selezione di un attributo "a" e creazione per esso di un nodo, 2. creazione per ogni valore di "a" di un nodo figlio, 3. associazione ad ogni figlio delle entità dell’insieme di allenamento che soddisfano il valore dell’attributo considerato, per cui 4. SE tali entità appartengono tutte alla stessa classe ALLORA si crea un nodo foglia per quella classe, ALTRIMENTI si considera un altro attributo. Una osservazione importante è questa: nella scelta degli attributi sono migliori quelli maggiormente informativi rispetto a una certa classe, per cui 1. l’attributo ideale dovrebbe permetterci di dividere gli elementi dell’insieme di addestramento in sottoinsiemi omogenei (puri), tali per cui gli elementi di ciascun sottoinsieme appartengano ad una sola classe; 2. sono quindi da preferirsi attributi che minimizzano l’impurità dei sottoinsiemi individuati da un attributo. Per calcolare la quantità di impurità presente in un sottoinsieme si usa la nozione di entropia, definita dalla teoria dell’informazione.

 


 

ENTROPIA E APPRENDIMENTO AUTOMATICO. Se p(c) è la probabilità che una certa entità faccia parte di una certa classe (un concetto da apprendere) allora in generale l'entropia del sistema T è data, come al solito, da

Entropia(T) = Sommac[ –p(c) log2(p(c))]

Se abbiamo esempi positivi e negativi i contributi nella somma sono due p(+) e p(-), per cui tale misura indica quanti bit sono necessari per comunicare una certa classificazione di un esempio estratto dall’insieme T. Se l’entropia è 0 (nessun bit) significa che non è necessario nessun messaggio; se l’entropia è 1 significa che un bit di informazione deve essere trasmesso (ad esempio: l’entropia sarà 0 se tutti gli esempi appartengono alla stessa classe (tutti positivi o tutti negativi) e sarà 1 se c’è un numero uguale di esempi positivi e negativi).

GUADAGNO. Definiamo una misura per stimare l’efficacia di un certo attributo A per classificare gli esempi di addestramento contenuti nell’insieme T. Il guadagno dell’attributo A sarà dato dalla diminuzione dell’entropia di T dopo aver scelto l’attributo A, calcolata su tutti i sottoinsiemi in cui A ha suddiviso gli esempi di T.

 


 

VALUTAZIONE DI IPOTESI. Per completare il quadro passiamo in rassegna alcune tecniche di calcolo delle ipotesi. In primo luogo come si calcola il numero delle potenziali entità diverse presenti in un dominio? Per ogni attributo si contano i valori che può ammettere e si moltiplicano fra loro, ottenendo la cardinalità dello spazio delle entità. Successivamente ci chiediamo: dato uno spazio delle entità fissato, quanti concetti diversi si possono costruire quindi apprendere? Consideriamo che qualsiasi raggruppamento diverso di una o più entità può essere un concetto. Quindi occorre calcolare l’insieme potenza dello spazio delle entità (2|X| dove |X| è la grandezza dello spazio delle entità; sono in genere tantissime combinazioni, anche disgiunzioni di attributi) che nel caso di congiunzione di attributi (come nell'algoritmo di generalizzazione precedente) sono drasticamente minori in quanto per ogni attributo si contano i valori che può ammettere più il simbolo ? (qualunque), si moltiplicano fra loro e si somma 1 per tutti i concetti che presentano ∅ (nessuno).

Questa riduzione dello spazio delle ipotesi si basa su una preferenza induttiva che l’algoritmo assegna alle ipotesi in forma congiuntiva: implicitamente si assume che il concetto da apprendere sia all’interno di questo spazio ridotto. Ogni algoritmo di apprendimento, implicitamente, assegna una preferenza ad un certo sottoinsieme delle ipotesi. Nel caso degli alberi di decisione la preferenza induttiva è data agli alberi (ipotesi) più semplici in cui i nodi con la maggior stima di guadagno sono posti più vicini alla radice.

Abbiamo dunque una metodologia per realizzare un sistema di apprendimento automatico: 1. Selezione dei dati sperimentali, 2. Annotazione degli esempi positivi e negativi, 3. Selezione dei dati di addestramento e dei dati di valutazione, 4. Scelta delle proprietà rilevanti delle entità, 5. Scelta dell’algoritmo di apprendimento, 6. Addestrare il classificatore sui dati di addestramento, 7. Applicare il classificatore sui dati di valutazione, 8. Valutazione delle prestazioni dell’algoritmo, 9. Se le prestazioni non sono soddisfacienti tornare al punto 1 e verificare che ad ogni fase siano state effettuate le scelte migliori.

MISURE DI VALUTAZIONE . Una matrice di contingenza permette di confrontare i risultati ottenuti (automaticamente) da un sistema di apprendimento con le classificazioni corrette (manuali) sullo stesso insieme di dati di valutazione. Avremo dunque dati di valutazione TP: veri-positivi, TN: veri-negativi, FP: falsi-positivi, FN: falsi-negativi. Possiamo dunque misurare l'accuratezza

(TP + TN) / (TP + TN + FP + FN)

il margine di errore

(FP + FN) / (TP + TN + FP + FN)

la precisione

TP / (TP +FP)

la copertura

TP / (TP + FN)

e la misura F, che combina in una unica misura la precisione (P) e la copertura (R), ottenendo una stima complessiva delle prestazioni di un classificatore:

F = 1 / ( a / P + (1 - a) / R )

Il parametro "a" serve per considerare un diverso apporto di precisione e copertura. Se a = 0,5, la formula si può semplificare con 2PR/(R + P). Se a è maggiore di 0,5 allora viene premiata la precisione.

 


 

Un possibile sviluppo pratico di ricerca sugli alberi di decisione può essere lo studio del software open-source "WEKA", scritto in java (vedi qui su wikipedia.it per informazioni).

 

Tratto da wikipedia.org/wiki/Apprendimento_automatico (con bibliografia annessa), dal corso di Intelligenza Artificiale di Bernardo Magnini (lezioni 18-21) e dal corso di ph.D di Edoardo Milotti.

 

Cibernetica, intelligenza artificiale, sistemi esperti

Facciamo una ricerca sul web.
Cibernetica
|---> Scienza che studia i fenomeni di autoregolazione (vedi anche controlli adattativi) e comunicazione (vedi anche il lavoro di Shannon e di Von Neumann);
|---> Termine coniato nel 1947 da Wiener (si veda inoltre il processo di Wiener), in omaggio a Maxwell che studiò i regolatori centrifughi di velocità, già analizzati anche da Watt;
---------------|---> Un argomento trattato dalla cibernetica sono le RETI NEURALI
 
Intelligenza Artificiale
|---> Sistemi esperti di Ugo Chirico;
|---> Abduzione
----------|---> Definizione (secondo Peirce): Osservando un fatto sorprendente e avendo a disposizione una regola in grado di spiegarlo possiamo ipotizzare la validità di una causa che produce il fatto. In questo modo abbiamo accresciuto la nostra conoscenza in quanto sappiamo qualcosa di più: prima conoscevamo un fatto e ora ne conosciamo anche la causa.
----------|---> Esempio:
-------------------|---> Fatto sorprendente: "Nella mano destra ho alcuni fagioli bianchi"
-------------------|---> Regola: "Tutti i fagioli di questo sacchetto, che ho nella mano sinistra, sono bianchi"
-------------------|---> Ipotesi possibile: "Questi fagioli che ho nella mano destra vengono da questo sacchetto che ho nella mano sinistra";
---------|---> Esempio:
-------------------|---> Fatto sorprendente: "Vedo nel tonno nel mio piatto"
-------------------|---> Regola: "Sul tavolo c'è una scatoletta di tonno aperta"
-------------------|---> Ipotesi possibile: "Il tonno nel mio piatto proviene da quella scatoletta di tonno sul tavolo"
|---> Programmazione logica abduttiva (vedi anche guida #1 o #2 o #3 a Prolog)
---------|---> La base di conoscenza è il mio programma, la domanda è il mio input, il Prolog fa risponde alla domanda.