Kapitel 7
Spezialthemen

2  Entropie und Information

Über die Entropie haben wir im vorhergehenden Kapitel bereits vieles erfahren. Um den Begriff aber umfassend zu verstehen, muss man ihn sich noch aus einer anderen Perspektive heraus ansehen: Entropie sagt etwas darüber aus, welche Informationen man über ein System hat, wenn man es durch ein statistisches Ensemble beschreibt, und wieviel Information man haben könnte, wenn man es durch einen Mikrozustand beschreiben könnte. Entropie ist ein Maß für das Informationsdefizit zwischen Makro- und Mikrozustand. Bevor wir tiefer einsteigen, hier noch eine kurze Wiederholung der wesentlichen Ergebnisse aus dem vorhergehenden Kapitel:


kurze Wiederholung:

Die Entropie benötigt man zur statistische Beschreibung eines makroskopischen Systems durch Makrozustände, die man durch einige wenige Zustandsgrößen kennzeichnen kann. So kann man beispielsweise einen Behälter mit Wasserstoff im thermischen Gleichgewicht durch die drei Größen Energie E, Volumen V und Teilchenzahl N beschreiben.

Zu einem Makrozustand gehören unglaublich viele Mikrozustände, die verschiedene Möglichkeiten darstellen, den Makrozustand zu realisieren. Quantenmechanisch sind diese Mikrozustände einfach die N-Teilchenzustände (Wellenfunktionen) des makroskopischen Systems, die in dem Makrozustand erreichbar sind. Die Wahrscheinlichkeit, mit der ein Mikrozustand   |nñ   in einem bestimmten Makrozustand auftritt, haben wir Pn genannt. Die Wahrscheinlichkeiten Pn für alle Mikrozustände bilden zusammen das statistische Ensemble (auch statistische Gesamtheit oder Verteilung genannt) für den Makrozustand.

Besonders einfach ist mikrokanonische Ensemble, das gleichsam den Prototyp bildet und aus dem sich die gesamte Thermodynamik ableiten lässt. Der Makrozustand ist dabei durch Energie E, Volumen V und Teilchenzahl N gekennzeichnet, wobei man eine kleine Energieunschärfe δE zulässt, so dass genügend viele Mikrozustände erreichbar sind. Man spricht hier von einem makroskopisch abgeschlossenen System -- das bedeutet, dass die Werte von E (mit Intervall δE ), V und N fest vorgegeben sind und die erreichbaren Mikrozustände festlegen, dass es sonst keine weiteren Nebenbedingungen an das Ensemble gibt und dass die geringe Restwechselwirkung mit der Umgebung nur dadurch berücksichtigt wird, dass das System sehr schnell und willkürlich zwischen den erreichbaren Mikrozuständen springt. Alle erreichbaren Mikrozustände treten dabei mit derselben Wahrscheinlichkeit Pn = 1/Ω auf, wobei Ω die Zahl der erreichbaren Mikrozustände ist. Ein typischer Wert bei N = 1020 Teilchen ist   Ω = 10(1020)   . Den Logarithmus dieser Zahl, versehen mit der Boltzmannkonstante k als Vorfaktor, nennt man die Entropie des Makrozustandes:

Entropie bei konstanten   Pn = 1/Ω :

  S   =   k   ln Ω

Damit ist die Entropie proportional zur Zahl der Dezimalstellen von Ω . Diese Dezimalstellenzahl ist von der Größenordnung der Teilchenzahl N und fast unabhängig von der Größe des Energieintervalls δE , solange δE sehr viel kleiner als E und sehr viel größer als der Energieabstand benachbarter Mikrozustände ist. Da derjenige Makrozustand bei weitem am wahrscheinlichsten ist, der die meisten Realisierungsmöglichkeiten Ω aufweist, wird die Entropie im thermischen Gleichgewicht ein Maximum annehmen.

Wenn man E, V oder N nicht fest vorgibt, sondern Fluktuationen in einem oder mehreren dieser Werte zulässt und dabei nur den Mittelwert durch ein Wärmebad fixiert, so ergeben sich andere statistische Ensembles. Beispielsweise kann man eine Temperatur T vorgeben und dadurch den Mittelwert von E fixieren. Der Makrozustand und das zugehörige statistische Ensemble (kanonisches Ensemble genannt) werden dann durch T, V und N beschrieben. Bei makroskopischen Systemen ist die Schwankungsbreite um die fixierten Mittelwerte sehr klein, so dass die verschiedenen Beschreibungen makroskopisch gleichwertig sind -- beispielsweise kann man die mittlere Fluktuation der Energie beim kanonischen Ensemble gleich dem Energieintervall δE des mikrokanonischen Ensembles setzen und damit dann die makroskopische Gleichwertigkeit der beiden Ensembles nachweisen. Mikroskopisch (beispielsweise in Bezug auf kleine Teilsysteme oder gar einzelne Atome) unterscheiden sich die Beschreibungen jedoch. Das mikrokanonische Ensemble ist nur für makroskopische Systeme sinnvoll, während das kanonische Ensemble (und vergleichbare Ensembles) auch für mikroskopische Teile des Gesamtsystems anwendbar sind, denn man kann den Rest des Systems dann als Wärmebad für das kleine Teilsystem betrachten. Im Gegensatz zum mikrokanonischen Ensemble sind nun aber die Wahrscheinlichkeiten Pn für die verschiedenen Mikrozustände   |nñ   nicht mehr gleich groß, so dass die obige Definition der Entropie nicht mehr anwendbar ist und erweitert werden muss.

Dazu schreibt man die Entropie-Definition vom mikrokanonischen Ensemble   S   =   k   ln Ω   zunächst etwas um, indem man   Pn = P = 1/Ω   verwendet:

  S   =   k   ln Ω   =   k   ln 1/P   =   − k   ln P

Das funktioniert gut, solange   Pn = P   unabhängig von n ist. Ist das nicht mehr der Fall, so verallgemeinern wir diese Definition und verwenden statt dem konstanten P einfach die Wahrscheinlichkeit desjenigen Mikrozustandes, der genau bei den fixierten Mittelwerten liegt. Da bei makroskopischen Systemen die Schwankung um den Mittelwert sowieso sehr klein ist, scheint das eine vernünftige Wahl zu sein.

Wenn wir beispielsweise T vorgeben und damit den Mittelwert E fixieren, so schreiben wir   S   =   − k   ln P(E)   . Dabei ist im zugehörigen kanonischen Ensemble   P(E)   =   e− E / (kT) / Z   und E ist der fixierte Mittelwert der Energie.

Analog: Wenn wir zusätzlich noch das chemische Potential vorgeben und damit den Mittelwert N zusätzlich fixieren, so schreiben wir   S   =   − k   ln P(E,N)   . Dabei ist im zugehörigen großkanonischen Ensemble   P(E,N)   =   e{μ N   −   E} / (kT) / ZG   und N ist der fixierte Mittelwert der Teilchenzahl. Wenn wir μ = 0 setzen, so kommen wir wieder zum kanonischen Ensemble zurück.

Rechnen wir am Beispiel des großkanonischen Ensembles die Entropie ein wenig um, wobei wir   1   =   ∑n Pn   ,   E   =   ∑n Pn En   und   N   =   ∑n Pn Nn   verwenden:

  S   =   − k   ln P(E,N)   =  
  =   − k   ln ( e{μ N   −   E} / (kT) / ZG )   =  
  =   − k   ( ln 1/ZG   +   μ N / (kT)   −   E / (kT) )   =  
  =   − k   ∑n Pn ( ln 1/ZG   +   μ Nn / (kT)   −   En / (kT) )   =  
  =   − k   ∑n Pn ln ( e{μ Nn   −   En} / (kT) / ZG )   =  
  =   − k   ∑n Pn ( ln Pn )

Die Rechnung lässt sich analog auch für andere fixierte Mittelwerte und zugehörige Ensembles durchführen. Für das kanonische Ensemble muss man nur μ = 0 in der Rechnung setzen und entsprechend alle Teilchenterme weglassen.

Unsere Idee, einfach statt einem konstanten P die Wahrscheinlichkeit des Mikrozustandes an den fixierten Mittelwerten zu verwenden, führt also generell zu folgender verallgemeinerter Entropiedefinition:

Entropie (allgemeine Definition):

  S   =   − k   ∑n   Pn ( ln Pn )

Nun ist es zwar schön, dass sich unsere anschaulich leicht zugängliche Anfangsdefinition   S   =   k   ln Ω   so zwanglos verallgemeinern lässt. Es wäre aber schön, wenn wir auch die verallgemeinerte Definition   S   =   − k   ∑n Pn ( ln Pn )   direkt anschaulich verstehen könnten. Außerdem ist nicht mehr unmittelbar klar, warum diese verallgemeinerte Entropie im thermischen Gleichgewicht ein Maximum annehmen soll. Versuchen wir also, eine entsprechende Interpretation für die verallgemeinerte Entropie zu finden.


Entropie als Maß für ein Informationsdefizit:

Anmerkung: Dieser Abschnitt orientiert sich u.a. an M.Stingl: Statistische Mechanik.

Um die obige verallgemeinerte Entropiedefinition zu verstehen, wollen wir uns folgende Idee ansehen: Wir betrachten ein System A, das sich in einem schwachen Kontakt mit seiner Umgebung A' befindet. Diese Umgebung A' soll sehr groß sein -- man kann auch von einem Wärmebad sprechen. Das System A selber muss nicht unbedingt groß sein, aber die Wechselwirkung mit der Umgebung A' muss groß genug sein, so dass sich das System nur sehr kurz in einem Mikrozustand halten kann (sie die Diskussion zur Kohärenzzeit am Ende des vorherigen Kapitels ). Die unkontrollierte Wechselwirkung mit der großen Umgebung A' führt nun dazu, dass fast jede Information über System A, die wir anfänglich möglicherweise noch besitzen, mit der Zeit immer weniger Wert ist. Sie diffundiert gleichsam in die Umgebung A' hinaus und geht verloren (siehe Kapitel 7.1 Anhang 2 ). Am Schluss können wir uns nur noch auf die Informationen verlassen, die wir aufgrund der experimentellen Anordnung ständig makroskopisch sicherstellen können. Nur diese sicheren Informationen wollen wir zur Beschreibung des Systems im Gleichgewicht verwenden -- Stingl spricht vom Grundsatz geringster Voreingenommenheit. Unser statistisches Ensemble soll also keinerlei Zusatzinformation enthalten, die wir nicht wirklich besitzen und sicherstellen können.

Anmerkung:
Der Grundsatz geringster Voreingenommenheit lässt sich nicht allgemein beweisen. Er stellt eine statistische Grundannahme dar, die plausibel ist, die durch die Erfahrung bestätigt wird und die in vielen Modellen überprüft werden kann. Man kann sich aber auch den Fall vorstellen, dass das System verborgene Informationen besitzt, die wir vielleicht nicht kennen oder die nur sehr langsam durch die Umgebung verwischt werden -- man spricht von metastabilen Systemen. In diesem Fall gilt es, diese Informationen aufzuspüren und in dem Ensemble zu berücksichtigen.

Wir suchen nun ein Maß für das Informationsdefizit des statistischen Ensembles von A. Nach dem Grundsatz geringster Voreingenommenheit muss dieses Maß im Lauf der Zeit immer mehr anwachsen, bis es im Gleichgewicht maximal wird -- genau wie die Entropie.

Starten wir also mit einem statistischen Ensemble (also die Wahrscheinlichkeiten Pn für die einzelnen Mikrozustände) von A und nehmen wir an, dass wir keine weitere Information über das System A haben. Nun führen wir Messungen am System A durch, d.h. wir schauen nach, in welchem Mikrozustand   |nñ   sich unser System A momentan befindet (ob das praktisch durchführbar ist, soll uns hier nicht interessieren). Wieviel ist diese neue Information nun wert? Das wird von der uns bekannten Wahrscheinlichkeit Pn abhängen, mit der dieser Mikrozustand im Mittel auftritt. Ist Pn = 1 , d.h. tritt immer nur dieser Mikrozustand auf, dann liefert unsere Messung keine neue Information -- das Ergebnis war sowieso klar. Ist dagegen Pn fast Null und finden wir trotzdem diesen extrem selten auftretenden Zustand, dann ist diese Information viel Wert. Statt Wert der Information könnte man auch Grad unserer Überraschung oder Neuigkeitswert sagen. Den praktische Wert oder die Bedeutung der Information für den Empfänger betrachten wir hier nicht -- insofern ist der obige Informationsbegriff etwas eingeschränkt zu verstehen. Man kann aber durchaus Querbezüge zu anderen Informationsbegriffen herstellen, beispielsweise zur Komplexität -- mehr dazu weiter unten.

Bezeichnen wir mit   I(Pn)   den Neuigkeitswert der Information (Grad der Überraschung), den mit Wahrscheinlichkeit Pn auftretenden Mikrozustand   |nñ   tatsächlich zu finden. Nach unserer Überlegung muss   I(1) = 0   sein, denn ein sicheres Ergebnis birgt keine Überraschung und keine neue Information. Je kleiner Pn wird, umso größer ist unsere Überraschung, den Zustand zu finden, und umso größer muss   I(Pn)   werden.

Nun kommt ein wichtiger Schritt: Wir möchten I gerne so konstruieren, dass sich bei mehreren statistisch unabhängigen Messungen die zugehörigen Informationswerte addieren. I soll in diesem Sinne ein additives Informationsmaß sein. Stellen wir uns dazu vor, wir schauen zweimal nach und messen einmal den Mikrozustand   |nñ   und ein anderes mal den Mikrozustand   |mñ   . Dabei sollen sich diese beiden Messungen nicht gegenseitig beeinflussen -- unser System soll also kein Gedächtnis haben, das sich die Messung merkt, ganz analog zu einem Würfel. Die Wahrscheinlichkeit für unser kombiniertes Messergebnis ist also gleich dem Produkt   Pn Pm   . Wir möchten nun, dass der Informationswert für dieses Messergebnis gleich der Summe der einzelnen Informationswerte ist:

  I(Pn Pm)   =   I(Pn)   +   I(Pm)

Damit stellen wir sicher, dass mit jeder neuen Messung der Wert der gesammelten Information über alle Messungen anwächst. Vorsicht: Diese Information wird nicht im System gespeichert, sondern sie steht alleine in unserem Messprotokoll. Es ist also keine Information über unser System (die steckt alleine in den Wahrscheinlichkeiten Pn ), sondern eine Information über unsere Messungen. Hier wird kein System präpariert, denn die Messinformation wird ja sehr schnell durch den Einfluss der Umgebung im System wieder ausradiert.

Die obige Eigenschaft von I macht auch Sinn, wenn wir die beiden Messungen an zwei verschiedenen statistisch unabhängigen Systemen vornehmen. Der Informationswert der beiden Messungen ist dann gleich dem Informationswert der ersten Messung plus dem Informationswert der zweiten Messungen, was intuitiv sehr sinnvoll erscheint. Wenn wir die einzelnen Messergebnisse in einer Zeichenkette hintereinander schreiben, so addieren sich die Informationen der einzelnen Zeichen (Messungen), d.h. die Gesamtinformation wächst linear mit der Länge der Zeichenkette -- auch das erscheint plausibel.

Mit den obigen Forderungen ist die Funktion I bis auf einen positiven Normierungsfaktor C eindeutig festgelegt:

  I(Pn)   =   − C   ln Pn

Man kann sich auch auf andere Weise klar machen, warum dies ein sinnvolles Maß für den Neuigkeitswert der Messinformation ist: Zunächst kennen wir nur die Wahrscheinlichkeit Pn , mit dem unser Mikrozustand bei vielen Messungen im Mittel auftritt. Wir wissen also, dass es im Mittel etwa 1/Pn Messungen dauert, bis er das nächste Mal gemessen wird. Um genau sagen zu können, wann der nächste Treffer auftritt, müssen wir genau angeben, wieviele Versuche es bis dahin dauert. Diese Versuchsanzahl (nennen wir sie x) ist von der Größenordnung 1/Pn , d.h. wir brauchen ungefähr   log2 (1/Pn)   =   − log2 Pn   Bit an Information, um die genaue Versuchsanzahl x als Binärstring aufzuschreiben und damit unsere statistische Information (Wahrscheinlichkeit Pn) durch eine exakte Information (neuer Treffer nach x weiteren Versuchen) zu ersetzen. Statt dem Zweierlogarithmus können wir auch den natürlichen Logarithmus mit einem passenden Vorfaktor verwenden, was unser obiges Informationsmaß ergibt.


Recht interessant ist noch die folgende Überlegung, die   I(Pn)   mit der algorithmischen Komplexität verknüpft (siehe Tobias Marriage, Prof. Groth: Computing Entropy: Understanding Maxwell's Demon, 1998 ).: Man kann nämlich analog zur Berechnung von Chaitins Zahl Ω (siehe Die Grenzen der Berechenbarkeit, Kapitel 34 ) die Wahrscheinlichkeit dafür ausrechnen, dass ein immer länger werdender bitweise gewürfelter Binärstring p irgendwann ein Programm auf einem gegebenen Computer U darstellt, welches einen bestimmten vorgegebenen String sn ausgibt und dann anhält (bei Chaitins Ω fordert man dagegen nur, dass das Programm überhaupt anhält). Eine weitere Verlängerung des Programmstrings p erübrigt sich dann, denn Programme müssen Präfix-frei sein, d.h. jede Verlängerung eines Programmstrings ist selbst kein Programmstring. Man stößt beim Verlängern eines Bitstrings mit immer neuen gewürfelten Bits also nur maximal einmal auf einen Programmstring, und dieser ist dann einer von 2|p| Bitstrings mit |p| Bits. Die Berechnung der Wahrscheinlichkeit folgt insgesamt derselben Argumentation wie bei der Berechnung von Ω in Die Grenzen der Berechenbarkeit, Kapitel 34 mit dem Ergebnis:

  P(sn)   =   ∑p; U(p) hält und gibt sn aus   1/2|p|   =   1/2|p1| + 1/2|p2| + ...

wobei U(p) das auf dem Computer U laufende Programm p ist, |p| die Bitlänge des Programmstrings p ist und p1, p1, ... die Programme sind, die auf dem Computer U den String sn ausgeben und anhalten. Picken wir uns den größten Summanden rechts heraus, also den Summanden mit dem kleinsten |pi| (also das kürzeste Programm pi). Dann ist   P(sn)   ≥   1/2|pi|   . Der Zweier-Logarithmus liefert   log2 P(sn)   ≥   − |pi|   und somit

  |pi|   ≥   − log2 P(sn)   =   − A ln P(sn)

mit   1/A = ln 2   . Da pi das kürzeste Programm ist, das sn ausgibt, ist   |pi|   die Komplexität des Ausgabestrings sn (siehe Die Grenzen der Berechenbarkeit, Kapitel 33 ). Die obige Gleichung bedeutet also:

  • Je kleiner die Wahrscheinlichkeit dafür ist, dass ein gewürfeltes Programm auf einem vorgegebenem Computer einen bestimmten String ausgibt, umso größer ist die Komplexität dieses Strings, d.h. umso weniger gut lässt er sich komprimieren und umso länger ist das kürzeste Programm, das ihn ausgeben kann.

Anders ausgedrückt:
Komplexe Ausgabestrings brauchen Ausgabeprogramme mit einer großen Mindestlänge, und die werden entsprechend selten gewürfelt.

Den Zusammenhang zu einem bestimmten statistischen Ensemble kann man nun so herstellen: Wir stellen uns das statistische Ensemble als einen Computer vor, der bei jeder Messung des Mikrozustandes einen Programm-Binärstring würfelt und als Programm laufen lässt, so dass dieses dann einen String sn ausgibt und anhält. Dieser Ausgabestring sn repräsentiert dann den gemessenen Mikrozustand   |nñ   -- er könnte beispielsweise die extrem vielen Messwerte enthalten, die diesen Mikrozustand festlegen. Die Wahrscheinlichkeit P(sn) für die Ausgabe dieses Strings entspricht also der Wahrscheinlichkeit Pn , den Mikrozustand   |nñ   zu finden. Nun hängt die Wahrscheinlichkeit P(sn) für die Ausgabe des Strings sn bei Zufallsprogrammen natürlich von dem gewählten Computer ab, denn verschiedene Computer interpretieren einen Programm-Binärstring unterschiedlich. Andere Computer führen daher zu anderen Wahrscheinlichkeiten für den Ausgabestring sn. Wir müssen daher einen Computer wählen, der die Wahrscheinlichkeiten P(sn) gleichsam eingebaut hat und in diesem Sinn das statistische Ensemble und seine Pn repräsentiert. Die Information über das statistische Ensemble steckt also in dem passend gewählten Computer selbst drin. Daher braucht man auch einen Computer zur Erzeugung des Strings sn und kann diesen String nicht einfach direkt würfeln, denn so könnte man die vorgegebenen Wahrscheinlichkeiten P(sn) für die Ausgabe dieses Strings nicht garantieren. Statt dessen würfelt man die Programme und der gewählte Computer interpretiert diese Programme gerade so, dass dabei die Strings sn mit denjenigen Wahrscheinlichkeiten P(sn) = Pn ausgegeben werden, die das statistische Ensemble vorgibt. Man spricht daher auch von der bedingten Komplexität des Strings sn , denn sie setzt einen passend gewählten Computer voraus.

Die obige Gleichung besagt damit:

  • Die bedingte Komplexität des Strings sn, der den Mikrozustand   |nñ   beschreibt, ist mindestens so groß wie   K I(Pn)   mit einer positiven Konstanten K und   I(Pn)   =   − C   ln Pn   . Der Neuigkeitswert   I(Pn)   liefert also in diesem Sinn einen Mindestwert für die bedingte Komplexität des gemessenen Mikrozustandes   |nñ   .

Man sieht, wie man zwischen den beiden Informationsmaßen Neuigkeitswert und Komplexität (Nicht-Komprimierbarkeit) interessante Querbezüge herstellen kann.


Damit haben wir ein Maß für den Neuigkeitswert der Information gefunden, bei einer Messung einen bestimmten Mikrozustand vorfinden. Dieses Maß ermöglicht es uns nun, ein Maß für das Informationsdefizit aufzustellen, das wir vor unserer Messung haben und das in unserer statistischen Gesamtheit insgesamt steckt, also in allen Pn zusammen: Wir bilden einfach den Mittelwert des Informations-Neuigkeitswertes (Überraschungsgrades) bei einer genauen Bestimmung des Mikrozustandes:

  S   =   ∑n   Pn   I(Pn)   =   − C   ∑n   Pn   ( ln Pn )

Das macht Sinn: Wenn wir ein hohes Informationsdefizit haben, so hat jede Messung des Mikrozustandes im Mittel einen hohen Informations-Neuwert, und die Information, dass man gerade diesen oder jenen Mikrozustand angetroffen hat, ist im Durchschnitt kaum vorhersehbar, also sehr überraschend. Natürlich setzen wir C = k , so dass sich gerade unsere allgemeine Entropie von oben ergibt.

Schauen wir uns dieses Maß des Informationsdefizits genauer an. Hat es wirklich die gewünschten Eigenschaften? Betrachten wir dazu zunächst einen einzelnen Summanden   − Pn   ( ln Pn )   als Funktion der Wahrscheinlichkeit Pn :


Sowohl bei   Pn = 0   als auch bei   Pn = 1   ist der entsprechende Summand Null. Dazwischen ist die Kurve positiv und konkav, bildet also eine Rechtskurve. Daraus ergeben sich wichtige Eigenschaften von S :

Wenn beispielsweise feststeht, in welchem Mikrozustand sich unser System befindet, so haben wir die maximal mögliche Information überhaupt, denn wir kennen einen vollständigen Satz Quantenzahlen des Systems, beispielsweise die Impulse und Spins aller Teilchen. In diesem Fall ist nur ein einziges Pn gleich Eins und alle anderen Pn sind gleich Null. Also sind sämtliche Summanden gleich Null und somit ist auch   S = 0   . So sollte es sein, denn wir haben keinerlei Informationsdefizit!

Wenn dagegen im anderen Extremfall alle erreichbaren Mikrozustände gleich wahrscheinlich sind, also   Pn = P = 1/Ω   gilt, dann enthalten die Pn keine nützliche Information über die Mikrozustände mehr und unser Informationsdefizit sollte maximal sein. Genau diesen Fall hatten wir oben beim mikrokanonischen Ensemble. Tatsächlich werden wir weiter unten mit Hilfe der Lagrange-Multiplikator-Methode zeigen, dass   S   =   − k   ∑n   1/Ω   ln 1/Ω   =   k   ln Ω   der maximal mögliche Wert von S unter der einzigen Nebenbedingung   ∑n Pn = 1   ist (siehe auch beispielsweise M.Stingl: Statistische Mechanik, Kapitel 2.1 ). Man kann dieses Ergebnis sogar anschaulich verstehen: Starten wir dazu bei gleich großen   Pn = 1/Ω   und picken uns zwei beliebige Summanden heraus. Nun vergrößern wir das eine Pn ein wenig und verringern das andere Pn um denselben Betrag (die Summe aller Pn muss ja konstant gleich Eins sein). Der eine Summand wird dadurch größer, der andere kleiner, aber die Schrumpfung des einen Summanden ist immer größer als das Wachstum des anderen Summanden, denn die Kurve   − Pn   ( ln Pn )   ist konkav, wie das Bild oben zeigt. Geht man in dem Bild oben ein festes kleines Stück nach links bzw. rechts, so ist der Abfall bei dem einen Schritt immer größer als Zugewinn bei dem entgegengesetzten Schritt, d.h. die Summe der beiden Summanden schrumpft. Man kann sich daher vorstellen, dass die Summe insgesamt den größten Wert annimmt, wenn man die Gesamtwahrscheinlichkeit Eins möglichst gleichmäßig auf alle Einzelwahrscheinlichkeiten Pn aufteilt, d.h. S wird maximal, wenn alle Pn gleich sind (ihre Summe muss sowieso Eins sein). Weiter unten werden wir das noch explizit nachweisen.

Bei gleichen Wahrscheinlichkeiten für die Mikrozustände zeigt die Formel   S   =   k   ln Ω   noch eine weiter wichtige Eigenschaft: Das Informationsdefizit steigt, wenn die Zahl der erreichbaren Zustände Ω zunimmt, denn dann wird die Auswahl immer größer und unsere Unwissenheit immer gravierender. Wäre dagegen nur ein Zustand erreichbar, also Ω = 1 , so hätten wir wieder Gewissheit und unser Informationsdefizit wäre Null.

Es kommt noch eine weitere entscheidende Eigenschaft von S hinzu, die Additivitätseigenschaft. Sie erzwingt den Logarithmus-Term in den Summanden (die bisherigen Eigenschaften hätten auch durch andere konkave Summanden erfüllt werden können). Genauere Details dazu findet man beispielsweise in M.Stingl: Statistische Mechanik, Kapitel 2.1 . Wir wollen hier nur kurz nachrechnen, dass die Entropie Sg für ein System Ag, das aus zwei statistisch unabhängigen Systemen A und A' zusammengesetzt wird, gleich der Summe S + S' der beiden Einzelentropien dieser Systeme ist:
Die Mikrozustände des Gesamtsystems lassen sich zunächst als Produktzustände   |n n'ñ   der Mikrozustände von A und A' schreiben. Die Wahrscheinlichkeit Pnn' für diesen Mikrozustand ist dann gleich dem Produkt der Wahrscheinlichkeiten für den Zustand   |nñ   bzw.   |n'ñ   , also   Pnn' = Pn Pn'   , denn wir hatten vorausgesetzt, dass die beiden Systeme A und A' statistisch unabhängig sind. Für die Entropie gilt dann:

  Sg   =  
  =   − k   ∑n n'   Pnn'   ( ln Pnn' )   =  
  =   − k   ∑n n'   Pn Pn'   ln (Pn Pn')   =  
  =   − k   ∑n n'   Pn Pn'   ( ln Pn   +   ln Pn' )   =  
  =   − k   ∑n'   Pn'   ∑n   Pn ( ln Pn )   −   k   ∑n   Pn   ∑n'   Pn' ( ln Pn' )
  =   − k   ∑n   Pn ( ln Pn )   −   k   ∑n'   Pn' ( ln Pn' )
  =   S   +   S'

Hinter der Additivität der Entropie steckt also letztlich die Tatsache, dass wir sie als Mittelwert der additiven Größe   I(Pn) = − k ln Pn   definiert haben. Die Mittelwertbildung zerstört diese Additivität nicht!

Fassen wir zusammen:

Entropie als Maß für ein Informationsdefizit:

Wenn ein Mikrozustand   |nñ   mit der Wahrscheinlichkeit Pn in einem statistischen Ensemble auftritt, so ist

  I(Pn)   =   − C   ln Pn

ein additives Maß für den Neuigkeitswert (Überraschungsgrad) der Information, wenn man bei einer Messung tatsächlich diesen Mikrozustand vorfindet. Der Mittelwert

  S   =   ∑n   Pn   I(Pn)   =   − C   ∑n   Pn   ( ln Pn )

dieses Neuigkeitswertes einer Messung ist dann ein Maß für unser Informationsdefizit, das wir aufgrund der angegebenen Wahrscheinlichkeiten Pn zuvor über das System haben: Je größer dieses Informationsdefizit vor einer Messung ist, umso größer ist im Mittel der gewonnene Informationswert bei dieser Messung. Setzen wir C = k, so ist S die Entropie eines statistischen Ensembles. Je größer die Entropie ist, umso weniger Information ist in den Wahrscheinlichkeiten Pn des Ensembles enthalten.

Diese Sichtweise der Entropie stammt im Wesentlichen von Claude Elwood Shannon (1916 - 2001) und entstand etwa um das Jahr 1948 herum im Rahmen seiner Entwicklung der Informationstheorie. Dabei hatte sich Shannon allerdings nicht mit Mikrozuständen eines makroskopischen Systems beschäftigt, sondern mit der Übertragung von Information durch eine Zeichenkette. Die möglichen Zeichen (z.B. A, B, C, ... ) entsprechen dabei unseren Mikrozuständen, die Zeichenkette entspricht vielen nacheinander durchgeführten Messungen des Mikrozustandes, Pn ist die Wahrscheinlichkeit für das Auftreten des n-ten Zeichens (z.B. B) in langen Zeichenketten und I(Pn) ist der Neuigkeitswert für den Empfänger, wenn dieser das n-te Zeichen in der Zeichenkette findet (wobei ihm die Wahrscheinlichkeit für das Auftreten dieses Zeichens bekannt sein muss). Den Neuigkeitswert der gesamten Zeichenkette bestimmt man nun, indem man einfach den mittleren Neuigkeitswert der Zeichen in der Zeichenkette bestimmt. Die Reihenfolge der Zeichen in der Zeichenkette wird dabei nicht berücksichtigt, d.h. es geht alleine um den mittleren Überraschungsgrad einzelner Zeichen -- insofern haben wir es wieder mit einem eingeschränkten Informationsbegriff zu tun. Entsprechend spielte bei unseren obigen Überlegungen auch die Reihenfolge der Experimente keine Rolle, denn wir gehen davon aus, dass das System aufgrund der unkontrollierten Wechselwirkung mit seiner Umgebung sowieso kein gutes Gedächtnis hat: Die einzelnen Messungen hinterlassen keine Spuren im System, da solche Spuren durch die unkontrollierte Wechselwirkung mit der Umgebung schnell verwischt werden. Genauso ist es auch bei Shannon: Die Quelle (der Sender) der Zeichenkette wird als gedächtnislos angenommen (siehe beispielsweise Wikipedia: Entropie (Informationstheorie) ).

Machen wir uns einen wichtigen Punkt noch einmal klar: Die Entropie ist kein Maß für eine vorhandene Information, sondern für eine Information, die man im Mittel durch eine Messung des Mikrozustandes oder durch ein neu eintreffendes Zeichen noch hinzugewinnen kann -- man spricht auch von einem Maß für eine potentielle Information. In diesem Sinne ist Entropie ein Maß für eine beseitigbare Ungewissheit (also ein Informationsdefizit), die wir vor den Messungen bzw. dem Eintreffen der Zeichen haben. Sie misst die Informationsmenge, die notwendig ist, um durch Messungen oder Angabe von Zeichen die Ungewissheit zu beseitigen. Besonders deutlich wird dies bei gleichen Wahrscheinlichkeiten Pn = 1/Ω , denn dann ist die Entropie proportional zur Stellenanzahl der Zahl der Mikrozustände. Schreibt man Ω im Binärsystem auf und verwendet den Zweierlogarithmus, so ist die Entropie proportional zur Bitanzahl von Ω . Genau so viele Bits an Information braucht man in diesem Fall maximaler Unwissenheit, um festzulegen, in welchem Mikrozustand sich das System befindet und damit die Ungewissheit über den Mikrozustand zu beseitigen.

In Peter Hägele: Was hat Entropie mit Information zu tun? habe ich folgende schöne Formulierung gefunden, die wohl von C.F.v.Weizsäcker stammt:

  • Die Entropie misst, wie viel derjenige, der den Makrozustand kennt, noch wissen könnte, wenn er auch den Mikrozustand kennen lernte.

Entropie gibt also das Informationsdefizit an, das man eingeht, wenn man das System nur durch seinen Makrozustand beschreibt, anstatt die vollständige Information des Mikrozustandes anzugeben. Bei makroskopischen Systemen prägt sich allerdings der Informationsgewinn einer Mikrozustands-Messung nicht im System ein, anders als bei isolierten mikroskopischen Systemen, bei denen sich ein Quantenzustand präparieren lässt. Die gemessene Information verschwindet unkontrolliert in der Umgebung des Systems (Stichwort Dekohärenz) und bereits kurz nach der Messung wissen wir über das makroskopische System wieder sowenig wie zuvor. Daher bleibt uns gar nichts anderes übrig, als auf die Angabe eines Mikrozustandes zu verzichten und uns mit der Beschreibung durch einen Makrozustand zufrieden zu geben. Die Entropie sagt uns dabei, wie groß unser Informationsdefizit ist.

Vorsichtig muss man bei der Vorstellung sein, Entropie sei ein Maß für eine vorhandene Information. Hier muss man genauer sagen: Entropie ist ein Mass für die in einem Mikrozustand im Prinzip vorhandene Information, die uns bei einer viel informationsärmeren Beschreibung durch einen Makrozustand (ein statistisches Ensemble) aber fehlt.

Das Anwachsen der Entropie mit der Zeit bedeutet, dass unsere Beschreibung des Systems durch einen Makrozustand mit großer Wahrscheinlichkeit immer informationsärmer wird. Information geht durch die Wechselwirkung mit der Umgebung verloren, bis nur noch sehr wenige Informationen sicher sind, beispielsweise die mittlere Energie. Hat man zu Beginn möglicherweise noch eine räumliche Energieverteilung, so hat man im Gleichgewicht nur noch eine überall gleiche mittlere Energiedichte pro Teilchen.


Alternativer Zugang zu Shannons Entropie:

Es gibt noch eine anderen interessanten Zugang zur Entropie als Maß für ein Informationsdefizit, der eng mit unseren obigen Überlegungen zusammenhängt (siehe beispielsweise http://theory.gsi.de/~vanhees/faq/qm/node43.html ). Dazu schauen wir uns eine extrem lange Reihe von Messungen des Mikrozustandes bei unserem statistischen Ensemble an. Diese Messreihe enthält sehr viele detaillierte Informationen. So sagt sie beispielsweise, dass in Messung Nummer 74357845168265233197... der Mikrozustand Nummer 64534527373278128192390...... gemessen wurde. Mit sehr großer Wahrscheinlichkeit haben wir es außerdem mit einer typischen Messreihe zu tun, d.h. aus den Häufigkeiten der Messwerte können wir mit hoher Genauigkeit die Wahrscheinlichkeiten Pn für das Auftreten des n-ten Mikrozustandes im statistischen Ensemble ablesen. Nur solche typischen Messreihen wollen wir hier betrachten, d.h. die extrem seltenen untypischen Messreihen ignorieren wir einfach.

Die Frage ist nun: Wieviel Information verlieren wir, wenn uns die Reihenfolge der Messwerte in einer typischen Messreihe überhaupt nicht mehr interessiert? Wir werfen also alle Informationen über die Reihenfolge der Messwerte weg und behalten nur die Information darüber, wie häufig sie auftreten, d.h. wir behalten nur noch die Information über die Wahrscheinlichkeiten Pn . Das ist genau der Übergang zu unserem statistischen Ensemble.

Es geht also darum, abzuzählen, wieviele Sortierungsmöglichkeiten der Messergebnisse bei einer typischen Messreihe möglich sind, ohne dass man ihre Häufigkeit ändert. Bei m Messungen sind das   m!   =   m (m − 1) (m − 2) ... 1   Sortierungsmöglichkeiten. Dabei hat man allerdings auch das Umsortieren identischer Messergebnisse mitgezählt, was man noch korrigieren muss. Tritt beispielsweise der Mikrozustand n bei mn Messungen auf, so hat man es mit   mn!   Sortierungsmöglichkeiten zu tun, die nur identische Messergebnisse austauschen und die daher nicht unterschieden werden können. Insgesamt gibt es also

  m! / (m1! m2! ... mΩ!)

verschiedene Sortierungsmöglichkeiten der Messergebnisse, wobei Ω die Gesamtzahl der erreichbaren Mikrozustände ist. Wir wollen den Grenzfall extrem vieler Messungen betrachten, d.h. m und alle mn sollen sehr große Zahlen sein -- die Zahl der Messungen muss also weit größer als die Zahl der Mikrozustände sein, was zugegebenermaßen etwas theoretisch ist. Für große Zahlen (etwa ab 1000) kann man den Logarithmus der Fakultät gut durch die Stirlingsche Formel abschätzen:

  ln (m!)   =   m ln m   −   m

Für den Logarithmus der Anzahl Sortierungsmöglichkeiten der Messergebnisse haben wir dann bei sehr vielen Messungen und einer typischen Messreihe (wobei wir   ∑n mn = m   sowie     mn/m = Pn   verwenden):

  ln { m! / (m1! m2! ... mΩ!) }   =  
  =   ln (m!)   −   ∑n ln (mn!)   =  
  =   m ln m   −   m   −   ∑n (mn ln mn −   mn)   =  
  =   m ln m   −   ∑n mn ln mn   =  
  =   ∑n mn (ln m   −   ln mn)   =  
  =   m   ∑n   mn/m   ln (m/mn)   =  
  =   − m   ∑n   Pn  ( ln Pn )   =  
  =   m S/k

Dabei haben wir unsere Entropiedefinition   S   =   − k   ∑n   Pn  ( ln Pn )   verwendet. Halten wir also fest:

Entropie als Maß für die Unkenntnis der genauen Reihenfolge von Messergebnissen in einer typischen Messreihe:

Wir betrachten ein statistisches Ensemble mit Wahrscheinlichkeiten Pn für die Mikrozustände. Nun bestimmen wir m-mal den Mikrozustand, wobei m eine sehr große Zahl ist. Mit sehr großer Wahrscheinlichkeit haben wir dann eine typische Messreihe vor uns, d.h. die Häufigkeiten für die Messwerte entsprechen den gegebenen Wahrscheinlichkeiten. Für eine solche typische Messreihe gilt: Die Anzahl Messreihen, die dieselben typischen Häufigkeiten aufweisen, ist von der Größenordnung

  em S/k

mit der Entropie

  S   =   − k   ∑n   Pn  ( ln Pn )  

Der Ausdruck ist von der Größenordnung bedeutet dabei, dass der Logarithmus der betrachteten Messreihenanzahl bei sehr langen Messreihen in sehr guter Näherung durch   m S/k   gegeben ist. Wir können also die Stellenzahl der Messreihenanzahl sehr genau aus der Entropie berechnen, nicht aber den genauen Wert der Zahl selbst.

Mit sehr guter Genauigkeit gilt aber die folgende Aussage für lange typische Messreihen: Mit jeder neuen Messung wächst die Zahl der typischen Messreihen mit vorgegebenen typischen Häufigkeiten im Mittel um den Faktor   eS/k   an.

Etwas ungünstig ist dabei noch die Voraussetzung, dass man die Häufigkeiten fest vorgeben muss, also nur Messreihen mit exakt denselben typischen Häufigkeiten betrachtet. Was ist mit anderen typischen Messreihen, die ähnliche Häufigkeiten für die Messwerte aufweisen und für die ebenfalls in guter Näherung   mn/m = Pn   gilt? Nimmt man alle diese Messreihen mit solchen typischen Häufigkeiten für die Messwerte hinzu, so vergrößert sich die Anzahl der Messreihen zunächst natürlich beträchtlich. Aber: Die Stellenzahl dieser Anzahl (also der Logarithmus) verändert sich dabei nur wenig. Das liegt daran, dass die Stellenzahl sehr groß ist, so dass einige Stellen mehr oder weniger nicht auffallen. Es ist ganz ähnlich zu unserer Diskussion des Energieintervalls δE beim mikrokanonischen Ensemble im vorherigen Kapitel: Auch dort verändert sich die Zustandsanzahl Ω natürlich proportional zu δE , aber der Logarithmus und damit die Entropie merkt davon fast nichts, solange δE sich nur in einem bestimmten Rahmen ändert. In unserem Fall wird die Rolle von E nun von den Häufigkeiten mn übernommen. Diese sollen typisch bleiben, müssen also für große m ungefähr durch   mn/m = Pn   gegeben sein. Aus der Statistik wissen wir, dass Abweichungen der Häufigkeiten meist nicht größer als deren Wurzel sind. Statt einer Messreihe mit festem   mn   könnten wir also   √mn   - viele Messreihen mit typischem   mn   betrachten. Wenn wir also die typischen Häufigkeiten mn nicht fest vorgeben wollen, sondern alle typischen Häufigkeiten zulassen wollen, so müssen wir unsere oben berechnete Anzahl mit dem Faktor   √(m1 m2 ... mΩ)   multiplizieren. Für den Logarithmus ergibt das den Zusatzterm   1/2 ∑n ln mn   , der gegenüber Termen wie   m ln m   oder   mn ln mn   vollkommen vernachlässigbar ist (m und die mn sind ja sehr große Zahlen, denn wir betrachten entsprechend lange Messreihen). Wir können also in den Formulierungen oben einfach von der Anzahl typischer Messreihen sprechen, wobei typische Messreihen dadurch definiert sind, dass die relativen Häufigkeiten recht genau durch die Wahrscheinlichkeiten des statistischen Ensembles gegeben sind. Statistisch ist fast jede beim gegebenen Ensemble gemessene Messreihe eine solche typische Messreihe.

In diesem Sinn kann man S als Maß für das Informationsdefizit des statistischen Ensembles ansehen: Je größer S ist, umso weniger weiß man im Voraus über die Details einer auftretenden typischen Messreihe, denn umso mehr typische Messreihen gibt es mit jeder neuen Messung, und umso mehr neue Information gewinnt man also im Mittel bei einer neuen Messung. Diese Aussage gibt der Entropie als Maß für das Informationsdefizit eine ganz konkrete statistische Bedeutung. Schauen wir uns zur Verdeutlichung die beiden Extremfälle an:

Im Extremfall des mikrokanonischen Ensembles ist   Pn = 1/Ω   und damit   eS/k = Ω   , d.h. mit jeder Messung nimmt die Zahl der typischen Messreihen um den Faktor Ω zu. Das ist die maximal mögliche Zunahme, denn hier ist fast jede im Prinzip mögliche Messreihe zugleich eine typische Messreihe: In der Menge aller prinzipiell möglichen Messreihen treten bei den allermeisten dieser Messreihen alle Mikrozustände mit annähernd gleicher Häufigkeit auf, sobald die Messreihe lang genug wird. Wenn aber praktisch alle Messreihen auch typisch sind, dann enthält das statistische Ensemble nur eine minimale Information, denn man kann keine deutlich kleinere Untergruppe der Messreihen als typisch kennzeichnen.

Im anderen Extremfall, bei dem sich das System in einem festen Mikrozustand befindet, ist   S = 0   und   eS/k = 1   . Die Zahl der typischen Messreihen wächst also nicht bei weiteren Messungen, denn es gibt nur eine einzige typische Messreihe: Diejenige, bei der das System ständig im selben Mikrozustand vorgefunden wird.


Anmerkung:

Die obigen Formeln kann man auch gut dazu verwenden, um die Entropie eines mikrokanonischen Ensembles direkt durch die mittleren Besetzungszahlen der Einteilchenniveaus auszudrücken (siehe beispielsweise STATISTISCHE DEFINITION DER ENTROPIE ). Das ergibt beispielsweise einen alternativen Zugang zu den idealen Quantengasen aus dem vorherigen Kapitel. Dazu muss man in den obigen Formeln nur die folgenden Ersetzungen machen:

Übrigens kann man hier bei Ω auch von den typischerweise erreichbaren Mikrozuständen sprechen, analog zu den typischerweise auftretenden Messreihen. Das sind demnach die Mikrozustände, bei denen die Besetzungszahlen gut den vorgegebenen Wahrscheinlichkeiten entsprechen. Für die Entropie des mikrokanonischen Ensembles aus N Teilchen ergibt die obige Rechnung dann:

  S   =   k ln Ω   =  
  =   − k N   ∑p   n(p,σ)/N   ln (n(p,σ)/N)   =  
  =   − k N   ∑p   P(p,σ)   ( ln P(p,σ) )   =  
  =:   N   STeilchen

Dabei ist

  STeilchen   :=   − k   ∑p   P(p,σ)   ( ln P(p,σ) )

die Entropie für ein einzelnes Teilchen, das sich mit der Wahrscheinlichkeit   P(p,σ)   im Einteilchenzustand   |pñ   befindet. Wir sehen: Wenn wir die Additivität der Entropie für statistisch unabhängige Teilsysteme (Teilchen) sicherstellen wollen, so ergibt sich automatisch wieder Shannons Entropieformel (diesmal für die Teilsysteme, also die einzelnen Teilchen). Die Gesamtentropie   S   =   k ln Ω   des mikrokanonischen Gesamtensembles wird dann maximal, wenn Shannons Entropie für die einzelnen Teilchen maximal wird. Die Wahrscheinlichkeiten werden dabei meist durch irgendwelche Nebenbedingungen vorgegeben, beispielsweise durch einen vorgegebenen Energiemittelwert -- wir kommen gleich darauf zurück.

Übrigens: Die obige Formel   S   =   N   STeilchen   passt recht gut zu unserer Formel   S   =   k ln Ω(E)   =   N k ln φ(ε)   aus dem vorherigen Kapitel , mit der wir   ln Ω(E)   grob abgeschätzt haben. Dabei war φ(ε) die Zahl der Einteilchenzustände bis zur Einteilchenenergie ε = E/N , d.h.   k ln φ(ε)   können wir grob als Einteilchen-Entropie ansehen. Unsere damalige Abschätzung wird damit recht gut bestätigt.


Bestimmung des statistischen Ensembles im Gleichgewicht:

Anmerkung: Dieser Abschnitt orientiert sich u.a. an M.Stingl: Statistische Mechanik, Kapitel 3.

Wir haben nun alle Mittel in der Hand, um unter sehr allgemeinen Voraussetzungen die entsprechenden statistischen Ensembles für ein System im thermischen Gleichgewicht zu bestimmen. Dabei lassen wir uns vom Grundsatz geringster Voreingenommenheit leiten: Im thermischen Gleichgewicht soll das statistische Ensemble nur die Informationen beinhalten, die wir über das System haben oder die wir vorgeben und die gegen Einflüsse von außen stabil sind. Alle anderen Informationen werden im thermischen Gleichgewicht durch die Wechselwirkung mit der Umgebung verwischt. Unser statistisches Ensemble soll also so informationsarm wie nur möglich sein. Mittlerweile wissen wir, dass demnach die Entropie so groß wie nur möglich sein muss, denn die Entropie misst gerade dieses Informationsdefizit. Wir suchen also das Maximum für die Entropie, um den thermodynamischen Gleichgewichtszustand zu finden, wobei bestimmte Nebenbedingungen sicherstellen, dass vorhandene stabile Informationen verfügbar bleiben.

Natürlich müssen die vorhandenen Informationen dabei sicherstellen, dass die Entropiesumme   S   =   − k   ∑n   Pn ( ln Pn )   auch konvergiert und ein passendes Maximum einnimmt. Es macht also keinen Sinn, eine unendliche Energiequelle zur Verfügung zu stellen und das Maximum der Entropie für beliebig große Energie zu suchen.

Schauen wir uns den typischen Fall eines makroskopisch isolierten Systems an, bei dem sich N identische Teilchen in einem Volumen V befinden und die Gesamtenergie auf ein kleines Intervall zwischen E und E + δE eingeschränkt ist. Das sind unsere kompletten vorhandenen Informationen. In diesem Fall legen N und V die Mikrozustände fest und das Energieintervall sorgt dafür, dass nur endlich viele Zustände erreichbar sind. Die Entropiesumme hat dann nur endlich viele Summanden, konvergiert also immer. Gesucht sind für das thermische Gleichgewicht nun diejenigen Werte für Pn , für die die Entropie maximal wird. Dabei muss die Nebenbedingung eingehalten werden, dass die Summe aller Pn über die erreichbaren Zustände gleich Eins ist. Diese Summe können wir auch als Mittelwert des Eins-Operators auffassen. Das Ergebnis wird das mikrokanonische Ensemble sein, aber das werden wir unten noch nachrechnen.

Wir haben im vorherigen Kapitel weitere Situationen kennengelernt: Hier werden E, V und N nicht mehr alle scharf vorgegeben wie bei einem streng isolierten System, sondern man lässt Fluktuationen in einer oder mehrerer dieser Größen zu und fixiert nur den entsprechenden Mittelwert durch Kontakt mit einem Wärmebad. Makroskopisch ergeben sich so dieselben Eigenschaften wie bei fest vorgegebenen Werten, da die Fluktuationen im Mittel sehr klein sind, aber das statistische Ensemble, das diese Situation beschreibt, ist ein anderes.

Wir wollen uns hier diese Situationen ganz allgemein anschauen: Die fest vorgegebenen Informationen legen dabei zunächst die erreichbaren Mikrozustände fest. Hinzu kommen ein oder mehrere vorgegebene Mittelwerte -- im einfachsten Fall der Mittelwert des Einsoperators, um die Summe der Pn auf Eins zu setzen. Das statistische Ensemble mit dem größten Informationsdefizit ist nun dasjenige, bei dem die Entropie maximal wird, wobei die vorgegebenen Mittelwerte als Nebenbedingungen wirken.

Die Mittelwerte sollen zeitlich konstant sein, denn wir wollen mit ihnen ja vorliegende stabile Informationen über einen Gleichgewichtszustand beschreiben. Diese Mittelwerte gehören also zu quantenmechanischen Observablen Ai, die mit dem Hamiltonoperator des Systems vertauschen. Die Mikrozustände können wir dann zugleich als Eigenvektoren des Hamiltonoperators und dieser Mittelwert-Observablen wählen. Der statistische Charakter dieser Observablen entsteht dann alleine durch die Wahrscheinlichkeiten Pn des Ensembles und nicht durch die quantenmechanische Unschärferelation.

Insgesamt ergibt sich damit die folgende Maximierungsaufgabe mit Nebenbedingungen:

Bestimmung des statistischen Ensembles im Gleichgewicht:

Wähle bei gegebenen Mikrozuständen   |nñ   deren Wahrscheinlichkeiten Pn im statistischen Ensemble so, dass die Entropie

  S   =   − k   ∑n   Pn ( ln Pn )

maximal wird, wobei die folgenden I+1 Nebenbedingungen gelten:

  ai   =   áAiñ   =   ∑n   Pn (ai)n

Dabei sind   ai   =   áAiñ   die I+1 Mittelwerte, die vorgegeben sind (beispielsweise durch ein äußeres Wärmebad) und   (ai)n   ist der Eigenwert der Observablen Ai bei dem n-ten Mikrozustand. Die Normierungsbedingung für die Wahrscheinlichkeiten berücksichtigen wir durch die nullte Nebenbedingung, indem wir   a0 = 1   und   (a0)n = 1   setzen.

Man kann die Nebenbedingungen über die bekannte Methode der Lagrange-Multiplikatoren berücksichtigen, indem man statt der Funktion S die neue Funktion

  S   −   ∑i   λi áAiñ

in den Pi maximiert und anschließend die neu eingeführten reellen Parameter (Lagrange-Multiplikatoren)   λi   so anpasst, dass die Nebenbedingungen erfüllt sind. Warum das funktioniert, wird sehr schön in Wikipedia: Lagrange-Multiplikator erklärt. Hier ist meine Version davon:

Im Ω-dimensionalen Raum der   Pn   können wir verallgemeinerte Höhenlinien von   S   und den einzelnen   áAiñ   einzeichnen. Diese verallgemeinerten Höhenlinien haben eine Dimension weniger als der Raum der Pn , sind also keine eigentlichen Linien, sondern (Ω − 1) -dimensionale Unterräume. Es gibt demnach in jedem Punkt der Höhenlinie genau eine Richtung, die senkrecht auf diesen Höhenlinien steht. Man spricht auch von dem Normalenvektor der Höhenlinie. Dieser Normalenvektor ist gleich dem Gradienten der Funktion, die auf der Höhenlinie konstant ist.

Um die Nebenbedingungen einzuhalten, müssen wir nun auf bestimmten Höhenlinien der   áAiñ   entlangwandern, nämlich auf denen mit   ai = áAiñ   . Genau genommen wandern wir auf der Schnittlinie aller   áAiñ -Höhenlinien entlang, denn wir müssen ja alle Nebenbedingungen zugleich einhalten. Diese Schnittlinie hat bei I+1 Nebenbedingungen auch I+1 weniger Dimensionen als der Pn-Raum, in dem sie liegt. Die Richtungen senkrecht zu dieser Schnittline lassen sich als Linearkombination der I+1 Gradientenvektoren (Normalenvektoren) zu den   áAiñ   schreiben.

Bei dem Entlangwandern entlang der Schnittlinie überschreiten wir nun Höhenlinien von S, d.h. S schrumpft oder wächst. Ein Maximum (oder Minimum oder Sattelpunkt) von S auf der Schnittline erreichen wir dann, wenn der S-Gradientenvektor genau senkrecht zu unserer Schnittline zeigt. Unser Weg verläuft an dieser Stelle auf einem Abhang von S, ohne dass wir auf- oder absteigen. Nach oben oder unten (also in Richtung des Gradienten von S) geht es nur senkrecht zu unserer Schnittlinie, und diese Richtungen können wir ja als Linearkombination der I+1 Gradientenvektoren (Normalenvektoren) unserer   áAiñ   -Funktionen schreiben:

  dS/dPn   =   ∑i   λi   dáAiñ/dPn



Diese Gleichung gilt für alle Werte von n, also für alle Komponenten des Gradientenvektors, und wir erhalten sie, indem wir das Maximum der obigen Funktion   S   −   ∑i   λi áAiñ   suchen, also deren Gradient gleich Null setzen:

  d/dPn   { S   −   ∑i   λi áAiñ }   =   0

Die Lösungswerte Pn dieser Gleichung hängen von den Lagrange-Multiplikatoren   λi   ab. Deren genauen Werte sind dann durch die Nebenbedingungen   ai   =   áAiñ   festgelegt.

Setzen wir die genaue Form der Funktionen S und áAiñ ein und rechnen wir die obige Gleichung aus:

  d/dPn   { − k   ∑n'   Pn' ( ln Pn' )   −   ∑i   λi   ∑n'   Pn' (ai)n' }   =   0
  k ln Pn   +   k Pn 1/Pn   +   ∑i   λi   (ai)n   =   0
  ln Pn   =     − ( 1   +   ∑i   λi/k   (ai)n )
  Pn   =   exp { − ( 1   +   ∑i   λi/k   (ai)n ) }

Es macht Sinn, die Nullte Nebenbedingung explizit auszuwerten, denn sie gilt universell. Wir nehmen also den Summanden für   i = 0   aus der Summe heraus und schreiben ihn aus, wobei wir   (a0)n = 1   verwenden:

  Pn   =   exp { − ( 1   +   λ0/k   +   ∑i=1I   λi/k   (ai)n ) }

Um an die übliche Schreibweise anzuknüpfen, setzen wir   exp {− ( 1   +   λ0/k}   =:   1/Z   und nennen Z die generalisierte Zustandssumme. Sie ist durch die Nullte Nebenbedingung bestimmt, also durch die Bedingung, dass die Summe aller Pn gleich Eins sein muss. Damit haben wir:

Das allgemein-kanonische Ensemble:

Bei vorgegebenen konstanten Mittelwerten maximiert das folgende allgemein-kanonische Ensemble die Entropie:

  Pn   =   1/Z   exp { − ∑i=1I   λi/k   (ai)n }

Dabei ist die generalisierte Zustandssumme Z so zu wählen, dass   ∑n Pn = 1   gilt:

  Z   =   ∑n   exp { − ∑i=1I   λi/k   (ai)n }

Die λi sind so zu wählen, dass die I Nebenbedingungen (vorgegebenen Mittelwerte) erfüllt sind:   ai   =   áAiñ   =   ∑n   Pn (ai)n   für i = 1 bis I.

Natürlich müssten wir noch nachweisen, dass die Entropie für dieses Ensemble tatsächlich maximal wird (und nicht minimal). Wir wollen das hier überspringen. Rechnen wir aber zumindest noch die Entropie aus:

  S   =  
  =   − k   ∑n   Pn ( ln Pn )   =  
  =   − k   ∑n   Pn   [ ln 1/Z   −   ∑i=1I   λi/k   (ai)n ]   =  
  =   k ln Z   +   ∑i=1I   λi   ∑n   Pn   (ai)n ]   =  
  =   k ln Z   +   ∑i=1I   λi áAiñ

Vergleichen wir dies mit der zu maximierenden Funktion   S   −   ∑i   λi áAiñ   von oben, so sehen wir, dass diese zu maximierende Funktion gleich   k ln Z   ist (zumindest wenn wir die nullte Bedingung schon einbauen, also Z bereits die obige Form hat). Außerdem sehen wir, dass sich die λi als partielle Ableitungen der Entropie nach den vorgegebenen Mittelwerten schreiben lassen (eigentlich müsste man hier etwas sorgfältiger sein, aber sei's drum...):

  dS/dáAiñ   =   λi

Man kann das Thema noch sehr viel weiter in der allgemeinen Form verfolgen, was hier aber zu weit führen würde (mehr dazu siehe M.Stingl: Statistische Mechanik, Kapitel 3 ). Interessant wäre auch beispielsweise, wie sich das Volumen in diese Beschreibung einfügt -- ist doch das Volumen ein äußerer Parameter im Hamiltonoperator und keine quantenmechanische Observable. Aber auch das würde hier zu weit führen. Schauen wir uns nur noch die drei Spezialfälle an, die zum mikrokanonischen, kanonischen und großkanonischen Ensemble führen:


mikrokanonisches Ensemble:

Hier gibt es neben der Wahrscheinlichkeitsnormierung keinen weiteren vorgegebenen Mittelwert, d.h. I = 0 und alle λi sind Null. Man gibt den Hilbertraum der erreichbaren Mikrozustände komplett vor, indem man E (mit Intervall δE), V und N festlegt. Dieser Hilbertraum umfasst dann nur endlich viele Zustände. Setzen wir   λi = 0   in den Formeln oben ein, so erhalten wir die bekannten Formeln

  Pn   =   1/Z   exp { − ∑i=1I   λi/k   (ai)n }   =   1/Z   =:   1/Ω

Dabei ist   Z   =   ∑n   exp { − ∑i=1I   λi/k   (ai)n }   =   ∑n   1   =:   Ω   die Anzahl der erreichbaren Mikrozustände.


kanonisches Ensemble:

Nun wird E nicht mehr mit kleinem Intervall vorgegeben, sondern der Mittelwert von E wird durch Kontakt mit einem Wärmebad fixiert. Hier ist also   I = 1 ,   A1 = H ,   (a1)n = En   und wir setzen   λ1 = 1/T   . Das ergibt

  Pn   =   1/Z   exp { − ∑i=1I   λi/k   (ai)n }   =   1/Z   exp { − En/(kT) }

Der Lagrange-Parameter 1/T bestimmt dabei den Energie-Mittelwert. Natürlich ist T unsere Temperatur, wie ein Vergleich mit den Formeln aus dem vorherigen Kapitel zeigt.


großkanonisches Ensemble:

Zusätzlich zu E wird nun auch die Teilchenanzahl N nicht mehr fest vorgegeben, sondern nur noch ihr Mittelwert durch ein Wärme-Teilchen-Reservoir fixiert. Hier ist also   I = 2   und zusätzlich zum kanonischen Ensemble noch   (a2)n = Nn   . Wir setzen   λ2 =: − μ/T   sowie   Z =: ZG   und erhalten

  Pn   =   1/Z   exp { − ∑i=1I   λi/k   (ai)n }   =   1/ZG   exp { − En/(kT)   +   μNn/(kT) }

Hier bezeichnet man ZG auch als großkanonische Zustandssumme. Der zweite Lagrange-Parameter μ (das chemische Potential) legt dabei den Mittelwert der Teilchenzahl fest.


Das soll an Beispielen genügen. Es ist interessant, die obige Herleitung dieser Ensembles mit der entsprechenden klassischen Herleitung aus dem vorherigen Kapitel zu vergleichen: Dort hatten wir unser System und das Wärmebad noch zu einem großen Gesamtsystem zusammenfassen müssen, das dann durch ein mikrokanonische Ensemble beschrieben wurde. Das hatte den Vorteil, dass wir mit einer sehr anschaulichen Definition für die Entropie des Wärmebades starten konnten, nämlich mit   S = k ln Ω   . Man versteht anschaulich hier schnell, dass S im Gleichgewicht maximal wird, denn der Makrozustand mit den meisten Mikrozuständen wird im Mittel gewinnen. Allerdings benötigt man die Idee eines makroskopisch abgeschlossenen Systems, denn nur so lässt sich diese anschauliche Entropiedefinition verwenden. Die Idee von Fluktuationen muss man dann ein wenig künstlich über ein Energieintervall δE einbauen, damit man auch genügend Mikrozustände erwischt.

Die Vorgehensweise im aktuellen Kapitel benötigt dagegen die Idee eines makroskopisch abgeschlossenen Systems nicht, sondern kann direkt Systeme beschreiben, bei denen realistische Fluktuationen erlaubt sind. Der Preis dafür besteht darin, dass die anschauliche Entropiedefinition   S = k ln Ω   nicht mehr ausreicht, sondern verallgemeinert werden muss. Dazu sind einige Zusatzüberlegungen nötig, die man bei der klassischen Vorgehensweise nicht braucht. So muss man die Entropie S als ein Maß für das Informationsdefizit des Makrozustandes begreifen und dann nach dem Grundsatz minimaler Voreingenommenheit ein Maximum dieses Defizits im Gleichgewicht postulieren. Außerdem muss man sich über die physikalische Natur der Lagrange-Parameter erst noch klar werden. Es ist zwar unmittelbar klar, dass die Lagrange-Parameter die Mittelwerte der fluktuierenden Größen festlegen, aber wie das durch Kontakt mit einem Wärmebad geschieht, muss man sich noch überlegen.

Beide Vorgehensweisen haben also ihre Vor- und Nachteile. Für den Anfang eignet sich vermutlich die anschaulichere Vorgehensweise aus dem vorherigen Kapitel besser. Wenn man dann später die Hintergründe genauer verstehen will, dann rundet die abstraktere und allgemeinere Vorgehensweise im aktuellen Kapitel das Bild erst richtig ab. Aus streng theoretischer Sicht ist sie vermutlich sogar zu bevorzugen, und Stingl geht ja auch konsequent so vor. Es besteht aber die Gefahr, dass man den Leser, der sich erst einarbeiten will, überfordert, wenn man ihm nur die abstraktere Vorgehensweise zeigt.

Mit diesem und dem vorherigen Kapitel haben wir uns ein recht umfassendes Bild von der Entropie machen können. Im einfachsten Fall war Entropie dabei proportional zur Stellenzahl der Anzahl Mikrozustände, die ein Makrozustand umfasst. Statt Mikro- und Makrozustand könnte man auch Mikro- und Makro-Beschreibung sagen. Ein Mikrozustand umfasst dabei sehr detaillierte Informationen über das System, ein Makrozustand dagegen zumeist nur wenige grobe Informationen. Diese Idee konnten wir im aktuellen Kapitel konkretisieren und Entropie allgemein als ein additives Maß für unsere Unwissenheit über den Mikrozustand des Systems verstehen, wenn wir nur den Makrozustand haben.


Bemerkungen zu Maxwells Dämon:

Eigentlich hatte ich gedacht, dass es uns mit unserem detaillierten Wissen über Entropie und Information nun möglich sein sollte, Maxwells Dämon und ähnliche Dämonen zu verstehen. Ein solcher Dämon ist in der Lage, den Mikrozustand des Systems zu messen und dieses System dann so zu manipulieren, dass seine Entropie sinkt bzw. dass man aus Wärme Arbeit gewinnen kann (Perpetuum Mobile). So kann er beispielsweise an einem kleinen Loch in der Trennwand zweier Gasbehälter sitzen und dieses Loch gezielt öffnen und schließen, so dass er nur schnelle Gasteilchen nach rechts und nur langsame Gasteilchen nach links durchlässt. Dadurch erzeugt er ein Temperaturgefälle zwischen den beiden Gasbehältern und eine entsprechende Entropieabnahme im Gesamtsystem der beiden Behälter, im Widerspruch zum zweiten Hauptsatz der Thermodynamik.


Maxwells Dämon öffnen und schließt die Zwischentür hier so,
dass er nur schnelle Gasteilchen nach rechts und nur langsame Gasteilchen nach links durchlässt.


Leider musste ich feststellen, dass eine wirklich befriedigende Antwort auf dieses Problem nicht einfach zu haben ist. Seitdem James Clerk Maxwell im Jahr 1871 das Problem aufgeworfen hatte, dachte man immer wieder, man hätte eine solche Antwort gefunden, und immer wieder stellten sich Lücken in der Argumentation heraus. Zunächst einmal ist klar, dass man den Dämon als Teil des Systems beschreiben muss. Falls man es mit einem einfachen mechanischen Dämon zu tun hat (beispielsweise mit Feynmans Ratsche), so besteht die Lösung oft darin, dass die Mikro-Mechanik auch statistische Wärmebewegungen ausführt und deshalb ihren Zweck gar nicht erfüllt, die Entropie also nicht verringert.

Schwieriger ist es bei intelligenten Dämonen, die Mikro-Messungen durchführen und dann entsprechend reagieren. Hier dachte man erst, dass es die Messung sei, die eine Entropieerhöhung bewirkt und damit den zweiten Hauptsatz rettet (Leó Szilárd 1929). Es zeigte sich jedoch, dass man im Prinzip auch Messungen machen kann, die die Entropie nicht erhöhen, da sie Information nur kopieren (Charles Bennet 1982). Die Lösung scheint wohl darin zu liegen, dass man den Dämon als Computer verstehen muss, der Informationen verarbeitet und speichert. Führt er dabei irreversible Rechenschritte durch (insbesondere das Zurücksetzen des Speichers), so hat dies Einfluss auf die Entropie des Gesamtsystems, zu dem er mit dazu gehört (Rolf Landauer 1961, Charles Bennett 1982). Dabei muss man allerdings über physikalische Implementierungen des Dämon-Computers nachdenken und so logische mit physikalischer Irreversibilität verbinden. Eine detaillierte Analyse dazu findet man beispielsweise in Short et al.: The Connection between Logical and Thermodynamical Irreversibility, July 2005.

Man kann das Thema auch mit Hilfe von Methoden der algorithmischen Informationstheorie angehen (siehe Die Grenzen der Berechenbarkeit, Kapitel 3.3 ). Genaueres dazu findet man beispielsweise in Tobias Marriage, Prof. Groth: Computing Entropy: Understanding Maxwell's Demon, 1998. Auf Seite 12 findet man dort den interessanten Satz:

Geht man also in die Details, so taucht sogar Gödels Unvollständigkeitssatz auf (incompleteness of the demon's formal system) und verhindert, dass der Dämon allmächtig ist und mit jedem statistischen Ensemble optimal-effizient klarkommt. Insgesamt entsteht der Eindruck, dass man zwar bereits große Fortschritte erzielt hat, um Maxwells Dämon zu verstehen, dass das Thema aber auch heute noch intensiv diskutiert wird und selbst mehr als 130 Jahre Jahre nach seiner Formulierung durch Maxwell noch immer Gegenstand der Forschung ist. Es würde jedoch zu weit führen, das hier genauer auszuführen.

Im nächsten Kapitel wollen wir uns mit einem sehr interessanten Thema befassen, das im Niemandsland zwischen Quantenmechanik, allgemeiner Relativitästtheorie (Gravitation) und statistischer Physik liegt: die Entropie schwarzer Löcher. Das ist schon deshalb interessant, weil man für die Entropie schwarzer Löcher eigentlich eine Quantentheorie der Gravitation benötigt, um die Mikrozustände des schwarzen Loches angeben zu können. Eine solche Theorie gibt es bis heute nicht! Ich bin gespannt, was man dennoch heute bereits darüber weiß.


Literatur:


zurück zum Inhaltsverzeichnis

last modified on 02 January 2009