8. Die Information (die Lehrstoff- "Masse") als Maß (auch) der Lernschwierigkeit (der Lehrstoff- "Schwere").

8.1 Eine Analogiebetrachtung

Das umgangssprachliche Wort "Information" hat (mindestens) zwei Bedeutungen, nämlich

1) Nachricht, Botschaft, Mitteilung (hier-auf beschränken wir den Begriffsumfang des ILo-Worts "informo") und
2) Grad der Unvorhersehbarkeit, Ungewöhnlichkeit, Originalität einer Nachricht, Schwierigkeit sie ins Bewußtsein oder Gedächtnis aufzunehmen - dies bezeichnet in ILo unzweideutig das Wort "informacio" (ein Wortschöpfung, die von Hilgers und Yashovardhan [1980, S. 37] eingeführt wurde).
Die erste Bedeutung ist gemeint, wenn von "Informationsverarbeitung" gesprochen wird, oder wenn man sagt, man habe über etwas "offiziell noch keine Information erhalten" , d.h. man wisse zwar schon Bescheid (das Besagte enthalte also keine "Information" im Sinne von "informacio" mehr), habe aber "diese Mitteilung (Nachricht)" nicht auf dem dafür vorgesehenen Weg (durch den richtigen Kanal) erhalten.
Die zweite Bedeutung ist in Redewendungen gemeint wie zum Beispiel: "viel Worte, wenig Information", oder: "Das hat für mich zu viel (zu wenig, keine) Information."
Analog wird auch das Wort "Masse" in zwei verschiedenen Bedeutungen benutzt.
Der Architekt spricht von der "Bau-masse", und der Küchenchef stellt fest, daß die Abfallmasse nicht in den zur Verfügung stehenden Mülleimer paßt. Beide verstehen dabei unter "Masse" etwas Materielles, das Raum beansprucht, füllt und wegnimmt. "Masse" hat also hier die Bedeutung von "Materie".
Es erfordert desto mehr Arbeit, Materie nach oben zu befördern (wegen ihrer Schwere), oder in waagrechter Richtung (wegen ihrer Trägheit), je mehr "Masse", gemessen in (Kilo) Gramm, sie hat.
Für den Physiker ist "Masse" einer der meßbaren Aspekte der "Materie", neben deren Volumen (meßbar in cm3), ihrer Dichte (g/cm3) und ihren quantitativen Merkmalen in anderen naturwissenschaftlichen Dimensionen (und in weiteren Dimensionen, denn ein Stück Materie kann einen mehr oder weniger großen Wert haben!). Analog (Bild 8.1) ist für den Kybernetiker die "Information (= informacio)" einer der meßbaren Aspekte der "Information (= Nachricht), neben ihrem Umfang (Zeichenzahl), ihrer Dichte (Knapp-heit, d.h. informacio pro Zeichen) und ihren quantitativen Merkmalen in anderen, nicht nur kybernetischen Dimensionen (auch eine Nachricht kann von größerem oder kleinerem Wert sein!) Beide messen den Aspekt der Transportschwierigkeit. Für den Kybernetiker handelt es sich um die Übersendung von Nachrichten durch einen (räumlichen) Kanal an einen anderen Ort oder durch einen Speicher zu einem späteren Zeitpunkt. Wie der Begriff und ein Maß der Masse zur Basis der neuzeitlichen (d.h. der analysierenden, modellierenden, messenden, vorausberechnenden und technisch anwendbaren - kurz: der nomotetischen Naturwissenschaft (als Wissenschaft von der materiellen Welt) wurden, kennzeichnen der Begriff und ein Maß der Informacio die Kybernetik als nomothetische Wissenschaft von der informationellen (geistigen) Welt - also insbesondere auch vom Gegenstandsbereich der Pädagogik. Hier geht es - einerseits - um die Messung der Aufnahmefähigkeit des Bewußtseins (Kurzspeichers) und des (vorbewußten) Gedächtnisses, andererseits um die Messung der Lehrstoff-"Masse" als Lehrstoff-"Schwere" (d.h. als Schwierigkeit, ihn ins Bewußtsein oder ins Gedächtnis aufzunehmen), um - drittens - erforderliche Lernzeiten vorausberechenbar und Unterricht (auch medientechnisch) planbar zu machen.

Bild 8.1: Die Masse ist nur einer der quantitativen Dimensionen der ("Masse" =) Materie;ebenso ist die (in ILo besser so genannte) Information (= "informo") nur eine der quantitativen Dimensionen der Information (= Nachricht, Botschaft, Zeichen).

8.2 Maßeinheit der Informacio

Offensichtlich benötigt man normalerweise etwa doppelt soviel Zeit, um zwei Romanseiten zu lesen, also zu apperzeptieren, statt nur einer. Zwei solche Seiten enthalten ja im Normalfall doppelt soviel Buchstaben und andere Schreibmaschinenzeichen (sozusagen "Atome") wie nur eine Seite, und etwa doppelt soviel Wörter oder andere sprachliche "Superzeichen") sozusagen "Moleküle") - in ILo sind schon die Wortteile (Lexeme) solche durch komplexbildende Superierung (wie als Verbindungen aus Atomen) entstandene Superzeichen. Ist die zweite Seite kleiner gedruckt als die erste, benötigt man für sie natürlich mehr Zeit, aber weiterhin für je 100 (Super)Zeichen gleichviel Zeit. Aber weder die Seite noch das Zeichen ist eine geeignete Maßeinheit für die (Aufnahme-, speziell Lese-)Schwierigkeit also für die Informacio. Wir brauchen mehr Zeit (eine längere "Schrecksekunde"), um etwas Ungewöhnliches zu Bewußtsein zu bringen, als etwas uns Geläufiges. Daher ist die Lesezeit für seltene Wörter (z.B. "Iridium") länger als für häufigere Wörter (z.B. "Israel"), auch wenn sie (ungefähr) gleich lang sind. Im Verlaufe der Entwicklung ethnischer Sprachen werden im übrigen im Durchschnitt die häufigeren Wörter kürzer als die selteneren - sei es durch Kürzung von immer häufiger gebrauchten Wörtern (z.B. von "Automobil" zu "Auto"), sei durch Aussterben und Ersatz durch längere Umschreibungen kaum mehr gebrauchter, kurzer Wörter, die dann zur unzweideutigen Codierungen von inzwischen häufiger angesprochenen Bedeutungen frei werden (z.B. von "Ding" durch "Volksvertretung", wodurch es weniger Zeit kostet, die Bedeutung "konkrete Sache" anzusprechen). Diese Selbstoptimierung historisch entwickelter (ethnischer) Sprachen ist einer der Gegenstände der Sprachkybernetik (vgl. z.B. die Kurzdarstellungen der informationstheoretischen Sprachanalyse in Frank, 1966 und 1969, I, S. 196 - 205).

Ein psychologisch und pädagogisch geeignetes Maß der Information muß also von der gewohnten (der sog. "subjek-tiven") Wahrscheinlichkeit p der Zeichen so abhänen, daß diese desto mehr Informacio enthalten, je weniger wahrscheinlich sie sind - je kleiner also ihre Unwahrscheinlichkeit u := 1/p ist (vgl. Bild 8.2). Willkürlich kann man als Maßeinheit der Masse das Gramm (anstatt beispielsweise der Unze) definieren, indem man festlegt, es handle sich um die Masse von 1 cm3 Wasser der Temperatur 4 °C. Ebenso willkürlich definieren wir als Maßeinheit der Informacio das "bit" (statt z.B. das "decit"; man verwechsle nicht das informationstheoretische bit mit dem [nach deutscher Rechtschreibung daher groß zu schreibenden!] "Bit" der Informatik, das ein Synonym für "Binärzeichen" ist; ein Binärzeichen kann mehr oder weniger als 1 bit Informacio enthalten, aber im arithmetischen Mittel höchstens 1 bit) folgendermaßen:

1 bit ist die Informacio einer Information, deren Wahrscheinlichkeit p = ½ ist (die Unwahrscheinlichkeit als u = 2).

Bild 8.3: Die Informacio sinkt mit steigender Wahrscheinlichkeit. Die Maßeinheit kann daher durch eine bestimmten Wahrscheinlichkeit definiert werden, z.B. 0,5 für 1 bit, 0,1 für 1 decit.

"1 decit" wäre mehr Informacio, nämlich die Informacio eines Zeichens mit nur 10% statt 50% Wahrscheinlichkeit (vgl. Bild 8.2). Das Ergebnis eines Münzenwurfs (oder die Mitteilung des Ergebnisses) enthält 1 bit Informacio (Bild 8.3), wenn der Akkokmodator des Beobachters (oder Empfängers der Mitteilung) nur beachtet, welche Seite sich zeigt, aber nicht auch unter welchem Winkel. Die Informacio in der 50. Dezimalstelle der Quadratwurzel aus einer Zufallszahl wäre 1 decit = x bit > 1 bit. Zur Berechnung des Umrechnungsfaktors x benötigen wir die mathematische Präzisierung der in Bild 8.2 gezeichneten, fallenden Funktion i(p).

Bild 8.3: Beobachtungen und Mitteilungen mit der Wahrscheinlichkeit ½ sind 1 bit "schwer".

8.3 Messung der Informacio

Der Wortbildungsprozeß, welcher in Bild 8.4 veranschaulicht ist, führt zur geeigneten Funktion i(p). Man stelle sich vor, jemand konstruiere ILo-Wörter durch zufälliges, je einmaliges Ziehen einer Tafel aus vier Repertoires. Auf die verschiedenen Tafeln des ersten Repertoires mögen je höchstens eine Vorsilbe geschrieben sein, auf denen des zweiten Repertoires je eine Wortwurzel, auf denen des dritten eventuell eine Nachsilbe und auf denen des vierten Repertoires eine grammatische Endung. Da in keinem Repertoire zwei Tafeln gleich beschriftet sein sollen, ist keine Wurzel unwahrscheinlicher, also informationsreicher, als eine andere Wurzel - und dasselbe gilt für die drei anderen Lexemtypen. Es ist natürlich, zu fordern, daß die Informacio i = i(p) so definiert wird, daß die Informacio des entstehenden, mit vier Tafeln kombinierten ILo-Worts die Summe der Informacio ist, die von diesen vier Tafeln apperzipiert werden kann:

(8.1) i = ip+ ir + is + if

Normalerweise ist die Wahrscheinlichkeit - also die Informacio - des folgenden Lexems von den vorangegangenen Lexemen abhängig; in unserem Modellfall einer Wortbildung folgen aber die Lexeme "stochastisch unabhängig" aufeinander, so daß die dritte Tafel nicht mehr und nicht weniger Informacio liefert, wenn man schon vorher weiß, was auf den beiden ersten Tafeln steht.

ld u = ld up + ld ur + ld us + ld uf

In einem ersten (Gedanken)Experiment möge es weder Vorsilben noch Nachsilben geben. Es gibt also nur je eine, leere Tafel. Auch das Repertoire der Tafeln mit den grammatischen Endungen bestehe aus nur einer Tafel, auf welcher die Adjektivendung a steht. Weil das Repertoire der Wurzeln durch zwei Tafeln vertreten sein möge (gramd, rapid), kann man aus den insgesamt vier Tafeln 2 Wörter kombinieren (granda, rapida) - sie entsprechen in Bild 8.4 den 2 Wegen vom ersten Startpunkt durch das Schema der Kom

Bild 8.5: Der Informationsgehalt (Informacio) eines Wortes ist die Summe der Informacioj, die nacheinander von den aufeinanderfolgenden Wortteilen (Lexemen) geliefert werden. Im einfachsten Falle der (erstens:) "stoachastisch unabhängigen" Aufeinanderfolge der (zweitens:) gleichwahrscheinlichen Wortteile haben alle u = up.ur.us.uf möglichen Wörter dieselbe Wahrscheinlichkeit (p = 1/u) und dieselbe Informacio
binationsmöglichkeiten. Beide Wörter (Wege) haben nach Bild 8.2 die Informacio 1 bit, denn beide werden mit der Wahrscheinlichkeit ½ gebildet bzw. durchlaufen. Schon die Tafel mit der Wurzel liefert 1 bit Informacio, denn sie wird mit der Wahrscheinlichkeit ½ ausgewählt (der Weg wird an der Verzweigung zu den beiden Wurzeln mit dieser Wahrscheinlichkeit so fortgesetzt). Nach Formel (8.1) liefern also die drei anderen Tafeln jeweils die Informacio 0. Das scheint in den Fällen der Vorsilbentafel und der Nachsilbentafel selbstverständlich zu sein, da ja auf ihnen nichts steht. Daß auch die grammatische Endung a keine Informacio liefert, wenn man schon vorher weiß, daß immer diese Tafel zu sehen ist, entspricht der alltäglichen Ausdrucksweise, daß diese Tafel bzw. ihre Beschriftung "informationslos" sei: man erfährt ja nichts Neues, man hat folglich keine Schwierigkeit, die Beschriftung dieser Tafel zu erraten. Wenn eine Nachricht für einen Empfänger schon zuvor feststeht, dann ist sie für ihn informationslos: i(1) = 0 - wie es in Bild 8.2 schon eingezeichnet wurde.
Für einen zweiten Versuch mögen wir zwei Endungen (et, eg) statt der unbeschrifteten Suffixtafel verfügbar machen. Nun steckt offensichtlich auch in der Endung 1 bit Informacio, im ganzen Wort also 2 bit. Insgesamt sind bei diesem zweiten Versuch u = 4 Wörter (Wege durch das Schema) möglich, wobei jedes die Wahrscheinlichkeit p = 1/u = ¼ hat, also die Informacio i(¼) = 2 bit.

Wieviel ist i(1/8)? Das macht der dritte Versuch klar, bei welchem man aus vier Wurzeln auswählt, von denen jede also die Wahrschesinlichkeit ¼, also die Informacio i(¼) = 2 bit hat. Weil in der Endung - ebenso wie beim zweiten Versuch - 1 bit steckt, enthält jedes der u = 8 entstehenden Wörter zusammengerechnet 0 + 2 + 1 + 0 = 3 bit, folglich muß gelten: i(1/8) = 3 bit. (Man vermutet bereits richtig, daß der Informationsgehalt [die Informacio] um 1 bit ansteigt, wenn die Wahrscheinlichkeit nur halb so groß wird.)

Auf diese Weise fahren wir bei der Planung des vierten Versuchs fort. Wir fügen zur unbeschrifteten Präfixtafel eine zweite Tafel hinzu, die mit der Vorsilbe mal beschriftet ist, und zu den zwei Tafeln mit Nachsilben noch eine mit ig und eine ohne Beschriftung. Das Repertoire der Wortwurzeln vergrößern wir auf 8, denn wir wissen bereits, daß i(1/8) = 3 bit. Nun entstehen u = 2.8.4.1 = 64 mögliche Wörter, jeweils mit demselben Gehalt an Informacio: i(1/u) = i(1/64) = 1+3+2+0 = 6 bit. Vom Startpunkt an kommt bei der Wegfortsetzung beim Wortbildungsprozeß an jedem Schritt Informacio hinzu - diese ist 0, wo es nur eine einzige Wegfortsetzung gibt, bei jedem Verzweigungspunkt ist sie desto größer, je mehr Zweige es dort gibt, jedenfalls aber gilt dort i > 0.

Wir bemerken, daß nicht nur das Wort malgrandeta (= ziemlich klein) 6 bit Informacio enthält, sondern auch das Wort grandeta ( = ziemlich groß) und sogar das Wort granda (groß), denn alle Wege durch das Schema, auch solche durch unbeschriftete Tafeln, sind gleichzwahrscheinlich - also alle möglichen 64 Wörter. Im vierten Versuch enthält also auch eine unbeschriftete Tafel, also das Fehlen eines Affixes, Informacio. Das ist nicht widersinnig sondern spiegelt die Redewendung wieder: "Keine Antwort ist auch eine Antwort."

Dieses Ergebnis unterstreicht im übrigen, daß die Zahl der Zeichen in einer Nachricht nicht als Maß der Informacio geeignet ist: das Wort malgrandeta besteht aus 4 Lexemen (11 Buchstaben), das Wort granda mit gleich großer Informacio nur aus 2 Lexemen (6 Buchstaben).

Nun enthüllt sich die gesuchte Funktion i(1/u): das Repertoire der möglichen und im Versuch gleichwahrscheinlichen Wör-ter wächst ja mit dem Produkt der Repertoireumfänge der vier Wortteile, während der für alle diese Wörter gleiche Informationsgehalt i nach (8.1) mit der Summe der Informationsgehalte der Wortteile wächst:

(8.2) i(1/u) = i(1/up.ur.us.uf) = i(1/ up) + i(1/ ur) + i(1/ us) + i(1/ uf)

Diese Bedingung erfüllt die Logarithmusfunktion bei beliebiger Basis (und keine andere stetige Funktion). Damit entsprechend der gewählten Maßeinheit i(½) = 1 gilt, muß die Logarithmenbasis 2 sein, und man nennt den Logarithmus lateinisch "logarithmus dualis". Für die Kommunikationskybernetik (zuerst - Frank, 1995, S. 17 - für die Informationsästhetik und die Informationspsychologie, bald darauf auch für die Bildungskybernetik [kybernetische Pädagogik] und die Sprachkybernetik) definierte man daher als ("subjektive") Information (im Sinne von Informacio) irgend eines Zeichens oder eine möglichen Beobachtung, die im Akkomodator irgend eines empfangenden oder beobachtenden Subjekts als eine der Möglichkeiten vorgesehen ist, wobei die "subjektiven Wahrscheinlichkeiten" wk gemäß der bisherigen Erfahrung verschieden sein können,

(8.3) ik := 2log 1/wk (= log2 1/wk) =: ld 1/wk

Die Logarithmen von x zu verschiedenen Basen sind zueinander proportional. Z.B. gilt

(8.4a) lg x = lg 2 . ld x (lg x := 10log x)

(8.4b) ln x = ln 2 . ld x (ln x := elog x)

Verfügt man also über eine Tafel der Zehnerlogarithmen lg x oder der natürlichen Logarithmen ln x (oder über einen Taschenrechner mit einer Taste, die eine solche Funktion anbietet), dann kann man den Zweierlogarithmus ld x, also Informationswerte, einfach berechnen:

(8.4c) ld x = lg x / lg 2 = ln x / ln 2

Aus (8.3) folgt die Antwort auf die Frage, wieviel bit ein decit Information sind. 1 decit ist ja die Informacio eines Zeichens mit der Wahrscheinlichkeite 1/10, also mit der Informacio ld 10 bit 3,3219 bit (vgl. Bild 8.2!). Nach (8.4a) erhält man die Informacio in decit, indem man die in bit gemessene Information mit lg 2 0,30103 multipliziert. -
8.4 Die informationspsychologisch wichtigsten Ergebnissse der Informaciotheorie.

Begriffe sind unnütz, wenn über sie nichts anderes als ihre Definition aussagbar. Insbesondere nützt eine Maßeinheit nur, wenn sie

  • dazu dient, zwei Objekte zu vergleichen, deren räumliches, zeitliches oder sonstiges Auseinanderliegen einen unmittelbaren Vergleich unmöglich macht, oder
  • schon genügend oft angewandt wurde, so daß ein neues Meßergebnis im Nutzer die Assoziation einer ungefähren Vorstellung bewirkt, oder
  • die Aufstellung einer gültigen Formel im Rahmen einer kalkülhaften Theorie erlaubt.
Für geometrische, kinematische und physikalische Begriffe und Maße, z.B. der in Metern gemessene Abstand, die in Sekunden gemessene Dauer und die in (Kilo)Gramm gemessene Masse, sind alle drei Bedingungen erfüllt. Die Kybernetik begann, diese Bedingungen für die in bit gemessene Information zu erfüllen. Die Informationstheorie, die Shannon (1948) begründete, bewies mathematisch einige wichtige allgemeine Gesetze, die sich großenteils auf Möglichkeiten der Codierung beziehen und die - zumindest teilweise und nach konkretisierender Anpassung - auch innerhalb der Psychologie Konsequenzen haben.
Bekanntlich ist auf Fernschreiberstreifen, auf Lochkarten und in den Speichern von Rechnern Information binär verschlüsselt, d.h. durch nur zwei verschiedene Zeichen codiert, beispielsweise durch ein Loch (O) oder durch das Fehlen eines Loches (X) an einer bestimmten Stelle. Zur unzweideutigen Codierung beispielsweise der vier Zeichen A, E, I, O genügt selbstverständlich je ein Binärzeichen, ein "Codebit" oder kurz (aber groß geschrieben!) "Bit" nicht, vielmehr benötigt ein solcher Code ganze, im Normalfall längere Codewörter erforderlich. Er kann z.B. OO (oder XX) für A, OX (oder nur O) für E, XO (oder XOO) für I und XX (oder XOX) für U schreiben. Die "Nachricht" IUEAEAEE (die in irgend einer Sprache eine semantische Bedeutung haben kann, aber nicht muß!) geht nach diesem Code in eine lückenlos schreibbare Folge von 8 Codewörtern für die N = 8 (Text)Zeichen über: XOXXOXOOOXOOOXOX (bzw., im zweiten Code, in: XOOXOXOXXOXOOO).

Man kann eine unendliche Zahl solcher Binärcodes schaffen; man muß nur beachten, daß das Codewort keines Zeichens auch der Anfang des Codeworts eines anderen Zeichens sein darf, damit eine unzweideutige Entschlüsselung möglich ist. Um Speicherplatz oder Sendezeit zu sparen, eignet sich der Code (bzw. die Codes), welcher (welche) die Nachricht in eine möglichst kurze Folge von Binärzeichen verwandelt (verwandeln). In unserem Beispiel benötigt der Code, der nur Codewörter der Länge l = 2 Bit enthält, L = 16 Binärzeichen für die Nachricht der Länge N = 8 Textzeichen (englisch: tokens) aus einem Vorrat von u = 4 verschiedenen Repertoirezeichen (englisch: types), im Durchschnitt also l = L/N = 2 Bit/Textzeichen. Der etwas kompliziertere Code, der nur 1 Binärzeichen für das in der Nachricht oft erscheinende Zeichen E verwendet, und dafür je 3 Binärzeichen für die seltenen Zeichen I und U, benötigt für die gesamte Nachricht nur L = 14 Binärzeichen, also l = (14/8 =) 1,75 Bit/Textzeichen. Man kann beweisen, daß kein Code weniger Bit dafür benötigt. Dies ist ein besonders einfaches Beispiel für einen Fundamentalsatz der mathematischen Informationstheorie von Claude E. Shannon (1948), nach welchem für die sparsamste Verschlüsselung gilt:

(8.5) H /bit l /Bit < H /bit + e

H ist die mittlere Informacio der Zeichen in der Nachricht, also der Gesamtinformationsgehalt geteilt durch N, - H ist also ein Maß der Informationsdichte. l, die durchschnittliche Länge der Codewörter, berechnet sich als Länge L (Bit) der codierten Nachricht dividiert durch die Länge N (Textzeichen) der nichtcodierten Nachricht. e > 0 ist eine Zahl, die beliebig klein festgesetzt werden kann, sofern man erforderlichenfalls eine sehr kommplizierte Verschlüsselung inkauf nimmt. Man sieht, daß E 4-mal in unserer 8 Zeichen langen Nachricht erscheint - also (falls die Nachricht für die gewohnte Häufigkeit der Zeichen typisch ist) mit der Wahrscheinlichkeit ½; die Informacio von E ist also jedesmal 1 bit. Ebenso errechnen sich die Informationswerte von A zu 2 bit, von I und U zu je 3 bit. Im Mittel ist ihr Informationsgehalt

(8.6) H = ½ . 1 bit + ¼ . 2 bit + 1/8 . 3 bit + 1/8 . 3 bit = 1,75 bit

Genau dieselbe Zahl erhielten wir für die durchschnittliche Längel der Codewörter des komplizierteren Codes. Dieser verschlüssselt geschickt jedes Zeichen durch soviel Bit, soviel bit Informacio es enthält, so daß jedes Bit 1 bit Informacio überträgt oder speichert. Die Verschlüsselung ist also nach (8.5) optimal. Der einfachere Code benötigt 2 Binärzeichen um im arithmetischen Mittel 1,75 bit zu übertragen oder zu speichern; seine Knappheit beträgt also nicht 100% sondern nur 1,75/2 = 87,5% - der Fehlbetrag, also 12,5%, wird Coderedundanz genannt.

Man kann in ein Binärzeichen im Durchschnitt nie mehr als 1 bit Information packen - und andererseits man muß im Durchschnitt kaum weniger hineinpacken, falls man genügend geschickt codiert.

Die Informationspsychologie beweist empirisch. daß das Nervensystem mittels des Akkomodators geschickt zu codieren strebt (d.h. die subjektiven Wahrscheinlichkeiten w an die relativen Auftrittshäufigkeiten der zu apperzipierenden Zeichen anzupassen [also Wahrscheinlichkeiten zu lernen] und die Zeichen möglichst genau durch ld 1/w Bit zu codieren sucht [sog. informationelle Akkomodation]).

Der durchschnittliche Erwachsene apperzeptiert daher unabhängig von der Informationsdichte H der Nachricht ungefähr 16 bit/sek und lernt ungefähr 40 - 50 bit/min. (Vgl. Kapitel 5 in Frank, 1969, oder die knappere Darstellung durch Kapitel 6 in Frank, 1996.)

Auch drei weitere Sätze der Informations-theorie (der dritte davon wurde speziell zu ihrer konkretisierenden Anpassung an die Bedürfnisse der Kommunikationskybernetik aufgestellt) sind informationspsychologisch relevant.
1. Eine Folge von Zeichen aus einem Repertoire von u verschiedenen Zeichen weist die größte Informationsdichte, und zwar Hmax = ld u auf, wenn jedes der u Zeichen an jeder Stelle der Folge mit derselben Wahrscheinlichkeit 1/u erscheint. Der (absolute oder relative) Fehlbetrag zu ld u heißt (absolute bzw. relative) Redundanz der Zeichenfolge; das Komplement der relativen Redundanz, also H / ld u , wird als deren Knappheit bezeichnet. - Zeichenfolgen von höchstmöglicher Knappheit, also redundanzfreie Zeichenfolgen liest man automatisch besonders langsam - d. h. man liest besonders wenig Zeichen pro Sekunde, weil der Erwachsene schon damit 16 bit/sek apperzipiert.
2. Zeichen müssen nicht stochastisch unabhängig aufeinanderfolgen, vielmehr hängt ihre Auftrittswahrscheinlichkeit meist davon ab, welche Zeichen vorausgingen. (Z. B. folgt auf q in französischen Wörtern fast immer, in deutschen immer u; dieser Buchstabe ist an dieser Stelle daher im Französischen fast, im Deutschen völlig informationslos.) Die Infomationsdichte (und damit die Knappheit) solcher Zeichenfolgen ist geringer als sie nach zufälliger Umordnung ist, und zwar ist sie desto geringer, je länger die Kette vorangegangener Zeichen ist, von der die Auftrittswahrscheinlichkeit noch abhängt. - Die Normierung der Wortordnung im Satz erleichtert also das Lesen - jede Abweichung von der gewohnten Aufeinanderfolge (in vielen Sprachen: Subjekt - Prädikat - Objekt) ist - wo sie erlaubt ist (im Englischen und Chinesischen ist sie nicht erlaubt) - eine informationsreichere, "gewählte Ausdrucksweise", die man ästhetisch "genießt", also langsamer liest.
3. Weichen die subjektiven Wahrscheinlichkeiten wk, die der Akkomodator der versuchten Optimalcodierung zugrundelegt, von den Auftrittswahrscheinlichkeiten pk ab, dann ist die (subjektive) Informationsdichte größer, als für einen Empfänger derselben Nachricht, der an die pk schon gewöhnt ist, so daß für ihn wk = pk gilt. - Einen Gesprächspartner aus dem Sprachausland, dessen Sprache man in der Schule gelernt hatte, ohne aber unbewußt auch schon ihre Häufigkeitsstatistik zu lernen, pflegt man daher zu bitten, langsamer zu sprechen, da man zwar jedes Wort versteht, dieses aber im Mittel noch zu informationsreich ist, um innerhalb der Sprechzeit apperzipiert werden zu können.
Einfache, auf kommunikationskybernetische Anwendungen abgestimmte Beweise für diese und andere Sachverhalte der mathematischen Informationstheorie finden sich insbesondere in Frank, 1969, Band 1, Kapitel 3, und in Frank, 1972.


Übungsaufgaben


gleiches in ILO