23.12 Häufigkeitsverteilung bei unterschiedlichen Sprachen
 
Download:
TextAnalyse.java

rauchen.txt
bush.txt
Wir wollen die Häufigkeit der einzelnen Buchstaben in einem Text untersuchen. Wir benutzen dazu das Programm TextAnalyse.java. Es enthält Sequenzen, die einem Javaprogramm erlauben, einen Text aus einer Datei zu lesen. Diese Teile des Programms, sie sind im Quelltext markiert, werden wir später untersuchen. Ferner benutzen wir die beiden Texte rauchen.txt und bush.txt. Aus den Dateien wurden harte Zeilenumbrüche entfernt.
 
Die Häufigkeit der einzelnen Buchstaben in der Datei  rauchen.txt ist:

A: 5.8%   B: 3.2%   C: 3.7%   D: 4.4%   E: 17.1%  F: 1.5%
G: 2.7%   H: 5.1%   I: 6.3%   J: 0.3%   K: 0.8%   L: 4.4%
M: 1.7%   N: 10.1%  O: 2.7%   P: 0.7%   Q: 0.1%   R: 8.3%
S: 7.3%   T: 5.8%   U: 4.1%   V: 1.2%   W: 1.4%   X: 0.1%
Y: 0.0%   Z: 1.2%

 
Die Häufigkeit der einzelnen Buchstaben in der Datei bush.txt ist:
 
  A: 6.7%   B: 2.0%   C: 2.4%   D: 5.0%   E: 16.3%  F: 2.1%
G: 3.6%   H: 4.5%   I: 7.6%   J: 0.1%   K: 2.6%   L: 2.9%
M: 2.1%   N: 9.0%   O: 2.4%   P: 0.8%   Q: 0.0%   R: 8.7%
S: 8.3%   T: 5.2%   U: 3.8%   V: 1.2%   W: 1.5%   X: 0.0%
Y: 0.5%   Z: 0.8%

In beiden Tabellen sind die drei häufigsten Buchstaben gelb unterlegt, sie sind in beiden Tabellen die gleichen. Der Abstand zwischen den drei Häufigsten ist 9 - 4 (wir beginnen bei dem Buchstaben mit der größten Häufigkeit. U.U. müsste man über 'Z' wieder bei 'A' beginnend weiterzählen..
  Die Häufigkeitsverteilungen der beiden, völlig verschiedenen Texten sind frappierend ähnlich. Weitere Vergleiche mit anderen, willkürlich gewählten, aber hinreichend langen Texten, zeigen das gleiche Bild.
  Verwenden wir einen englischen Text, so zeigt die Buchstabenverteilung eine für die englische Sprache typische Verteilung.

A: 9.1%   B: 1.3%   C: 3.0%   D: 4.1%   E: 11.3%   F: 2.1%
G: 1.4%   H: 5.4%   I: 6.3%   J: 0.3%   K: 0.8%    L: 3.9%
M: 3.0%   N: 6.4%   O: 8.3%   P: 2.5%   Q: 0.0%    R: 7.1%
S: 6.0%   T: 11.4%  U: 2.8%   V: 0.5%   W: 2.3%    X: 0.1%
Y: 0.6%   Z: 0.1%


Das für die Abstände charakteristische Tripel ist 7 - 4. Aber wegen der Streuung könnte das Tupel auch 15 - 7 heißen. Man überprüfe, ob dieses Zahlentupel in einer Sprache eine Invariante ist.

 

zu 23.13 Entschlüsseln mit Hilfe einer Häufigkeitsverteilung
zur Startseite www.pohlig.de  (C) MPohlig 2004