Shannon Information

Published: July 6, 2017, 8:30 p.m.

Paul Darscheid geh\xf6rt der KIT-Hochschulgruppe Engineers without borders an und arbeitet dort konkret in einer Projektgruppe mit, die im l\xe4ndlichen Raum von \xc4thopien einen Brunnen bohrt. Um daf\xfcr die Nachhaltigkeit des Grundwasserzuflusses zu kl\xe4ren, suchte er den Kontakt zu Uwe Ehret vom Institut f\xfcr Wasser und Gew\xe4sserentwicklung, Bereich Hydrologie. Die spannenden Themen dort fesselten ihn so sehr, dass schlie\xdflich auch seine Masterarbeit in Zusammenarbeit mit der Hydrologie entstand. Zum Spektrum der Fragen der Hydrologen geh\xf6ren sehr viele unterschiedliche Themen. Man kann summarisch sagen: alles zum Thema Wasserkreislauf, was nicht die Meteorologen beantworten. Konkret geht es z.B. um Niederschlagsabfluss oder Hochwasservorhersage. Eine Frage, die dabei immer wieder auftaucht ist: Wo steckt die meiste Information in den Datens\xe4tzen oder den erstellten Modellen? Ein typischer Anwendungsfall schlie\xdft beispielsweise aus den Flu\xdfpegelst\xe4nde von unterschiedlichen Fl\xfcssen im gleichen System, den Niederschlagmessungen, der Lufttemperatur, Schneeh\xf6hen, Bodenfeuchte und Bodenbeschaffenheit auf die Zielgr\xf6\xdfe - einen konkreten Flusspegelstand. Ein Zusammenhang aller Daten mit der Zielgr\xf6\xdfe ist klar, aber wie er konkret aussieht ist schwerer zu fassen. Informationsfl\xfcsse quantifizieren in diesem Kontext, welche Messreihen die meisten Informationen \xfcber die Zielgr\xf6\xdfe liefern. Daneben stellt sich auch die Frage: Kann ich einmal gewonnene Konzepte auf andere System \xfcbertragen? Kann ich mir dort sparen noch einmal sehr viel zu messen, also mit weniger Daten auskommen? Am Anfang steht dann die Frage: Was ist Information? Das Konzept f\xfcr das sich Paul Darscheid entschieden hat ist die Shannon Entropie - ein Ma\xdf f\xfcr Unsicherheit aufgrund der vorliegenden Streuung in den Daten. Tats\xe4chlich besteht ein Zusammenhang zum physikalischen Begriff der Entropie. Die unterstellte Verteilung eines Datensatzes wird zur Grundlage auf der Gr\xf6\xdfen wie Informationssicherheit und andere abgeleitet werden. Die Natur als Me\xdfdaten f\xfchrt auf eine diskrete Verteilung, die evtl. noch vergr\xf6bert wird durch W\xe4hlen von Stufen (bins) innerhalb derer der Unterschied als nicht relevant angesehen wird. F\xfcr eine Beobachtung stellt sich die Frage: Wieviel Information steckt in dieser zus\xe4tzlichen Messung? F\xfcr sehr wahrscheinliche Ereignisse ist es kaum zus\xe4tzliches Wissen, weil es mit vorherigen Vermutungen \xfcbereinstimmt. F\xfcr ein unwahrscheinliches Ereignis ist die zus\xe4tzlich gewonnene Information sehr gro\xdf. Ein Problem ist auch, dass die diskrete Verteilung aus beobachteten Daten gewonnen wird - d.h. man muss eine Sch\xe4tzung der Verteilung vornehmen. Darauf aufbauend ist es wichtig zu wissen, wie mit Teilmengen des Datensatzes die gesch\xe4tzte Verteilung approximiert werden kann. Die Unsicherheit hierbei kommt durch Streuung der Daten und durch den vorhandenen Ausschnitt der Realit\xe4t, der in den Daten eingefangen wird. (...)