Auf der Gulaschprogrammiernacht 2019 traf Sebastian auf den Podcaster Data Science Phil Philipp Packmohr @PPackmohr. Sein Interesse zur Data Science entstand w\xe4hrend seines Studiums in den Life Sciences an der Hochschule Furtwangen in den Bereichen der molekularen und technischen Medizin und zu Medical Diagnostic Technologies. In seiner Masterarbeit hat er sich betreut von Prof. Dr. Matthias Kohl mit der statistischen Aufbereitung von Beobachtungsstudien befasst, genauer mit der kausalen Inferenz aus Observationsdaten mit Propensity Score Matching Algorithmen. Kausale Inferenz, das Schlie\xdfen von Beobachtungen auf kausale Zusammenh\xe4nge, ist tats\xe4chlich sehr wichtig in allen empirischen Wissenschaften wie zum Beispiel der \xd6konomie, der Psychologie, der Politologie, der Soziologie und auch der Medizin. Idealerweise sollten Studien in der Form von randomisierten kontrollierten Studien durchgef\xfchrt werden, da nur so eine bewusste oder unbewusste Einflussnahme auf den Ergebnisse verhindert werden kann. Beispielsweise leiden Evaluationen an Hochschulen am Ende von Vorlesungen oder Studieng\xe4ngen oft unter einem Survivorship Bias, da nur noch die Personen befragt werden, die bis zum Ende durchgehalten haben. Doch werden nicht alle Studien aufgrund von verschiedenen Gr\xfcnden (wie zum Beispiel der hohen Kosten) randomisiert durchgef\xfchrt, und so war es auch bei dem f\xfcr seine Arbeit zentralen Observationsdatensatz von Prof. Dr. Konrad Reinhart an der Klinik f\xfcr Intensivmedizin vom Universit\xe4tsklinikum Jena zu Therapien zur Vermeidung von akutem Nierenversagen. Der Datensatz behandelte 21757 Patienten mit soziodemographischen und biologischen Merkmalen aus der elektronischen Gesundheitsakte mit bis zu 209 Variablen, sowie der gew\xe4hlten Therapie und ob es zu Nierenversagen kam oder nicht. Die Variablen werden bei der Untersuchung als Confounder, St\xf6rfaktoren oder Kovariate benannt, die nicht als urs\xe4chlich f\xfcr den Therapieverlauf gesehen werden, aber diesen sowohl beeinflussen k\xf6nnen. In einer nicht-randomisierten Studie werden die Confounder nicht gleichm\xe4\xdfig \xfcber die Therapiearten verteilt sein, und damit die zusammengefassten Ergebnisse unerw\xfcnscht verf\xe4lschen. Eine Aufbereitung anhand der Confounder kann aber nie eine v\xf6llig randomisierte Studie ersetzen, da in den Daten nicht auftretende Confounder, wie bespielsweise dem athletischen Status, nicht ber\xfccksichtigt werden k\xf6nnen. Im Propensity Score Matching werden nun die Erfolgsquoten von Therapien vereinfacht gesagt als durch einen Score gewichtete Erfolgsquote unter Ber\xfccksichtigung der aufgetretenen H\xe4ufigkeiten der Confounder zur erwarteten H\xe4ufigkeit der Confounder berechnet. Problematisch ist dabei der Umgang mit fehlenden Datenwerten, da nur ein Bruchteil der Datens\xe4tze wirklich alle Variablen definiert. Hier mussten sinnvolle Datenerg\xe4nzungsverfahren eingesetzt werden. Die Auswertung erfolgte mit dem kostenlosen Open Source Projekt R (Plattform f\xfcr statistische Berechnungen), (...)