Awesome Open Source
Awesome Open Source

Generic badge Maintenance Generic badge License: CC BY-NC 4.0 Generic badge Generic badge

Datenanalyse mit Python

Datenaufbereitung, Datenbearbeitung, Datenvisualisierung und statistische Datenanalyse mit Python

/ Inhaltsbersicht / Infos zu den Inhalten /


Inhaltsbersicht

Kapitel 1: Grundlagen... (kommt noch)

Schwerpunkt: Pandas

Kapitel 2: Dataframe erstellen und speichern

Kapitel 3: Fehlende Werte, Werte auerhalb des Skalenbereichs, Zeilenduplikate

Kapitel 4: Daten laden und Dataframe Basisinfos

Kapitel 5: Deskriptive Analyse

Kapitel 6: Daten gruppieren, sortieren, filtern

Kapitel 7: Kreuztabellierung

Kapitel 8: Variablen umkodieren

Kapitel 9: Variablen berechnen

Kapitel 10: Variablen bzw. Dataframes transformieren

Kapitel 11: Einfache grafische Datenanalyse

Kapitel 12: Mehrfachantworten auswerten

Schwerpunkt: Spezifische Module zur statistischen Datenanalyse und Visualisierung

Kapitel 13: ...

/ zum Anfang /


Infos zu den Inhalten

Weitere Kapitel (in Summe wohl 21) werden folgen. Ev. ein Kapitel pro Woche oder so... Die meisten Kapitel sind fertig, bedrfen jedoch noch einer Durchsicht und berprfung, bevor sie hochgeladen werden.

Die einzelnen Kapitel liegen als Jupyter Notebooks vor und werden mit nbviewer im Browser angezeigt (die Links am besten in neuem Tab ffnen). Bis eine hier auf GitHub aktualisierte Version eines Notebooks im nbviewer korrekt angezeigt wird, knnen einige Stunden vergehen (manchmal auch mehr als ein Tag).

Neben dieser Ansicht der Notebooks wird es knftig auch mglich sein, die Notebooks interaktiv ber den Browser durchzuarbeiten. Dazu dann einfach in der nbviewer Ansicht rechts oben auf das Execute on Binder Symbol (die drei roten Ringe) klicken (vgl. folgenden Screenshot aus Firefox).

Screenshot nbviewer

/ zum Anfang /



Hintergrundinfo

Im Jahr 2019 habe ich wiedermal damit begonnen, mich mit Python zu befassen. Diesmal aber nicht - wie 10 Jahre zuvor schon mal - zum Zweck der Programmierung, sondern zum Zweck der Datenvisualisierung, in weiterer Folge dann auch der Datenbearbeitung und statistischen Datenanalyse.

So entstanden im Lauf der Zeit zahlreiche Codezeilen, Scripts, Vorlagen fr div. Grafiken bzw. Analysen - irgendwann dachte ich, daraus liee sich wohl eine Art Skriptum machen. Vor allem natrlich als Nachschlagewerk fr mich selbst - im Gegensatz zu gebruchlicher Statistiksoftware wie SPSS (da gibt's Literatur zu Hauf) oder R (auch da gibt's mittlerweile so einiges) findet sich zur (sozialwissenschaftlichen) Datenanalyse mit Python nmlich noch nicht viel.

Das Skriptum nimmt langsam aber sicher Form an. Hier auf Github finden sich Jupyter Notebooks zu den einzelnen Kapiteln des Skriptums (inkl. fallweise ntiger Datenfiles oder sonstiger Dateien). Das Skriptum selbst wird daneben als PDF zusammengestellt und zu gegebener Zeit online gestellt.

WICHTIG: All das hier ist kein Programmierkurs bzw. keine umfangreiche Einfhrung in Python. Ziel ist, div. Module von Python (bspw. Pandas, Statsmodels, Matplotlib, Seaborn und viele weitere) vorzustellen, die sich mit Datenbearbeitung, statistischer Datenanalyse und Visualisierung befassen. Auch wird - vorerst - nicht auf Aspekte es Machine Learnings oder Deep Learnings (hier bietet Python einiges) eingegangen; behandelt werden vielmehr typische sozialwissenschaftliche Verfahren, wie man sie aus den blichen Statistikprogrammen kennt (Korrelation, T-Tests, Regression, Varianzanalysen, usw.). Auch die grafische Datenanalyse bzw. die Visualisierung von Daten wird eine zentrale Rolle spielen. Hier bietet Python Vorteile bspw. gegenber SPSS und steht R in nichts nach. Begonnen wird aber natrlich mit dem Import von Daten, der Datenbearbeitung, deskriptiven Auswertungen usw. Smliche Jupyter Notebooks hier werden von Zeit zu Zeit berarbeitet, d.h. ev. an aktuelle Versionen der Python Module angepasst, mit neuen Beispielen und/oder besseren Erklrungstexten versehen, um neue Funktionen erweitert, usw.


Feedback jederzeit mglich!



Question: Why is all this in german?

Answer: Because there's enough literature, enough code, enough manuals, etc. in english about data analysis and data visualisation with python available. Not so in german.

/ zum Anfang /



Datenanalyse mit Python by Manfred Hammerl is licensed under CC BY-NC 4.0

Related Awesome Lists
Top Programming Languages
Top Projects

Get A Weekly Email With Trending Projects For These Topics
No Spam. Unsubscribe easily at any time.
Python (794,459
Jupyter Notebook (150,727
Visualization (15,182
Pandas (6,530
Data Visualization (5,569
Data Visualisation (5,437
Data Analysis (4,724
Matplotlib (4,000
Visualisation (2,744
Scipy (1,764
Statistical Analysis (685
Seaborn (565
Statsmodels (61
Datenanalyse (3
Visualisierung (3