Erste Schritte mit R / Teil II
Statistik und Tabellen
In diesem Teil meiner kleinen offenen Serie rund um die Programmiersprache R geht es um einfache Statistikfunktionen und das Arbeiten mit und Erstellen von Tabellen.
Ich bin Einsteiger in R und da ich für eine vollständige tageweise Schulung nicht die Zeit habe, versuche ich nach Anleitungen im Netz zu dilettieren, die es ebenso einfach für mich erklären, wie ich es hiermit für Euch versuche. Die hier genannten Übungen helfen mir hoffentlich besser in der Lage zu sein, darstellbare und auswertbare Tabellen zu erstellen.
Im ersten Teil meiner kleinen offenen Serie habe ich mich mit einfachen String-Funktionen auseinandergesetzt.
Als totaler Anfänger in R bin ich zur Zeit auf der Suche nach Tutorials, die ich mit meinen Kenntnissen umsetzen kann.
Dabei bin ich auf die Website The Programming Historian gestossen, auf der es im Moment (Stand Januar 2020) 80 Lektionen ( Link: https://programminghistorian.org/en/lessons/) für programmierende Historiker gibt, aber die sollten ja auch für einen programmierenden Designer, wie mich, interessant sein. Ich habe mich, um später weiter den Text Schau heimwärts, Engel!
von Tom Wolfe auszuwerten, für die Lektion Basic Text Processing in R von Taylor Arnold entschieden. Das Protokoll und meine Notizen zu dieser Übung gibt es in der nächsten Folge.
Vorher erarbeite ich mir aber erste die Lektion R Basics von Taryn Dewar und spiele ein wenig mit den genannten Daten und Funktionen zum besseren Verständnis herum.
In dieser Arbeitsnotiz geht es unter anderem um diese Funktionen der Programmiersprache R:
setwd(), dir(), paste(), write.table(), data(), mean(), median(), min(), max(), quantile(), summary(), cbind(), rbind(), rownames(), colnames()
Einfache Statistikfunktionen
Mean() und Median()
Das Tutorial enthält einige Basics zum Umgang mit statistischen Werten, wie dem Mittelwert, dem Medianwert, Maximalwerten und Minimalwerten.
Wie Ihr bestimmt schon gemerkt habt, ist mein Blog und vor allem diese Artikelserie ja auch eine Art öffentliche Notizfunktion für mich selbst.
Deshalb hier ein kurzes Protokoll meiner Spielereien mit R und den Funktionen mean() und median() anhand der in R mitgelieferten Passagierliste und den im oben genannten Artikel des The Programming Historians.
Im ersten Schritt öffne ich R und richte mein Arbeitsverzeichnis ein.
Die Funktion mean() liefert den Mittelwert eines Datensatzes, die Funktion median() den sogenannten Zentralwert - den Wert der Datenbasis, der genau in der Mitte steht - das muss nicht zwingend der Mittelwert sein.
Die Daten aus der Passgierliste in R holt man sich mit data(AirPassengers), wie man sieht eine einfache Tabelle mit der Anzahl von Passagieren (in 1000), die zwischen Januar 1949 und Dezember 1960 geflogen sind. Bitte auf Groß- und Kleinschreibung achten.
Den Mittelwert aller Monate erhält man mit
und den median mit
Den kleinsten Wert bekommen wir mit der Funktion min().
Den höchsten Wert aus der Tabelle Passengers erhalten wir mit der Funktion max().
Quantile als Lagemaße
quantile() und summary()
Auch Quantile können wir uns mit der Funktion quantile() anzeigen lassen. Quantile sind Lagemaße in der Statistik und besonders in der Bevölkerungsstatistik und Ergonomie bedeutsam. Das 25-%-Quantil ist der Wert, für den gilt, dass 25 % aller Werte kleiner sind, als dieser Wert.
In R gibt es praktischerweise eine Funktion, die die wichtigsten statistischen Daten zusammenfasst, das ist die Funktion summary(). Sie stellt den Minimalwert, den Quantile-Punkt von 25% , den Median, den Mittelwert, den 75 % Quantile und den Maximalwert dar.
Einfache Tabellenfunktionen
Selbst Tabellen erstellen
Wie können wir jetzt selbst Tabellen erstellen? Das ist in R erstaunlich einfach und geht richtig schnell.
Nehmen wir einmal an, wir wollen diese Daten in eine Tabelle schreiben:
Um aus diesen Daten eine Matrix zu erstellen, können wir die cbind() Funktion verwenden, einmal grob mit spaltenweise zusammenbinden (column bind) übersetzt. Natürlich kann man die Reihenfolge der eingefügten Daten in der Klammer ändern. Dabei nutzt R unsere Objektbezeichnungen als Spaltenüberschriften.
Und zeilenweise sähe es mit der Funktion rbind() - zeilenweise zusammenbinden (row bind) so aus. Dabei werden die Objektnamen als Zeilenbeschriftungen genutzt.
Und wir können auch Zeilen anhängen, in diesem Falle die Werte aus data3:
Die Bezeichnungen für die Zeilen und Spalten sehen jetzt natürlich noch nicht so prickelnd aus. Das lässt sich relativ schnell ändern. Die Spalten als auch die Zeilenüberschriften benennen wir einfach um, indem wir für die Zeilen rownames() und für die Spalten colnames() verwenden:
Gefällt uns diese Anordnung nicht, invertieren wir die Tabelle ganz einfach mit t(). Dabei steht das t für transpose, was sich wohl ganz gut mit umsetzen übersetzen lässt.
Und natürlich können wir für die Tabelle auch wieder Auswertungen vornehmen:
Und für einzelne Zeilen oder Spalten, in dem wir in eckigen Klammern die Zeile vor dem Komma oder die Spalte nach dem
Komma angeben.
Oder einfach nur einen Mittelwert für die dritte Spalte ermitteln:
Das war jetzt nur ein kleiner Überflug über sehr sehr einfache Tabellen- und Statistikfunktionen in der Programmiersprache R.
Ich freue mich über Anregungen und Kritik.
tl, dr;
Einfache Statistikfunktionen in R und das Erstellen von und Arbeiten mit Tabellen in dieser Programmiersprache.
Kommentare (0)