Articles

Erstellen von Histogrammen mit R

Wenn Sie einen Datensatz untersuchen, möchten Sie oft einen schnellen Überblick über die Verteilung bestimmter numerischer Variablen darin erhalten. Eine gängige Methode zur Visualisierung der Verteilung einer einzelnen numerischen Variable ist die Verwendung eines Histogramms. Ein Histogramm unterteilt die Werte innerhalb einer numerischen Variable in „Bins“ und zählt die Anzahl der Beobachtungen, die in jedes Bin fallen. Durch die Visualisierung dieser Bins können wir einen sehr unmittelbaren und intuitiven Eindruck von der Verteilung der Werte innerhalb einer Variable erhalten.

Dieses Rezept zeigt Ihnen, wie Sie ein Histogramm mit R erstellen können. Insbesondere werden Sie die R-Funktion hist() und ggplot2 verwenden.

In unserem Beispiel werden Sie die Verteilung der Sitzungsdauer für eine Website visualisieren. Die Schritte in diesem Rezept sind in die folgenden Abschnitte unterteilt:

  1. Data Wrangling
  2. Data Exploration & Vorbereitung
  3. Datenvisualisierung

Implementierungen aller unten beschriebenen Schritte finden Sie in diesem Beispielmodusbericht. Fangen wir an.

Datenverarbeitung

Sie werden SQL verwenden, um die Daten zu verarbeiten, die Sie für unsere Analyse benötigen. Für dieses Beispiel verwenden Sie den sessions-Datensatz, der im Public Data Warehouse von Mode verfügbar ist. Stellen Sie mithilfe des Schema-Browsers im Editor sicher, dass Ihre Datenquelle auf die Datenquelle des Mode Public Warehouse eingestellt ist, und führen Sie die folgende Abfrage aus, um Ihre Daten zu verarbeiten:

`select *from modeanalytics.sessions`

Nachdem die SQL-Abfrage ausgeführt wurde, benennen Sie Ihre SQL-Abfrage in Sessions um, damit Sie sie im R-Notebook leicht identifizieren können.

Datenuntersuchung & Vorbereitung

Nachdem Sie nun Ihre Daten aufbereitet haben, können Sie zum R-Notebook wechseln, um Ihre Daten für die Visualisierung vorzubereiten. Der Modus leitet die Ergebnisse Ihrer SQL-Abfragen automatisch in einen R-Datenrahmen, der der Variablen datasets zugewiesen ist. Sie können die folgende Zeile in R verwenden, um auf die Ergebnisse Ihrer SQL-Abfrage als Datenframe zuzugreifen und sie einer neuen Variablen zuzuweisen:

`sessions <- datasets]`

Datenvisualisierung

Um ein Histogramm zu erstellen, werden wir die Funktion hist() von R verwenden. Da Sie nur an der Visualisierung der Verteilung der session_duration_seconds-Variable interessiert sind, übergeben Sie den Spaltennamen an die hist()-Funktion, um die Visualisierungsausgabe auf die interessierende Variable zu beschränken:

`# Using hist() function in base graphics to make a histogramhistinfo=hist(sessions$session_duration_seconds, main="Histogram with Default Parameters")`

R Histogramm Standard

Sie können das Aussehen Ihres Histogramms weiter anpassen, indem Sie der hist()-Funktion zusätzliche Parameter übergeben:

`hist(sessions$session_duration_seconds, main="Adding grid lines and ticks", xlab="Session Duration (in seconds)", ylab= "Count", xlim=c(0,55), ylim=c(0, 49000), col="lightgrey")axis(4, labels=FALSE, col = "lightgrey", lty=2, tck=1)`

R Histogramm gestylt

Sie können auch die native Histogrammerstellungsfunktion von ggplot2 verwenden, um Histogramme in R mit zusätzlichen Funktionen wie Kernel-Dichte-Schätzungen zu erstellen und zu stylen:

`p <- ggplot(sessions, aes(x=session_duration_seconds)) + geom_histogram(aes(y=..density..), # Histogram with density instead of count on y-axis binwidth=2, colour="black", fill="white") + geom_density(alpha=.3, fill="#32CD32")p + labs(x = "Session Duration (in seconds)", y = "Density", title = "Density Curve using ggplot2") + coord_fixed(ratio = 100)ggsave("ggtest.png", p, width = 5, height = 8, dpi = 1200)`

ggplot2 Histogram Styled

Eine Antwort schreiben

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.