Articles

Histogrammen maken met R

Bij het onderzoeken van een dataset zult u vaak snel inzicht willen krijgen in de verdeling van bepaalde numerieke variabelen daarin. Een veelgebruikte manier om de verdeling van een enkele numerieke variabele te visualiseren is door gebruik te maken van een histogram. Een histogram verdeelt de waarden van een numerieke variabele in “bins”, en telt het aantal waarnemingen dat in elke bin valt. Door deze tellingen in kolommen te visualiseren, kunnen we een zeer direct en intuïtief gevoel krijgen van de verdeling van de waarden binnen een variabele.

Dit recept laat zien hoe je een histogram kunt maken met behulp van R. In het bijzonder zul je R’s hist() functie en ggplot2 gebruiken.

In ons voorbeeld ga je de verdeling van de sessieduur voor een website visualiseren. De stappen in dit recept zijn onderverdeeld in de volgende secties:

  1. Data Wrangling
  2. Data Exploration & Voorbereiding
  3. Data Visualization

U kunt implementaties van alle hieronder beschreven stappen vinden in dit voorbeeld Mode rapport. Laten we beginnen.

Gegevens ordenen

U gebruikt SQL om de gegevens te ordenen die u nodig hebt voor onze analyse. In dit voorbeeld gebruikt u de sessions dataset die beschikbaar is in het Mode’s Public Data Warehouse. Gebruik de schema browser in de editor, zorg ervoor dat uw gegevensbron is ingesteld op de Mode Public Warehouse gegevensbron en voer de volgende query uit om uw gegevens te ordenen:

`select *from modeanalytics.sessions`

Als de SQL query is voltooid, hernoem uw SQL query dan naar Sessions zodat u deze gemakkelijk kunt herkennen in het R-notebook.

Verkenning van gegevens & Voorbereiding

Nu u uw gegevens in orde hebt gemaakt, bent u klaar om naar de R-notebook te gaan om uw gegevens voor te bereiden voor visualisatie. Mode pijpt automatisch de resultaten van uw SQL-query’s in een R-dataframe dat is toegewezen aan de variabele datasets. U kunt de volgende regel van R gebruiken om de resultaten van uw SQL query als een dataframe te openen en ze aan een nieuwe variabele toe te wijzen:

`sessions <- datasets]`

Data Visualisatie

Om een histogram te maken, zullen we R’s hist() functie gebruiken. Aangezien u alleen geïnteresseerd bent in het visualiseren van de verdeling van de session_duration_seconds variabele, geeft u de kolomnaam door aan de hist() functie om de visualisatie-uitvoer te beperken tot de variabele van belang:

`# Using hist() function in base graphics to make a histogramhistinfo=hist(sessions$session_duration_seconds, main="Histogram with Default Parameters")`

R Histogram Default

U kunt het uiterlijk van uw histogram verder aanpassen door de hist() functie extra parameters mee te geven:

`hist(sessions$session_duration_seconds, main="Adding grid lines and ticks", xlab="Session Duration (in seconds)", ylab= "Count", xlim=c(0,55), ylim=c(0, 49000), col="lightgrey")axis(4, labels=FALSE, col = "lightgrey", lty=2, tck=1)`

R Histogram Gestileerd

U kunt ook ggplot2’s native functionaliteit voor het maken van histogrammen gebruiken om histogrammen in R te maken en te stylen met extra functies zoals kernel dichtheidsschattingen:

`p <- ggplot(sessions, aes(x=session_duration_seconds)) + geom_histogram(aes(y=..density..), # Histogram with density instead of count on y-axis binwidth=2, colour="black", fill="white") + geom_density(alpha=.3, fill="#32CD32")p + labs(x = "Session Duration (in seconds)", y = "Density", title = "Density Curve using ggplot2") + coord_fixed(ratio = 100)ggsave("ggtest.png", p, width = 5, height = 8, dpi = 1200)`

ggplot2 Histogram Gestileerd

Laat een antwoord achter

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *