Articles

Creación de histogramas con R

Cuando se explora un conjunto de datos, a menudo se desea obtener una rápida comprensión de la distribución de ciertas variables numéricas dentro de él. Una forma común de visualizar la distribución de una sola variable numérica es utilizando un histograma. Un histograma divide los valores dentro de una variable numérica en «intervalos», y cuenta el número de observaciones que caen en cada intervalo. Al visualizar estos recuentos en forma de columnas, podemos obtener un sentido muy inmediato e intuitivo de la distribución de los valores dentro de una variable.

Esta receta le mostrará cómo crear un histograma utilizando R. En concreto, utilizará la función hist() de R y ggplot2.

En nuestro ejemplo, va a visualizar la distribución de la duración de la sesión para un sitio web. Los pasos de esta receta se dividen en las siguientes secciones:

  1. Data Wrangling
  2. Exploración de datos
  3. & Preparación

  4. Visualización de datos
    1. Puede encontrar implementaciones de todos los pasos descritos a continuación en este informe de ejemplo de Mode. Empecemos.

      Data Wrangling

      Usarás SQL para organizar los datos que necesitarás para nuestro análisis. Para este ejemplo, utilizarás el conjunto de datos sessions disponible en el almacén público de datos de Mode. Utilizando el explorador de esquemas dentro del editor, asegúrate de que tu fuente de datos está configurada en la fuente de datos del Almacén Público de Mode y ejecuta la siguiente consulta para manejar tus datos:

      `select *from modeanalytics.sessions`

      Una vez que la consulta SQL haya terminado de ejecutarse, cambia el nombre de tu consulta SQL a Sessions para que puedas identificarla fácilmente dentro del cuaderno de R.

      Exploración de datos & Preparación

      Ahora que tiene sus datos arreglados, está listo para pasar al cuaderno R para preparar sus datos para la visualización. Mode canaliza automáticamente los resultados de sus consultas SQL en un marco de datos de R asignado a la variable datasets. Puedes utilizar la siguiente línea de R para acceder a los resultados de tu consulta SQL como un dataframe y asignarlos a una nueva variable:

      `sessions <- datasets]`

      Visualización de datos

      Para crear un histograma, utilizaremos la función hist() de R. Como sólo nos interesa visualizar la distribución de la variable session_duration_seconds, pasaremos el nombre de la columna a la función hist() para limitar la salida de la visualización a la variable de interés:

      `# Using hist() function in base graphics to make a histogramhistinfo=hist(sessions$session_duration_seconds, main="Histogram with Default Parameters")`

      R Histograma por defecto

      Puede personalizar aún más la apariencia de su histograma suministrando a la función hist() parámetros adicionales:

      `hist(sessions$session_duration_seconds, main="Adding grid lines and ticks", xlab="Session Duration (in seconds)", ylab= "Count", xlim=c(0,55), ylim=c(0, 49000), col="lightgrey")axis(4, labels=FALSE, col = "lightgrey", lty=2, tck=1)`

      R Histograma Styled

      También puede utilizar la funcionalidad nativa de creación de histogramas de ggplot2 para crear y estilizar histogramas en R con características adicionales como estimaciones de densidad del núcleo:

      `p <- ggplot(sessions, aes(x=session_duration_seconds)) + geom_histogram(aes(y=..density..), # Histogram with density instead of count on y-axis binwidth=2, colour="black", fill="white") + geom_density(alpha=.3, fill="#32CD32")p + labs(x = "Session Duration (in seconds)", y = "Density", title = "Density Curve using ggplot2") + coord_fixed(ratio = 100)ggsave("ggtest.png", p, width = 5, height = 8, dpi = 1200)`

      ggplot2 Histograma Styled

Dejar una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *