En este sitio encontrarás información relativa al manejo de técnicas de análisis de datos mediante el uso de paquetes estadísticos y lenguajes como R y Python. También hallarás cursos que te serán de utilidad para la gestión de datos.
Guías paso a paso con SPSS, R, Excel y JASP para análisis descriptivo, inferencial y multivariante.
Formación práctica en SPSS, AMOS, Power BI y Looker Studio para transformar datos en decisiones.
Artículos científicos revisados por pares en revistas especializadas de estadística.
Calcula el tamaño de muestra adecuado para tu investigación según el nivel de confianza, margen de error y tamaño de población.
Guías prácticas con SPSS, R, Excel y JASP · Estadística descriptiva, inferencial y multivariante
Aprende a calcular e interpretar los principales estadísticos descriptivos utilizando SPSS: medidas de tendencia central, dispersión y distribución.
¿Qué aprenderás? En este tutorial aprenderás a obtener estadísticos descriptivos básicos en SPSS y a interpretar correctamente cada uno de ellos. Al finalizar, serás capaz de describir cuantitativamente cualquier conjunto de datos.
Con tu base de datos abierta en SPSS, sigue estos pasos:
💡 También puedes acceder desde Analizar → Estadísticos descriptivos → Frecuencias… si deseas obtener tablas de distribución de frecuencias además de los estadísticos.
Menú Analizar → Estadísticos descriptivos → Descriptivos… en SPSS
En el cuadro de diálogo que se abre:
💡 Si marcas la opción "Guardar valores tipificados como variables", SPSS añadirá automáticamente los valores Z de cada variable a tu base de datos.
Cuadro de diálogo Descriptivos con lista de variables en SPSS
SPSS ofrece los siguientes estadísticos descriptivos. A continuación se explica qué mide cada uno y cómo interpretarlo:
SPSS presenta los resultados en el Visor de resultados en una tabla como la siguiente:
Tabla de estadísticos descriptivos generada por SPSS para la variable Edad
Ejemplo de interpretación: Para la variable Edad, se analizaron 303 casos válidos. La edad mínima registrada es 16 años y la máxima 48, con una media de 20,45 años y una desviación estándar de 4,43, lo que indica que los valores se concentran relativamente cerca de la media. La asimetría positiva de 2,662 señala que la distribución tiene una cola hacia la derecha: la mayoría de los participantes son jóvenes y hay pocos casos con edades más altas. La curtosis de 9,610 (leptocúrtica) indica una distribución muy puntiaguda, con una alta concentración de casos en torno a la media y colas más pesadas de lo esperado en una distribución normal.
📌 Recomendación: Antes de interpretar la media como medida representativa, verifica que la asimetría y la curtosis estén próximas a 0 (distribución aproximadamente normal). Si los valores son extremos, considera usar la mediana como medida de tendencia central más robusta.
Bologna, E. (2011). Estadística para Psicología y Educación. Brujas.
Rodríguez, E. (2009). Estadística: Medición, descripción e inferencia. Perspectivas Psicológicas, 6, 172-178. http://pepsic.bvsalud.org/pdf/pp/v6e7n10/a23.pdf
Triola, M. (2004). Estadística. Pearson Educación.
El Análisis de Componentes Principales es una técnica multivariante de reducción de la dimensionalidad que permite sintetizar un conjunto amplio de variables en un número menor de componentes, conservando la mayor proporción posible de varianza original.
¿Qué aprenderás? En este tutorial se explica qué es el Análisis de Componentes Principales, cuáles son sus objetivos, en qué se diferencia del Análisis Factorial Exploratorio, cómo se interpretan los componentes y cuáles son las fases para su correcta aplicación.
El Análisis de Componentes Principales (ACP) —conocido en inglés como Principal Component Analysis (PCA)— es una técnica multivariante cuyo objetivo es reducir un conjunto de variables en un número pequeño de componentes que expliquen la mayor proporción de varianza total posible en los datos. Es una de las primeras técnicas multivariantes en ser desarrolladas y continúa siendo ampliamente utilizada en la investigación cuantitativa.
Sus objetivos principales son:
El ACP suele confundirse con el Análisis Factorial Exploratorio (AFE), dado que ambas son técnicas de reducción de la dimensionalidad. Sin embargo, tienen objetivos distintos:
Los componentes generados por el ACP presentan las siguientes propiedades:
En esta fase se seleccionan los componentes a retener a partir de la varianza que explica cada uno. El criterio habitual consiste en conservar aquellos componentes que, en conjunto, expliquen un porcentaje de varianza considerado suficiente (generalmente entre el 60% y el 80% de la varianza total). El primer componente siempre recoge la proporción máxima posible de varianza; el segundo, la mayor varianza restante; y así sucesivamente.
La rotación de los ejes facilita la interpretación de los componentes. Existen dos tipos principales:
💡 Desde una perspectiva purista, la rotación de ejes es propia del Análisis Factorial. En el ACP se recurre a rotaciones ortogonales únicamente con fines interpretativos, no como parte del procedimiento estrictamente definido.
La representación gráfica de los componentes es necesaria para su interpretación. Se realiza por pares de componentes y permite visualizar el posicionamiento de las variables originales sobre cada eje —determinado por sus cargas factoriales o coordenadas factoriales— así como la posición de los casos —determinada por sus puntuaciones factoriales.
El cálculo de las puntuaciones factoriales proporciona a cada caso un valor en cada componente. Estas puntuaciones permiten representar los casos sobre los ejes, ofreciendo información sobre el comportamiento individual de cada observación tanto en los componentes como en las variables originales que correlacionan con ellos.
El ACP resulta especialmente útil cuando se dispone de un número elevado de variables que resulta complejo evaluar simultáneamente. Entre sus aplicaciones más frecuentes se encuentran:
A continuación se presenta el tutorial práctico en vídeo donde se aplica el ACP paso a paso en SPSS:
Catena, A., Ramos, M., & Trujillo, H. (2003). Análisis multivariado: un manual para investigadores. Biblioteca nueva.
Hair, J., Anderson, R., Tatham, R., & Black, W. (1999). Análisis multivariante. Prentice Hall.
Pardo, A. & Ruiz, M. (2005). Análisis de datos con SPSS 13 Base. McGraw-Hill.
Pia, L. (1986). Análisis multivariado: método de componentes principales. Secretaría general de la Organización de los Estados Americanos.
Transforma datos en decisiones estratégicas con nuestros cursos especializados. Ya sea que estés comenzando tu carrera en análisis de datos o busques perfeccionar tus habilidades, aquí encontrarás formación práctica en las plataformas más demandadas del mercado: SPSS para análisis estadístico avanzado, AMOS para modelado de ecuaciones estructurales, Looker Studio y Power BI para visualizaciones dinámicas y para inteligencia de negocios. Aprende a tu ritmo, con casos reales y proyectos aplicados que te prepararán para enfrentar desafíos profesionales desde el primer día.
Domina el análisis estadístico avanzado con SPSS: desde la gestión y depuración de datos hasta técnicas inferenciales y multivariantes aplicadas a casos reales.
Aprende a construir y evaluar modelos de ecuaciones estructurales (SEM) y técnicas multivariantes con SPSS y AMOS, con aplicaciones en investigación científica.
Crea dashboards interactivos y reportes de inteligencia de negocios con Power BI. Conecta fuentes de datos, diseña visualizaciones y comparte insights de manera efectiva.
Aprende a construir informes y dashboards dinámicos con Looker Studio (antes Data Studio), conectando múltiples fuentes de datos para comunicar resultados con claridad.
Aprende las principales técnicas de análisis multivariante implementadas en R, con aplicaciones prácticas en investigación y análisis de datos.
Investigaciones publicadas en revistas especializadas con revisión por pares · Estadística aplicada y metodología de investigación
Determina cuántas personas necesitas encuestar para que tus resultados sean estadísticamente significativos.
Esta herramienta te permite determinar cuántas personas necesitas encuestar o estudiar para que tus resultados sean estadísticamente significativos. Sigue estos pasos para obtener tu cálculo:
Una vez completados los campos, haz clic en el botón "Calcular".
El sistema te mostrará el número mínimo de participantes necesarios. Si el resultado es, por ejemplo, 384, significa que necesitas obtener respuestas válidas de al menos 384 personas para cumplir con tus parámetros de confianza y error.
Completa el formulario y me pondré en contacto contigo a la brevedad posible.
Respondo consultas sobre tutoriales, cursos, análisis de datos o cualquier duda estadística que tengas.
Gracias por escribir. Te responderé pronto a tu correo.
Explora todos los cursos disponibles en análisis de datos, SPSS, Power BI y más.
Ver cursos →Accede a guías paso a paso sobre estadística descriptiva, inferencial y multivariante.
Ver tutoriales →Estamos trabajando en esta sección. Vuelve pronto.
Esta sección está siendo desarrollada. En breve encontrarás aquí información sobre los servicios disponibles.
Conoce las escalas tradicionales de medición: nominal, ordinal, intervalo y razón, y comprende qué operaciones estadísticas son válidas en cada una.
El desarrollo de las escalas de medición se atribuye al psicólogo estadounidense Stanley Smith Stevens, en su artículo "On the Theory of Scales of Measurement", publicado el 7 de junio de 1946. Acceder al artículo original →
Antes de revisar los niveles de medición, es importante conocer dos términos fundamentales:
Es el nivel de medición más básico. Los números se emplean para clasificar objetos, propiedades o atributos; las variables tienen categorías que son nombres, de allí su denominación.
Ejemplos de variables nominales: tipos de hogar (unipersonal, monoparental, nuclear, extendido, compuesto), sexo (masculino, femenino), color de cabello, país de residencia.
Las categorías son excluyentes: un objeto no puede pertenecer a más de una categoría simultáneamente. La asignación de numerales es arbitraria — el número asignado no expresa la magnitud de una categoría. Que 2 sea mayor que 1 no tiene ningún significado en este nivel.
Ejemplo de variable nominal: Sexo (Femenino / Masculino)
Estadísticos admisibles: moda (medida de tendencia central), razón de variación (dispersión), frecuencias simples y relativas. No es correcto calcular la media aritmética en variables nominales.
En este nivel los números asignados a los objetos informan su orden en la variable que se mide. Las categorías respetan un orden, aunque no es posible determinar las diferencias entre ellas en términos numéricos.
Ejemplos: nivel socioeconómico (alto, medio, bajo), calificaciones (A, B, C, D, E). Se sabe que A es mayor que B y que E es menor que A, pero no es posible calcular la diferencia entre categorías ni realizar operaciones aritméticas con ellas.
Las variables ordinales ofrecen información sobre comparaciones relativas, pero no sobre la magnitud de las diferencias. La asignación de valores debe respetar el orden de las categorías.
Ejemplo de variable ordinal: Calificaciones (E, D, C, B, A)
Estadísticos admisibles: mediana (medida de tendencia central propia de este nivel), moda, frecuencias simples y relativas, desviación decil, rango intercuartílico y rango semi-intercuartílico (dispersión).
Este nivel posee las características de los niveles nominal y ordinal, con propiedades adicionales: permite determinar la magnitud de la distancia entre pares de valores y posee un cero relativo. Es una escala cuantitativa que admite suma y resta, pero no multiplicación ni división.
Para medir en una escala de intervalos se requieren unidades constantes e iguales. Por ejemplo, en una escala del 70 al 180, la distancia entre 70 y 80 es la misma que entre 90 y 100, y entre 150 y 160.
Ejemplos: temperatura (°C, °F, Kelvin), calendario, puntuaciones de pruebas psicológicas. El cero es relativo porque no implica ausencia del atributo: 0 °C no significa ausencia de temperatura, ni 0 puntos en una prueba de inteligencia indica ausencia de inteligencia.
Ejemplo de variable de intervalo: Puntuaciones C.I. en una escala de inteligencia
Estadísticos admisibles: media aritmética (medida de tendencia central propia de este nivel), moda, mediana, desviación estándar, rango y coeficiente de variación (dispersión).
Es el nivel más completo. Contiene todas las características de los niveles anteriores, pero a diferencia de la escala de intervalo, el cero es absoluto: implica la ausencia real del atributo que se mide.
Ejemplos: edad, ingresos mensuales, número de hijos, número de asistentes, altura, peso. Si una persona tiene ingresos de 60 USD y otra de 30 USD, es válido afirmar que la primera tiene el doble del atributo que la segunda.
El cero absoluto implica ausencia del atributo: 0 estudiantes en una clase significa que no hay nadie presente; 0 USD en la billetera significa que no hay dinero. En este nivel son válidas todas las operaciones aritméticas, incluidas multiplicación y división.
Ejemplo de variable de razón: Ingresos semanales en dólares
Estadísticos admisibles: todos los de los niveles anteriores. La medida de tendencia central propia de este nivel es la media geométrica, que expresa el promedio usando multiplicación en lugar de adición y no es sensible a valores extremos. También se admiten transformaciones logarítmicas.
| Nivel | Tipo | Categoriza | Ordena | Intervalos iguales | Cero absoluto |
|---|---|---|---|---|---|
| Nominal | Cualitativa | ✓ | — | — | — |
| Ordinal | Cualitativa | ✓ | ✓ | — | — |
| Intervalo | Cuantitativa | ✓ | ✓ | ✓ | — |
| Razón | Cuantitativa | ✓ | ✓ | ✓ | ✓ |
📌 Consideración importante: la manera como se decide medir una variable define su nivel de medida. Esta decisión determina qué operaciones estadísticas son válidas y qué información se puede extraer del análisis.
A continuación se presenta el tutorial en vídeo sobre los niveles de medición:
Bologna, E. (2011). Estadística para Psicología y Educación. Brujas.
Rodríguez, E. (2009). Estadística: Medición, descripción e inferencia. Perspectivas Psicológicas, 6, 172-178. http://pepsic.bvsalud.org/pdf/pp/v6e7n10/a23.pdf
Triola, M. (2004). Estadística. Pearson Educación.
Aplicación práctica del ACP con la librería psych de R, desde la exploración inicial hasta la interpretación de componentes y la representación gráfica.
¿Qué es el ACP? El Análisis de Componentes Principales es una técnica multivariante que tiene como objetivo reducir un conjunto de variables en un número pequeño de componentes que expliquen la mayor proporción de varianza total posible. Los componentes son ortogonales (no correlacionados), sintetizan la varianza de forma decreciente y constituyen combinaciones lineales de las variables originales.
Un investigador de mercados realizó un estudio con el objetivo de identificar las mejores y peores marcas de ropa en función de siete atributos: marca cara, de prestigio, con muchos complementos, exclusividad, elegante, vanguardista y de calidad. Se analizó una muestra de 20 marcas. Dado que evaluar 7 variables simultáneamente resulta complejo, se aplicó el ACP para reducir la dimensionalidad y facilitar la comparación.
Para aplicar el ACP se utilizará la librería psych. También se carga readxl para importar la base de datos desde Excel.
install.packages("psych") library(psych) library(readxl) # Importar la base de datos df <- read_excel("base_de_datos.xlsx")
La base de datos tiene 8 columnas: la primera (Marcas) es cualitativa e identifica cada marca de ropa; las 7 columnas restantes son los atributos cuantitativos medidos (Cara, De Calidad, Prestigiosa, Exclusiva, Elegante, Vanguardista y Complementos).
Base de datos: 20 marcas de ropa y 7 atributos cuantitativos
Se seleccionan únicamente las variables numéricas (columnas 2 a 8) para el análisis, excluyendo la primera columna (Marcas) por ser una variable cualitativa que no puede incluirse en el ACP.
# Almacenar solo las variables numéricas df_pca <- df[2:8] # Visualizar la base de datos modificada View(df_pca)
El gráfico de sedimentación permite determinar el número óptimo de componentes a retener. Se emplean dos criterios:
# Gráfico de sedimentación scree(df_pca)
💡 En el ejemplo, el gráfico muestra un codo después del componente 2 y ambos tienen autovalores mayores que 1. Ambos criterios coinciden en retener 2 componentes.
Scree plot generado con scree(df_pca): codo en el componente 2, ambos con autovalores > 1
Se utiliza la función principal() de la librería psych para extraer los componentes y obtener las cargas factoriales y puntuaciones de los casos.
# Aplicar el ACP con 2 componentes y solicitar puntuaciones factoriales pca <- principal(df_pca, nfactors = 2, scores = TRUE) # Ver resultados pca
Los resultados muestran que el primer componente explica el 41% de la varianza y el segundo el 35%. Juntos explican el 76% de la varianza total, porcentaje considerado adecuado para ciencias sociales (umbral mínimo recomendado: 60%). Las cargas factoriales oscilan entre -1 y 1 e indican la magnitud de la relación entre cada variable y cada componente.
Salida de principal(): cargas factoriales, autovalores y varianza explicada por cada componente
Se extraen las puntuaciones factoriales de cada marca y se añaden a la base de datos para generar un gráfico de dispersión que permita identificar las mejores y peores marcas.
# Extraer puntuaciones factoriales scores <- data.frame(pca$scores) # Añadir puntuaciones a la base de datos df_pca <- data.frame(df_pca, scores) # Gráfico de dispersión (componente 1 en eje x, componente 2 en eje y) plot(df_pca$RC1, df_pca$RC2, main = "Componentes 1 y 2", xlab = "Estilo Exclusivo y de Prestigio", ylab = "Calidad y Estilo Elegante") # Líneas de referencia en el origen abline(h = 0, v = 0) # Etiquetar los puntos con los nombres de las marcas text(df_pca$RC1, df_pca$RC2, labels = df$Marcas, cex = 0.7)
Gráfico de dispersión: posicionamiento de las 20 marcas de ropa en los dos componentes extraídos
💡 Lectura del gráfico: En el eje x (componente 1), Moschino y Versace son las marcas con mayor estilo exclusivo y prestigio, mientras que Escorpion y Rodier se ubican en el extremo opuesto. En el eje y (componente 2), Chanel, Loewe y Armani destacan en calidad y elegancia, mientras que Benetton es la peor posicionada. Las marcas cercanas al origen presentan un perfil neutro o promedio.
Las contribuciones absolutas y relativas ofrecen un método más objetivo para seleccionar las variables relevantes en la interpretación de cada componente. Se calculan a partir de las cargas factoriales mediante la función ARC(), disponible en un paquete personalizado en GitHub.
# Extraer y almacenar las cargas factoriales cargas <- data.frame(pca$loadings[, 1:2]) # Instalar el paquete ARC desde GitHub install.packages("https://github.com/alaclc/absoluteandrelativecontributions/raw/main/ARC_1.0.0.tar.gz", repos = NULL, type = "source") library(ARC) # Calcular contribuciones absolutas y relativas ARC(cargas)
Contribuciones absolutas y relativas (calidad de representación) obtenidas con ARC(cargas)
Finalmente, se añaden las puntuaciones factoriales a la base de datos original y se exporta como archivo CSV para su uso en análisis posteriores (por ejemplo, Análisis de Clúster).
# Añadir puntuaciones factoriales a la base de datos original df$puntajes <- data.frame(scores) # Exportar a CSV write.csv(df, "Base de Datos.csv")
📌 Requisitos para aplicar el ACP: (1) la matriz de datos debe ser rectangular, es decir, debe haber más casos que variables; (2) las variables a analizar deben ser cuantitativas.
Aldás, J. & Uriel, E. (2017). Análisis multivariante aplicado con R. Ediciones Paraninfo.
Pia, L. (1986). Análisis multivariado: método de componentes principales. Secretaría General de la Organización de los Estados Americanos.