Domina el análisis de datos estadísticos

En este sitio encontrarás información relativa al manejo de técnicas de análisis de datos mediante el uso de paquetes estadísticos y lenguajes como R y Python. También hallarás cursos que te serán de utilidad para la gestión de datos.

Herramientas disponibles
SPSS R Excel JASP Python
4+
Herramientas cubiertas
3
Niveles de aprendizaje
9+
Tutoriales disponibles
Conocimiento libre
Todo lo que necesitas para aprender estadística
📊

Tutoriales

Guías paso a paso con SPSS, R, Excel y JASP para análisis descriptivo, inferencial y multivariante.

🎓

Cursos

Formación práctica en SPSS, AMOS, Power BI y Looker Studio para transformar datos en decisiones.

📄

Publicaciones

Artículos científicos revisados por pares en revistas especializadas de estadística.

🧮

Calculadora

Calcula el tamaño de muestra adecuado para tu investigación según el nivel de confianza, margen de error y tamaño de población.

Aprende también en YouTube

Tutoriales en vídeo, explicaciones visuales y ejemplos prácticos en nuestro canal.

Aprende análisis de datos

Guías prácticas con SPSS, R, Excel y JASP · Estadística descriptiva, inferencial y multivariante

📊 Estadística Descriptiva

4 tutoriales
SPSS

Estadística Descriptiva en SPSS

Teoría

Niveles de Medición

Excel

Estadística Descriptiva en Excel

R

Estadística Descriptiva en R

📈 Estadística Inferencial

3 tutoriales
SPSS

Estadística Inferencial en SPSS

R

Estadística Inferencial en R

JASP

Estadística Inferencial en JASP

🔬 Análisis Multivariante

4 tutoriales
SPSS

Análisis de Componentes Principales (ACP)

R

Análisis de Componentes Principales (ACP) en R

Teoría + SPSS

Análisis Univariante

Teoría + SPSS

Análisis Bivariante

R

Técnicas Multivariantes

← Tutoriales / Estadística Descriptiva en SPSS
SPSS

Estadística Descriptiva en SPSS

Aprende a calcular e interpretar los principales estadísticos descriptivos utilizando SPSS: medidas de tendencia central, dispersión y distribución.

¿Qué aprenderás? En este tutorial aprenderás a obtener estadísticos descriptivos básicos en SPSS y a interpretar correctamente cada uno de ellos. Al finalizar, serás capaz de describir cuantitativamente cualquier conjunto de datos.

1. Acceder al menú de estadísticos descriptivos

Con tu base de datos abierta en SPSS, sigue estos pasos:

  1. En la barra de menú superior, haz clic en Analizar.
  2. Selecciona Estadísticos descriptivos.
  3. Haz clic en Descriptivos…

💡 También puedes acceder desde Analizar → Estadísticos descriptivos → Frecuencias… si deseas obtener tablas de distribución de frecuencias además de los estadísticos.

Menú Analizar → Estadísticos descriptivos → Descriptivos… en SPSS

Menú Analizar → Estadísticos descriptivos → Descriptivos… en SPSS

2. Seleccionar las variables y estadísticos

En el cuadro de diálogo que se abre:

  1. Selecciona las variables numéricas que deseas analizar desde el panel izquierdo y pásalas al panel de Variables usando la flecha central.
  2. Haz clic en el botón Opciones… para elegir qué estadísticos calcular.
  3. Marca los estadísticos deseados (ver sección siguiente) y haz clic en Continuar.
  4. Haz clic en Aceptar para ejecutar el análisis.

💡 Si marcas la opción "Guardar valores tipificados como variables", SPSS añadirá automáticamente los valores Z de cada variable a tu base de datos.

Cuadro de diálogo Descriptivos con lista de variables en SPSS

Cuadro de diálogo Descriptivos con lista de variables en SPSS

3. Estadísticos disponibles e interpretación

SPSS ofrece los siguientes estadísticos descriptivos. A continuación se explica qué mide cada uno y cómo interpretarlo:

📌 Medidas de tendencia central

Media
Es el promedio aritmético de todos los valores. Se interpreta como el valor "típico" del conjunto de datos. Es sensible a valores extremos (atípicos). Por ejemplo, si la media de edad es 35, el promedio de edad del grupo es 35 años.
Mediana
Es el valor central cuando los datos están ordenados. El 50% de los casos se encuentra por debajo y el otro 50% por encima. Es más robusta que la media ante valores atípicos. Si la mediana salarial es 800 USD, la mitad del grupo gana menos y la otra mitad más.
Moda
Es el valor que aparece con mayor frecuencia. Puede haber más de una moda (distribución bimodal o multimodal). Es la única medida de tendencia central aplicable a variables nominales.

📌 Medidas de dispersión

Desviación típica
Indica cuánto se alejan, en promedio, los valores de la media. Una desviación típica baja indica que los datos están concentrados cerca de la media; una alta indica mayor dispersión. Por ejemplo, si la media es 50 y la desviación es 5, la mayoría de los valores se ubican entre 45 y 55.
Varianza
Es el cuadrado de la desviación típica. Representa la dispersión promedio al cuadrado. Se utiliza principalmente en cálculos estadísticos; para interpretación directa es preferible la desviación típica ya que está en las mismas unidades que los datos originales.
Rango
Es la diferencia entre el valor máximo y el mínimo. Ofrece una idea rápida de la amplitud de los datos, pero es muy sensible a valores extremos. Si el rango de edades es 40 (de 20 a 60 años), la amplitud del grupo es de 4 décadas.
Mínimo / Máximo
Son los valores más bajo y más alto de la distribución. Son útiles para detectar posibles errores de captura o valores atípicos que pueden distorsionar los análisis.

📌 Medidas de distribución

Asimetría
Indica si la distribución de los datos está sesgada hacia la izquierda o la derecha. Un valor cercano a 0 indica simetría. Un valor positivo indica que hay una cola hacia la derecha (los datos se concentran en valores bajos). Un valor negativo indica cola hacia la izquierda.
Curtosis
Indica qué tan "puntiaguda" o "achatada" es la distribución en comparación con una distribución normal. Un valor de 0 corresponde a una distribución normal (mesocúrtica). Valores positivos indican distribución más puntiaguda (leptocúrtica); valores negativos, más achatada (platicúrtica).

4. Cómo leer la tabla de resultados

SPSS presenta los resultados en el Visor de resultados en una tabla como la siguiente:

Tabla de estadísticos descriptivos en SPSS

Tabla de estadísticos descriptivos generada por SPSS para la variable Edad

Ejemplo de interpretación: Para la variable Edad, se analizaron 303 casos válidos. La edad mínima registrada es 16 años y la máxima 48, con una media de 20,45 años y una desviación estándar de 4,43, lo que indica que los valores se concentran relativamente cerca de la media. La asimetría positiva de 2,662 señala que la distribución tiene una cola hacia la derecha: la mayoría de los participantes son jóvenes y hay pocos casos con edades más altas. La curtosis de 9,610 (leptocúrtica) indica una distribución muy puntiaguda, con una alta concentración de casos en torno a la media y colas más pesadas de lo esperado en una distribución normal.

📌 Recomendación: Antes de interpretar la media como medida representativa, verifica que la asimetría y la curtosis estén próximas a 0 (distribución aproximadamente normal). Si los valores son extremos, considera usar la mediana como medida de tendencia central más robusta.

Referencias

Bologna, E. (2011). Estadística para Psicología y Educación. Brujas.

Rodríguez, E. (2009). Estadística: Medición, descripción e inferencia. Perspectivas Psicológicas, 6, 172-178. http://pepsic.bvsalud.org/pdf/pp/v6e7n10/a23.pdf

Triola, M. (2004). Estadística. Pearson Educación.

← Tutoriales / Análisis Multivariante / Análisis de Componentes Principales
SPSS

Análisis de Componentes Principales (ACP)

El Análisis de Componentes Principales es una técnica multivariante de reducción de la dimensionalidad que permite sintetizar un conjunto amplio de variables en un número menor de componentes, conservando la mayor proporción posible de varianza original.

¿Qué aprenderás? En este tutorial se explica qué es el Análisis de Componentes Principales, cuáles son sus objetivos, en qué se diferencia del Análisis Factorial Exploratorio, cómo se interpretan los componentes y cuáles son las fases para su correcta aplicación.

¿Qué es el Análisis de Componentes Principales?

El Análisis de Componentes Principales (ACP) —conocido en inglés como Principal Component Analysis (PCA)— es una técnica multivariante cuyo objetivo es reducir un conjunto de variables en un número pequeño de componentes que expliquen la mayor proporción de varianza total posible en los datos. Es una de las primeras técnicas multivariantes en ser desarrolladas y continúa siendo ampliamente utilizada en la investigación cuantitativa.

Sus objetivos principales son:

1
Generar nuevas variables a partir de las existentes que reproduzcan la información contenida en las originales. Estas nuevas variables, denominadas componentes, son combinaciones lineales de las variables originales.
2
Reducir la dimensionalidad del fenómeno estudiado, facilitando su análisis e interpretación.
3
Suprimir variables originales que aportan poca información al conjunto de datos.

ACP vs. Análisis Factorial Exploratorio

El ACP suele confundirse con el Análisis Factorial Exploratorio (AFE), dado que ambas son técnicas de reducción de la dimensionalidad. Sin embargo, tienen objetivos distintos:

📐 ACP
  • Trabaja con la varianza total de las variables.
  • Orientado a reducir dimensionalidad y crear índices.
  • La interpretación de los componentes es de naturaleza estadística.
  • No asume estructuras latentes subyacentes.
🔍 Análisis Factorial Exploratorio
  • Divide la varianza en común, específica y de error.
  • Orientado a identificar constructos latentes (inteligencia, motivación, ansiedad…).
  • La interpretación de los factores es teórico-conceptual.
  • Más vinculado a la teoría de la medición.

Características de los componentes

Los componentes generados por el ACP presentan las siguientes propiedades:

Ortogonalidad
Los componentes son independientes entre sí, es decir, no están correlacionados.
Síntesis decreciente
El primer componente recoge la máxima varianza posible; el segundo, la mayor varianza restante; y así sucesivamente.
Combinación lineal
Cada componente es una combinación lineal ponderada de las variables originales.

Fases para aplicar un ACP

Fase 1 · Selección de los componentes principales

En esta fase se seleccionan los componentes a retener a partir de la varianza que explica cada uno. El criterio habitual consiste en conservar aquellos componentes que, en conjunto, expliquen un porcentaje de varianza considerado suficiente (generalmente entre el 60% y el 80% de la varianza total). El primer componente siempre recoge la proporción máxima posible de varianza; el segundo, la mayor varianza restante; y así sucesivamente.

Fase 2 · Rotación de los ejes

La rotación de los ejes facilita la interpretación de los componentes. Existen dos tipos principales:

Rotaciones ortogonales
Asumen que los componentes son independientes entre sí. Las más utilizadas son Varimax —que maximiza la varianza de los componentes, produciendo cargas altas con algunas variables y bajas con otras— y Quartimax —que simplifica las filas de la matriz, haciendo que cada variable cargue fuerte en pocos componentes.
Rotaciones oblicuas
Asumen que los componentes pueden estar correlacionados. Se aplican cuando las rotaciones ortogonales no logran simplificar suficientemente la solución, aunque la interpretación resultante es más compleja.

💡 Desde una perspectiva purista, la rotación de ejes es propia del Análisis Factorial. En el ACP se recurre a rotaciones ortogonales únicamente con fines interpretativos, no como parte del procedimiento estrictamente definido.

Fase 3 · Representación gráfica

La representación gráfica de los componentes es necesaria para su interpretación. Se realiza por pares de componentes y permite visualizar el posicionamiento de las variables originales sobre cada eje —determinado por sus cargas factoriales o coordenadas factoriales— así como la posición de los casos —determinada por sus puntuaciones factoriales.

Fase 4 · Cálculo de las puntuaciones factoriales

El cálculo de las puntuaciones factoriales proporciona a cada caso un valor en cada componente. Estas puntuaciones permiten representar los casos sobre los ejes, ofreciendo información sobre el comportamiento individual de cada observación tanto en los componentes como en las variables originales que correlacionan con ellos.

Requisitos para aplicar un ACP

Matriz de datos rectangular: debe haber más casos que variables en la base de datos.
Variables cuantitativas: todas las variables a analizar deben ser de naturaleza numérica continua.

¿Cuándo se utiliza el ACP?

El ACP resulta especialmente útil cuando se dispone de un número elevado de variables que resulta complejo evaluar simultáneamente. Entre sus aplicaciones más frecuentes se encuentran:

Tutorial en vídeo

A continuación se presenta el tutorial práctico en vídeo donde se aplica el ACP paso a paso en SPSS:

Tutorial ACP en SPSS

▶ Ver en YouTube — Análisis de Componentes Principales en SPSS

Haz clic para ver el tutorial completo en YouTube

Referencias

Catena, A., Ramos, M., & Trujillo, H. (2003). Análisis multivariado: un manual para investigadores. Biblioteca nueva.

Hair, J., Anderson, R., Tatham, R., & Black, W. (1999). Análisis multivariante. Prentice Hall.

Pardo, A. & Ruiz, M. (2005). Análisis de datos con SPSS 13 Base. McGraw-Hill.

Pia, L. (1986). Análisis multivariado: método de componentes principales. Secretaría general de la Organización de los Estados Americanos.

Transforma datos en decisiones estratégicas

Transforma datos en decisiones estratégicas con nuestros cursos especializados. Ya sea que estés comenzando tu carrera en análisis de datos o busques perfeccionar tus habilidades, aquí encontrarás formación práctica en las plataformas más demandadas del mercado: SPSS para análisis estadístico avanzado, AMOS para modelado de ecuaciones estructurales, Looker Studio y Power BI para visualizaciones dinámicas y para inteligencia de negocios. Aprende a tu ritmo, con casos reales y proyectos aplicados que te prepararán para enfrentar desafíos profesionales desde el primer día.

📊
Estadística · SPSS

Gestión y Análisis de Datos con SPSS

Domina el análisis estadístico avanzado con SPSS: desde la gestión y depuración de datos hasta técnicas inferenciales y multivariantes aplicadas a casos reales.

🔗
Modelado · SPSS & AMOS

Introducción al Análisis Multivariante con SPSS y AMOS

Aprende a construir y evaluar modelos de ecuaciones estructurales (SEM) y técnicas multivariantes con SPSS y AMOS, con aplicaciones en investigación científica.

Visualización · Power BI

Aprende Power BI desde Cero

Crea dashboards interactivos y reportes de inteligencia de negocios con Power BI. Conecta fuentes de datos, diseña visualizaciones y comparte insights de manera efectiva.

📊
Visualización · Looker Studio

Introducción a Looker Studio

Aprende a construir informes y dashboards dinámicos con Looker Studio (antes Data Studio), conectando múltiples fuentes de datos para comunicar resultados con claridad.

📐
Análisis Multivariante · R

Introducción al Análisis Multivariante con R

Aprende las principales técnicas de análisis multivariante implementadas en R, con aplicaciones prácticas en investigación y análisis de datos.

🐍
Programación · Python

Análisis de Datos con Python y Pandas

Manipulación de datos, estadística descriptiva e inferencial con Python y Pandas.

Artículos en revistas científicas

Investigaciones publicadas en revistas especializadas con revisión por pares · Estadística aplicada y metodología de investigación

Dialnet
Revista Salud de los Trabajadores
Validación de un instrumento para evaluar factores psicosociales intralaborales en una muestra de trabajadores venezolanos
Factores Psicosociales Validación Trabajadores Venezolanos Intralaboral
Ver publicación →
Dialnet
Revista Salud de los Trabajadores
Validación de la escala de factores psicosociales en el teletrabajo en trabajadores latinoamericanos
Teletrabajo Factores Psicosociales Validación América Latina
Ver publicación →
Medigraphic
Revista Cubana de Salud y Trabajo
Descripción de los factores psicosociales intralaborales en un grupo de trabajadores venezolanos del sector telecomunicaciones
Telecomunicaciones Factores Psicosociales Salud Ocupacional Venezuela
Ver publicación →
Dialnet
Revista Salud de los Trabajadores
Emociones, resiliencia y salud autopercibida en trabajadores venezolanos en tiempos de pandemia por COVID-19
COVID-19 Resiliencia Salud Autopercibida Pandemia
Ver publicación →
Dialnet
Revista Salud de los Trabajadores
Validación de un instrumento para evaluar factores psicosociales extralaborales en trabajadores venezolanos
Factores Psicosociales Extralaboral Validación Trabajadores Venezolanos
Ver publicación →

Calculadora Tamaño Muestral

Determina cuántas personas necesitas encuestar para que tus resultados sean estadísticamente significativos.

📋

Instrucciones

Esta herramienta te permite determinar cuántas personas necesitas encuestar o estudiar para que tus resultados sean estadísticamente significativos. Sigue estos pasos para obtener tu cálculo:

1
Ingresa los Datos de tu Estudio
  • Tamaño de la Población: introduce el número total de personas en el grupo que deseas estudiar (por ejemplo, el número total de empleados de una empresa o habitantes de una ciudad). Si no conoces el tamaño exacto o es una población extremadamente grande, deja este campo en blanco. La calculadora aplicará automáticamente la fórmula para poblaciones infinitas.
  • Nivel de Confianza: indica qué tan seguro quieres estar de que los resultados de tu muestra representen a la población real. Los valores más comunes son 95% o 99%.
  • Margen de Error: es el porcentaje de variación que permites en tus resultados. Un margen del 5% es el más utilizado. Cuanto menor sea este número, más grande deberá ser tu muestra.
2
Realiza el Cálculo

Una vez completados los campos, haz clic en el botón "Calcular".

3
Interpreta el Resultado

El sistema te mostrará el número mínimo de participantes necesarios. Si el resultado es, por ejemplo, 384, significa que necesitas obtener respuestas válidas de al menos 384 personas para cumplir con tus parámetros de confianza y error.

🧮

Calculadora

¿Tienes alguna pregunta?

Completa el formulario y me pondré en contacto contigo a la brevedad posible.

Envíame un mensaje

Respondo consultas sobre tutoriales, cursos, análisis de datos o cualquier duda estadística que tengas.

🔒 Tu información es privada y no será compartida con terceros.

¡Mensaje enviado!

Gracias por escribir. Te responderé pronto a tu correo.

🎓

Cursos en Udemy

Explora todos los cursos disponibles en análisis de datos, SPSS, Power BI y más.

Ver cursos →
📊

Tutoriales gratuitos

Accede a guías paso a paso sobre estadística descriptiva, inferencial y multivariante.

Ver tutoriales →

¿Prefieres aprender en vídeo?

Visita el canal de YouTube con tutoriales prácticos de SPSS, R, Excel y JASP.

▶ Ir al canal →

Próximamente

Estamos trabajando en esta sección. Vuelve pronto.

🚧

Página en construcción

Esta sección está siendo desarrollada. En breve encontrarás aquí información sobre los servicios disponibles.

← Tutoriales / Niveles de Medición
Teoría · Estadística

Niveles de Medición

Conoce las escalas tradicionales de medición: nominal, ordinal, intervalo y razón, y comprende qué operaciones estadísticas son válidas en cada una.

El desarrollo de las escalas de medición se atribuye al psicólogo estadounidense Stanley Smith Stevens, en su artículo "On the Theory of Scales of Measurement", publicado el 7 de junio de 1946. Acceder al artículo original →

Conceptos previos

Antes de revisar los niveles de medición, es importante conocer dos términos fundamentales:

Variable
Todo atributo, rasgo u objeto que puede asumir diferentes valores. Es algo que varía, que no es constante. Ejemplos: edad, distancia en metros, número de hijos, ingresos mensuales.
Medir
Asignación de números a objetos, propiedades o atributos siguiendo ciertas reglas. El nivel de medida de una variable está determinado por el significado que tienen los numerales asignados a sus categorías.

1. Nivel de Medida Nominal

Es el nivel de medición más básico. Los números se emplean para clasificar objetos, propiedades o atributos; las variables tienen categorías que son nombres, de allí su denominación.

Ejemplos de variables nominales: tipos de hogar (unipersonal, monoparental, nuclear, extendido, compuesto), sexo (masculino, femenino), color de cabello, país de residencia.

Las categorías son excluyentes: un objeto no puede pertenecer a más de una categoría simultáneamente. La asignación de numerales es arbitraria — el número asignado no expresa la magnitud de una categoría. Que 2 sea mayor que 1 no tiene ningún significado en este nivel.

Ejemplo de variable nominal: Sexo (Femenino / Masculino)

Ejemplo de variable nominal: Sexo (Femenino / Masculino)

Estadísticos admisibles: moda (medida de tendencia central), razón de variación (dispersión), frecuencias simples y relativas. No es correcto calcular la media aritmética en variables nominales.

2. Nivel de Medida Ordinal

En este nivel los números asignados a los objetos informan su orden en la variable que se mide. Las categorías respetan un orden, aunque no es posible determinar las diferencias entre ellas en términos numéricos.

Ejemplos: nivel socioeconómico (alto, medio, bajo), calificaciones (A, B, C, D, E). Se sabe que A es mayor que B y que E es menor que A, pero no es posible calcular la diferencia entre categorías ni realizar operaciones aritméticas con ellas.

Las variables ordinales ofrecen información sobre comparaciones relativas, pero no sobre la magnitud de las diferencias. La asignación de valores debe respetar el orden de las categorías.

Ejemplo de variable ordinal: Calificaciones (E, D, C, B, A)

Ejemplo de variable ordinal: Calificaciones (E, D, C, B, A)

Estadísticos admisibles: mediana (medida de tendencia central propia de este nivel), moda, frecuencias simples y relativas, desviación decil, rango intercuartílico y rango semi-intercuartílico (dispersión).

3. Nivel de Medida de Intervalo

Este nivel posee las características de los niveles nominal y ordinal, con propiedades adicionales: permite determinar la magnitud de la distancia entre pares de valores y posee un cero relativo. Es una escala cuantitativa que admite suma y resta, pero no multiplicación ni división.

Para medir en una escala de intervalos se requieren unidades constantes e iguales. Por ejemplo, en una escala del 70 al 180, la distancia entre 70 y 80 es la misma que entre 90 y 100, y entre 150 y 160.

Ejemplos: temperatura (°C, °F, Kelvin), calendario, puntuaciones de pruebas psicológicas. El cero es relativo porque no implica ausencia del atributo: 0 °C no significa ausencia de temperatura, ni 0 puntos en una prueba de inteligencia indica ausencia de inteligencia.

Ejemplo de variable de intervalo: Puntuaciones en una escala (70-180)

Ejemplo de variable de intervalo: Puntuaciones C.I. en una escala de inteligencia

Estadísticos admisibles: media aritmética (medida de tendencia central propia de este nivel), moda, mediana, desviación estándar, rango y coeficiente de variación (dispersión).

4. Nivel de Medida de Razón

Es el nivel más completo. Contiene todas las características de los niveles anteriores, pero a diferencia de la escala de intervalo, el cero es absoluto: implica la ausencia real del atributo que se mide.

Ejemplos: edad, ingresos mensuales, número de hijos, número de asistentes, altura, peso. Si una persona tiene ingresos de 60 USD y otra de 30 USD, es válido afirmar que la primera tiene el doble del atributo que la segunda.

El cero absoluto implica ausencia del atributo: 0 estudiantes en una clase significa que no hay nadie presente; 0 USD en la billetera significa que no hay dinero. En este nivel son válidas todas las operaciones aritméticas, incluidas multiplicación y división.

Ejemplo de variable de razón: Puntuaciones en escala de 0 a 110 con cero absoluto

Ejemplo de variable de razón: Ingresos semanales en dólares

Estadísticos admisibles: todos los de los niveles anteriores. La medida de tendencia central propia de este nivel es la media geométrica, que expresa el promedio usando multiplicación en lugar de adición y no es sensible a valores extremos. También se admiten transformaciones logarítmicas.

Tabla resumen

Nivel Tipo Categoriza Ordena Intervalos iguales Cero absoluto
Nominal Cualitativa
Ordinal Cualitativa
Intervalo Cuantitativa
Razón Cuantitativa

📌 Consideración importante: la manera como se decide medir una variable define su nivel de medida. Esta decisión determina qué operaciones estadísticas son válidas y qué información se puede extraer del análisis.

Video tutorial

A continuación se presenta el tutorial en vídeo sobre los niveles de medición:

Tutorial Niveles de Medición

▶ Ver en YouTube — Niveles de Medición

Haz clic para ver el tutorial completo en YouTube

Referencias

Bologna, E. (2011). Estadística para Psicología y Educación. Brujas.

Rodríguez, E. (2009). Estadística: Medición, descripción e inferencia. Perspectivas Psicológicas, 6, 172-178. http://pepsic.bvsalud.org/pdf/pp/v6e7n10/a23.pdf

Triola, M. (2004). Estadística. Pearson Educación.

← Tutoriales / Análisis Multivariante / Análisis de Componentes Principales en R
R

Análisis de Componentes Principales (ACP) en R

Aplicación práctica del ACP con la librería psych de R, desde la exploración inicial hasta la interpretación de componentes y la representación gráfica.

¿Qué es el ACP? El Análisis de Componentes Principales es una técnica multivariante que tiene como objetivo reducir un conjunto de variables en un número pequeño de componentes que expliquen la mayor proporción de varianza total posible. Los componentes son ortogonales (no correlacionados), sintetizan la varianza de forma decreciente y constituyen combinaciones lineales de las variables originales.

Caso práctico

Un investigador de mercados realizó un estudio con el objetivo de identificar las mejores y peores marcas de ropa en función de siete atributos: marca cara, de prestigio, con muchos complementos, exclusividad, elegante, vanguardista y de calidad. Se analizó una muestra de 20 marcas. Dado que evaluar 7 variables simultáneamente resulta complejo, se aplicó el ACP para reducir la dimensionalidad y facilitar la comparación.

1. Instalación y carga de librerías

Para aplicar el ACP se utilizará la librería psych. También se carga readxl para importar la base de datos desde Excel.

install.packages("psych")
library(psych)
library(readxl)

# Importar la base de datos
df <- read_excel("base_de_datos.xlsx")

La base de datos tiene 8 columnas: la primera (Marcas) es cualitativa e identifica cada marca de ropa; las 7 columnas restantes son los atributos cuantitativos medidos (Cara, De Calidad, Prestigiosa, Exclusiva, Elegante, Vanguardista y Complementos).

Base de datos: 20 marcas de ropa y 7 atributos cuantitativos

Base de datos: 20 marcas de ropa y 7 atributos cuantitativos

2. Preparación de los datos

Se seleccionan únicamente las variables numéricas (columnas 2 a 8) para el análisis, excluyendo la primera columna (Marcas) por ser una variable cualitativa que no puede incluirse en el ACP.

# Almacenar solo las variables numéricas
df_pca <- df[2:8]

# Visualizar la base de datos modificada
View(df_pca)

3. Gráfico de sedimentación (Scree Plot)

El gráfico de sedimentación permite determinar el número óptimo de componentes a retener. Se emplean dos criterios:

Scree Test
Se retienen los componentes situados antes del "codo" en el gráfico, punto donde la varianza empieza a estabilizarse.
Regla de Kaiser
Se retienen únicamente los componentes con autovalores mayores que 1. El autovalor expresa la cantidad de varianza que puede explicar un componente.
# Gráfico de sedimentación
scree(df_pca)

💡 En el ejemplo, el gráfico muestra un codo después del componente 2 y ambos tienen autovalores mayores que 1. Ambos criterios coinciden en retener 2 componentes.

Scree plot generado con scree(df_pca): codo en el componente 2, ambos con autovalores > 1

Scree plot generado con scree(df_pca): codo en el componente 2, ambos con autovalores > 1

4. Aplicación del ACP

Se utiliza la función principal() de la librería psych para extraer los componentes y obtener las cargas factoriales y puntuaciones de los casos.

# Aplicar el ACP con 2 componentes y solicitar puntuaciones factoriales
pca <- principal(df_pca, nfactors = 2, scores = TRUE)

# Ver resultados
pca

Los resultados muestran que el primer componente explica el 41% de la varianza y el segundo el 35%. Juntos explican el 76% de la varianza total, porcentaje considerado adecuado para ciencias sociales (umbral mínimo recomendado: 60%). Las cargas factoriales oscilan entre -1 y 1 e indican la magnitud de la relación entre cada variable y cada componente.

Salida de principal(): cargas factoriales, autovalores y varianza explicada por cada componente

Salida de principal(): cargas factoriales, autovalores y varianza explicada por cada componente

5. Interpretación de los componentes

Componente 1 — Estilo Exclusivo y de Prestigio

Todas las variables, excepto Elegante, presentan cargas factoriales positivas moderadas a altas en este componente. Esto indica que las marcas con mayores puntuaciones en vanguardia, exclusividad, prestigio, complementos, precio y calidad alcanzan puntuaciones altas en este componente. Captura atributos relacionados con la percepción de lujo, estatus e innovación.

Componente 2 — Calidad y Estilo Elegante

Las variables Elegante y De Calidad cargan alto en este componente, junto con correlaciones moderadas de Exclusiva, Prestigiosa y Complementos. Refleja la calidad de los productos, la elegancia del diseño y el buen gusto, independientemente del precio o estatus social.

6. Puntuaciones factoriales y gráfico de dispersión

Se extraen las puntuaciones factoriales de cada marca y se añaden a la base de datos para generar un gráfico de dispersión que permita identificar las mejores y peores marcas.

# Extraer puntuaciones factoriales
scores <- data.frame(pca$scores)

# Añadir puntuaciones a la base de datos
df_pca <- data.frame(df_pca, scores)

# Gráfico de dispersión (componente 1 en eje x, componente 2 en eje y)
plot(df_pca$RC1, df_pca$RC2,
     main = "Componentes 1 y 2",
     xlab = "Estilo Exclusivo y de Prestigio",
     ylab = "Calidad y Estilo Elegante")

# Líneas de referencia en el origen
abline(h = 0, v = 0)

# Etiquetar los puntos con los nombres de las marcas
text(df_pca$RC1, df_pca$RC2, labels = df$Marcas, cex = 0.7)
Gráfico de dispersión: posicionamiento de las 20 marcas de ropa en los dos componentes extraídos

Gráfico de dispersión: posicionamiento de las 20 marcas de ropa en los dos componentes extraídos

💡 Lectura del gráfico: En el eje x (componente 1), Moschino y Versace son las marcas con mayor estilo exclusivo y prestigio, mientras que Escorpion y Rodier se ubican en el extremo opuesto. En el eje y (componente 2), Chanel, Loewe y Armani destacan en calidad y elegancia, mientras que Benetton es la peor posicionada. Las marcas cercanas al origen presentan un perfil neutro o promedio.

7. Contribuciones absolutas y relativas

Las contribuciones absolutas y relativas ofrecen un método más objetivo para seleccionar las variables relevantes en la interpretación de cada componente. Se calculan a partir de las cargas factoriales mediante la función ARC(), disponible en un paquete personalizado en GitHub.

# Extraer y almacenar las cargas factoriales
cargas <- data.frame(pca$loadings[, 1:2])

# Instalar el paquete ARC desde GitHub
install.packages("https://github.com/alaclc/absoluteandrelativecontributions/raw/main/ARC_1.0.0.tar.gz",
                 repos = NULL, type = "source")
library(ARC)

# Calcular contribuciones absolutas y relativas
ARC(cargas)

Contribuciones absolutas

La suma de contribuciones por columna siempre es 100%. Se seleccionan las variables con contribución superior a la media (100 ÷ número de variables = 14,29% en este caso). En el componente 1 destacan: Vanguardista, Exclusiva, Prestigiosa y Complementos. En el componente 2: Elegante y De Calidad.

Contribuciones relativas (calidad de representación)

La suma de valores por variable es 1. Valores ≥ 0,30 se consideran adecuados. Una variable puede tener contribución absoluta baja pero buena calidad de representación, en cuyo caso también se incluye en la interpretación del componente correspondiente.
Contribuciones absolutas y relativas de cada variable en los dos componentes

Contribuciones absolutas y relativas (calidad de representación) obtenidas con ARC(cargas)

8. Exportar la base de datos con puntuaciones factoriales

Finalmente, se añaden las puntuaciones factoriales a la base de datos original y se exporta como archivo CSV para su uso en análisis posteriores (por ejemplo, Análisis de Clúster).

# Añadir puntuaciones factoriales a la base de datos original
df$puntajes <- data.frame(scores)

# Exportar a CSV
write.csv(df, "Base de Datos.csv")

📌 Requisitos para aplicar el ACP: (1) la matriz de datos debe ser rectangular, es decir, debe haber más casos que variables; (2) las variables a analizar deben ser cuantitativas.

Referencias

Aldás, J. & Uriel, E. (2017). Análisis multivariante aplicado con R. Ediciones Paraninfo.

Pia, L. (1986). Análisis multivariado: método de componentes principales. Secretaría General de la Organización de los Estados Americanos.