Machine Learning (Aprendizaje Automático) supervisado

Guía práctica de Machine Learning supervisado

Autor/a
Afiliación
Fecha de publicación

5 de agosto de 2025

📌 ¿Qué es el machine learning (aprendizaje automático)?

El machine learning (aprendizaje automático) es una rama de la inteligencia artificial que permite a las computadoras aprender patrones a partir de datos, sin ser programadas explícitamente. Se usa para hacer predicciones o tomar decisiones basadas en nuevos datos.

📌 Tipos de aprendizaje y modelos

Existen principalmente tres tipos:

  • Aprendizaje supervisado: el modelo aprende a partir de datos etiquetados (con una variable respuesta conocida). Ej: predicción de precios.

  • Aprendizaje no supervisado: el modelo encuentra patrones o estructuras en datos sin etiquetas. Ej: segmentación de clientes.

  • Aprendizaje por refuerzo: el modelo aprende a través de ensayo y error, optimizando una recompensa.

Los modelos son algoritmos que implementan estos tipos de aprendizaje (como árboles de decisión, redes neuronales, etc.).

Tabla comparativa de tipos de aprendizaje

Tipo de aprendizaje ¿Tiene etiquetas? ¿Objetivo?
Supervisado Predecir una salida (Y)
No supervisado No Encontrar estructuras (clusters, etc.)
Por refuerzo No directamente Maximizar recompensa a largo plazo

Resumen: Tipos de Aprendizaje Automático

Tipo ¿Cómo aprende el modelo? Ejemplos comunes
Aprendizaje supervisado El modelo aprende a partir de datos etiquetados, es decir, cada entrada tiene una salida conocida. Regresión lineal, random forest, redes neuronales para clasificación.
Aprendizaje no supervisado El modelo encuentra patrones o estructuras ocultas en datos sin etiquetas. Análisis de conglomerados (clustering), reducción de dimensionalidad (PCA).
Aprendizaje por refuerzo El modelo aprende a través de ensayo y error, optimizando una señal de recompensa. Agentes que aprenden a jugar videojuegos o a controlar robots mediante retroalimentación.

📌 Clasificación vs Regresión

Son los dos tipos principales de problemas en aprendizaje supervisado:

  • Clasificación: predice categorías o clases. Ej: “presente” o “ausente”.

  • Regresión: predice un valor numérico continuo. Ej: precio de una casa.

📌 Flujo de trabajo típico en machine learning

Pasos que normalmente se siguen al construir un modelo:

  1. Cargar y explorar los datos.
  2. Preprocesar (limpiar y transformar) los datos.
  3. Dividir los datos en entrenamiento y prueba.
  4. Entrenar el modelo.
  5. Evaluar el modelo.
  6. Ajustar hiperparámetros si es necesario.
  7. Usar el modelo para predecir nuevos datos.

📌 Diferencias entre Modelos Lineales y Algoritmos de Machine Learning

Tanto los modelos lineales (como regresión lineal o logística) como algoritmos como Random Forest forman parte del mismo ecosistema, pero efectivamente tienen orígenes conceptuales distintos, y por eso muchas veces se hace una distinción sutil pero útil entre ellos.

1. Modelos estadísticos clásicos

  • Ejemplos: regresión lineal, regresión logística, modelos lineales generalizados (GLM), GAM, etc.

  • Origen: estadística tradicional.

  • Características:

    • Interpretables.
    • Basados en suposiciones explícitas (linealidad, distribución de errores, etc.).
    • Tienen una forma funcional definida, por ejemplo:

Y=β0+β1X1++ϵ).

👉 En ML se los suele llamar:

  • Modelos lineales

  • Modelos paramétricos

  • O simplemente “modelos estadísticos”


2. Algoritmos de aprendizaje automático (ML algorithms)

  • Ejemplos: Random Forest, Gradient Boosting, Support Vector Machines, redes neuronales, k-NN, etc.

  • Origen: inteligencia artificial, ciencias de la computación.

  • Características:

    • Menos supuestos estadísticos.
    • Pueden modelar relaciones complejas y no lineales.
    • A menudo considerados modelos de caja negra (menos interpretables).
    • Suelen requerir más datos y computación.

👉 En ML se los suele llamar:

  • Algoritmos de machine learning

  • Modelos de aprendizaje no paramétrico

  • Modelos complejos o no lineales


Comparación entre modelos estadísticos clásicos y algoritmos de Machine Learning

Categoría Ejemplos Origen Características Términos sugeridos
Modelos estadísticos clásicos Regresión lineal, regresión logística, GLM, GAM Estadística tradicional Interpretables, basados en supuestos como linealidad y normalidad, fórmula funcional definida Modelos lineales, modelos estadísticos, modelos paramétricos
Algoritmos de Machine Learning Random Forest, SVM, XGBoost, Redes neuronales, k-NN Ciencias de la computación / IA Menos supuestos, pueden modelar relaciones no lineales, suelen ser cajas negras Algoritmos de ML, modelos complejos, modelos no paramétricos

📘 Ejemplo en una frase:

“Se compararon modelos estadísticos clásicos (regresión logística) con algoritmos de machine learning (Random Forest, XGBoost) para predecir la presencia de la especie.”

📌 Hiperparámetros en machine learning

Los hiperparámetros son configuraciones externas al modelo que se establecen antes del entrenamiento y afectan su rendimiento. No se aprenden directamente de los datos, a diferencia de los parámetros del modelo (como coeficientes en regresión).

Ejemplos comunes de hiperparámetros para algoritmos de regresión

Hiperparámetros por algoritmo de regresión
Descripción y ejemplos agnósticos (sin referencia a sintaxis específica)
Algoritmo Hiperparámetros comunes Descripción Ejemplos conceptuales
Regresión lineal Intercepto, normalización Ajustar o no el intercepto; normalizar predictores para mejorar estabilidad. Con/sin intercepto; con/sin normalización
Ridge Penalización (L2) Evita sobreajuste reduciendo la magnitud de los coeficientes. Penalización moderada (e.g., 1.0)
Lasso Penalización (L1), número máximo de iteraciones Puede reducir coeficientes a cero; útil para selección de variables. Penalización baja (e.g., 0.1); 1000 iteraciones
Elastic Net Proporción L1 vs L2, penalización total, iteraciones Combina Lasso y Ridge; útil con muchas variables correlacionadas. Proporción 50/50; penalización 0.1
Árbol de decisión Profundidad máxima, min. muestras por división y hoja, variables por nodo Controla la complejidad del árbol para evitar sobreajuste. Profundidad = 5; mínimo 10 muestras por división
Random Forest Número de árboles, profundidad, muestras mínimas, variables por división Promedio de varios árboles para mejorar estabilidad. 100 árboles; raíz cuadrada del total de variables por división
XGBoost Número de árboles, tasa de aprendizaje, profundidad, fracción de datos Boosting que mejora iterativamente; eficaz en datos estructurados. 100 iteraciones; tasa de aprendizaje baja (e.g., 0.1)
LightGBM Número de hojas, tasa de aprendizaje, iteraciones, fracción de datos Boosting rápido y eficiente; ideal para conjuntos grandes. 32 hojas; tasa de aprendizaje media (e.g., 0.05)
SVM lineal Penalización (C), margen de tolerancia (epsilon) Modelo lineal con margen de error flexible. Penalización media (e.g., 1.0); tolerancia baja
SVM RBF Penalización (C), ancho del kernel (gamma), tolerancia Kernel RBF permite capturar relaciones no lineales. Penalización 1.0; gamma pequeño (e.g., 0.01)
Vecinos más cercanos Número de vecinos (k), métrica de distancia, ponderación Promedia los valores de los vecinos más cercanos. 5 vecinos; distancia euclidiana; ponderación uniforme
Perceptrón multicapa (MLP) Capas ocultas, función de activación, tasa de aprendizaje, regularización Red neuronal; requiere ajuste fino de arquitectura. 2 capas; 100 y 50 neuronas; tasa de aprendizaje baja
PLS Número de componentes, escalado Extrae componentes que maximizan relación entre predictores y respuesta. 5 componentes; predictores escalados
Regresión bayesiana Parámetros del prior (alpha, lambda) Introduce incertidumbre en los coeficientes con enfoque bayesiano. Prior informativo moderado

Ejemplos comunes de hiperparámetros para algoritmos de clasificación

Hiperparámetros por algoritmo de clasificación
Descripción y ejemplos agnósticos (sin referencia a sintaxis específica)
Algoritmo Hiperparámetros comunes Descripción Ejemplos conceptuales
Regresión logística Tipo de penalización (L1 o L2), fuerza de regularización Controla el sobreajuste penalizando los coeficientes. Penalización L2, regularización media
Regresión multinomial Tipo de penalización, método de optimización Clasificación multiclase basada en regresión logística. Penalización L1, optimización rápida
Árbol de decisión Profundidad máxima, mínimo de muestras por división y por hoja Limita la complejidad del árbol para evitar sobreajuste. Profundidad = 5, mínimo 10 muestras por división
C5.0 (reglas) Cantidad de reglas, uso de poda, aplicación de boosting Clasificación basada en reglas interpretables. 10 iteraciones con boosting, poda activada
Random Forest Número de árboles, profundidad, número de variables por división Modelo de conjunto que combina muchos árboles. 100 árboles, variables seleccionadas aleatoriamente por división
XGBoost Número de iteraciones, tasa de aprendizaje, profundidad, fracción de muestra Boosting con regularización avanzada para clasificación eficaz. 100 iteraciones, tasa de aprendizaje = 0.1, profundidad = 6
LightGBM Número de hojas, tasa de aprendizaje, iteraciones, fracción de muestra Boosting eficiente especialmente para grandes conjuntos. 32 hojas, tasa de aprendizaje media
SVM lineal Penalización (C), margen de tolerancia Separación lineal con margen óptimo. Penalización media, tolerancia baja
SVM RBF Penalización (C), gamma del kernel, tolerancia Kernel RBF para relaciones no lineales. Gamma pequeño, penalización media
Vecinos más cercanos Número de vecinos (k), métrica de distancia Clasificación en base a vecinos cercanos en el espacio. 5 vecinos, distancia euclidiana
Naive Bayes Distribución asumida, suavizado Clasificador probabilístico basado en independencia de predictores. Distribución gaussiana, suavizado aplicado
Perceptrón multicapa (MLP) Capas ocultas, función de activación, tasa de aprendizaje Red neuronal multicapa entrenada por retropropagación. 2 capas ocultas, activación ReLU, tasa de aprendizaje baja
Discriminante lineal Priorización de clases, escalado de variables Modelo lineal para separar clases con varianzas iguales. Clases balanceadas, predictores escalados
Discriminante cuadrático Escalado de variables, covarianza específica por clase Permite separación no lineal entre clases. Varianzas distintas por clase, escalado activado
Árbol por bolsas (Bagging) Número de árboles, tamaño de muestra bootstrap Promedia múltiples árboles sobre subconjuntos re-muestreados. 50 árboles, muestras re-muestreadas con reemplazo

📌 Evaluación y Validación en Machine Learning

En el contexto de Machine Learning, validación y evaluación son dos conceptos fundamentales pero distintos en el proceso de construir y analizar modelos predictivos. Aquí te explico claramente cada uno:


🔄 1. Validación

Validación es el proceso de ajustar y seleccionar modelos (por ejemplo, elegir hiperparámetros) utilizando un conjunto de datos diferente del de entrenamiento y del de prueba, llamado conjunto de validación.

Objetivo:

  • Evitar el sobreajuste (overfitting)

  • Encontrar la mejor versión del modelo antes de evaluarlo definitivamente.

Tipos comunes de validación:

  • Hold-out validation: dividir los datos en entrenamiento / validación / prueba.

  • Cross-validation (validación cruzada):

  • Se entrena y valida el modelo varias veces con diferentes particiones de los datos.

  • La más común es la k-fold cross-validation.


✅ 2. Evaluación

Evaluación es el proceso de medir el rendimiento de un modelo ya entrenado, generalmente utilizando datos que nunca ha visto durante el entrenamiento, llamados datos de prueba o test set.

Objetivo:

  • Saber qué tan bien generaliza el modelo a datos nuevos

Ejemplos de métricas de evaluación:

  • Para regresión:
    • RMSE (Root Mean Squared Error)
    • MAE (Mean Absolute Error)
    • R² (Coeficiente de determinación)
  • Para clasificación:
    • Exactitud (accuracy)
    • Precisión, recall, F1-score
    • AUC-ROC

🧠 Analogía

Imagina que entrenás a un estudiante para un examen:

  • Entrenamiento: el estudiante estudia con ejercicios.

  • Validación: le das pruebas tipo ensayo para ver si está aprendiendo bien y ajustar su estudio.

  • Evaluación: es el examen real que toma para obtener su calificación.

Diferencias entre Validación y Evaluación en Machine Learning

Concepto ¿Cuándo se usa? ¿Con qué datos? ¿Para qué sirve?
Validación Durante el entrenamiento Conjunto de validación Ajustar hiperparámetros, prevenir sobreajuste
Evaluación Después de entrenar y validar Conjunto de prueba Medir rendimiento final del modelo

📌 Detección y manejo del sobreajuste

Detectar y manejar el sobreajuste (overfitting) es fundamental en machine learning, ya que un modelo sobreajustado aprende demasiado bien los datos de entrenamiento, incluyendo el ruido, y no generaliza bien a datos nuevos.


¿Cómo se detecta el sobreajuste?

1. Comparando desempeño en entrenamiento vs validación/test

  • Evalúa el modelo en el conjunto de entrenamiento y en el conjunto de validación o test.

  • Indicadores de sobreajuste:

  • Muy buen desempeño en entrenamiento (por ejemplo, accuracy 98%)

  • Desempeño mucho peor en validación/test (por ejemplo, accuracy 72%)

Esto se hace con métricas como:

  • Error cuadrático medio (RMSE)
  • Precisión, Recall, F1
  • AUC-ROC
  • etc., según el tipo de problema

2. Curvas de aprendizaje (learning curves)

  • Se grafican los errores en entrenamiento y validación a medida que se entrena el modelo con más datos.

  • Si el error en validación se mantiene alto mientras el de entrenamiento baja, hay sobreajuste.


¿Cómo se maneja o reduce el sobreajuste?

1. Cross-validation

  • Técnicas como k-fold cross-validation te dan una evaluación más robusta.

  • Ayuda a detectar si el buen desempeño es solo suerte en una partición de datos.

2. Reducir la complejidad del modelo

  • Usar modelos más simples:
  • Menos nodos en un árbol
  • Menos capas o neuronas en una red
  • Menos términos en un modelo lineal
  • O regularizar el modelo (ver más abajo)

3. Regularización

  • Penaliza la complejidad del modelo:
  • L1 (Lasso): fuerza a que coeficientes irrelevantes sean 0
  • L2 (Ridge): reduce la magnitud de los coeficientes
  • Algunos modelos que incluyen regularización:
  • glmnet, xgboost, keras, etc.

4. Más datos

  • Aumentar el tamaño del conjunto de entrenamiento puede ayudar a que el modelo generalice mejor.

5. Data augmentation (especialmente en imágenes, texto)

  • Crear versiones modificadas de los datos para entrenar (rotación, ruido, traducción…)

6. Early stopping

  • Detener el entrenamiento tan pronto como el error de validación comience a aumentar.

7. Dropout y otras técnicas (redes neuronales)

  • Dropout apaga neuronas aleatoriamente durante el entrenamiento para evitar dependencia excesiva.

Tabla comparativa de la detección y manejo del sobreajuste

Paso Técnicas
Detección Comparar métricas entre entrenamiento y validación; usar curvas de aprendizaje
Manejo Cross-validation, regularización (L1, L2), early stopping, modelos más simples

📌 Elección de métricas según el tipo de modelo

La elección de métricas de evaluación es crucial para medir el rendimiento de un modelo de machine learning. Dependiendo del tipo de problema (regresión o clasificación), algunas métricas son más adecuadas que otras.

Tabla de métricas comunes para regresión

Métrica Descripción
RMSE (Root Mean Squared Error) Raíz cuadrada del error cuadrático medio. Penaliza más los errores grandes.
MAE (Mean Absolute Error) Promedio del valor absoluto de los errores. Más robusto a outliers que el RMSE.
R² (Coeficiente de determinación) Proporción de la varianza explicada por el modelo. 1 es perfecto, 0 significa que no mejora sobre la media.
MAPE (Mean Absolute Percentage Error) Porcentaje promedio del error absoluto. Útil para interpretar errores en términos relativos.
MSE (Mean Squared Error) Promedio de los errores al cuadrado. Muy sensible a valores atípicos.
Huber Loss Combina MAE y MSE, penalizando menos los errores pequeños y siendo más robusto a outliers.

Tabla de métricas comunes para clasificación binaria

Métrica Descripción
Accuracy Proporción de predicciones correctas sobre el total de casos.
Precision De los casos predichos como positivos, qué proporción es realmente positiva.
Recall (Sensibilidad) De los casos realmente positivos, qué proporción fue predicha correctamente.
Especificidad De los casos realmente negativos, qué proporción fue predicha correctamente.
F1 Score Media armónica entre precision y recall, útil cuando hay clases desbalanceadas.
ROC AUC Área bajo la curva ROC. Evalúa la capacidad del modelo para distinguir entre clases.
Log Loss Penaliza las predicciones incorrectas con mayor severidad, útil para probabilidades.
MCC (Coeficiente de correlación de Matthews) Mide la calidad de las predicciones binarias, especialmente útil con clases desbalanceadas.
Cohen's Kappa (κ) Mide el acuerdo entre predicción y verdad ajustado por azar; 1 es acuerdo perfecto, 0 es azar.

Tabla de elección de métricas según el tipo de modelo

Tipo de problema Ejemplo Métricas recomendadas
Regresión Predecir precio de una casa RMSE, MAE, R²
Regresión Predecir temperatura diaria RMSE, MAE
Regresión Predecir número de visitas MAE, R²
Clasificación Detectar enfermedad (sí/no) Accuracy, Sensibilidad, Especificidad
Clasificación Clasificar correos como spam F1 Score, ROC AUC
Clasificación Predicción de fraude bancario ROC AUC, F1 Score
Clasificación Clasificación con clases desbalanceadas Sensibilidad, F1 Score, ROC AUC
Clasificación Evaluar desempeño más allá del azar Kappa

Cómo citar

BibTeX
@online{spínola2025,
  author = {Spínola, Manuel},
  title = {Machine Learning (Aprendizaje Automático) supervisado},
  date = {2025-08-11},
  url = {https://mspinola-ciencia-de-datos.netlify.app/posts/2025-08-08-machine_learning/a_machine_learning_introduccion_texto.html},
  langid = {es}
}
Por favor, cita este trabajo como:
Spínola, Manuel. 2025. “Machine Learning (Aprendizaje Automático) supervisado.” August 11, 2025. https://mspinola-ciencia-de-datos.netlify.app/posts/2025-08-08-machine_learning/a_machine_learning_introduccion_texto.html.