📌 ¿Qué es el machine learning (aprendizaje automático)?

El machine learning (aprendizaje automático) es una rama de la inteligencia artificial que permite a las computadoras aprender patrones a partir de datos, sin ser programadas explícitamente. Se usa para hacer predicciones o tomar decisiones basadas en nuevos datos.

📌 Tipos de aprendizaje y modelos

Existen principalmente tres tipos:

Aprendizaje supervisado: el modelo aprende a partir de datos etiquetados (con una variable respuesta conocida). Ej: predicción de precios.
Aprendizaje no supervisado: el modelo encuentra patrones o estructuras en datos sin etiquetas. Ej: segmentación de clientes.
Aprendizaje por refuerzo: el modelo aprende a través de ensayo y error, optimizando una recompensa.

Los modelos son algoritmos que implementan estos tipos de aprendizaje (como árboles de decisión, redes neuronales, etc.).

Tabla comparativa de tipos de aprendizaje

Tipo de aprendizaje	¿Tiene etiquetas?	¿Objetivo?
Supervisado	Sí	Predecir una salida (Y)
No supervisado	No	Encontrar estructuras (clusters, etc.)
Por refuerzo	No directamente	Maximizar recompensa a largo plazo

Resumen: Tipos de Aprendizaje Automático

Tipo	¿Cómo aprende el modelo?	Ejemplos comunes
Aprendizaje supervisado	El modelo aprende a partir de datos etiquetados, es decir, cada entrada tiene una salida conocida.	Regresión lineal, random forest, redes neuronales para clasificación.
Aprendizaje no supervisado	El modelo encuentra patrones o estructuras ocultas en datos sin etiquetas.	Análisis de conglomerados (clustering), reducción de dimensionalidad (PCA).
Aprendizaje por refuerzo	El modelo aprende a través de ensayo y error, optimizando una señal de recompensa.	Agentes que aprenden a jugar videojuegos o a controlar robots mediante retroalimentación.

📌 Clasificación vs Regresión

Son los dos tipos principales de problemas en aprendizaje supervisado:

Clasificación: predice categorías o clases. Ej: “presente” o “ausente”.
Regresión: predice un valor numérico continuo. Ej: precio de una casa.

📌 Flujo de trabajo típico en machine learning

Pasos que normalmente se siguen al construir un modelo:

Cargar y explorar los datos.
Preprocesar (limpiar y transformar) los datos.
Dividir los datos en entrenamiento y prueba.
Entrenar el modelo.
Evaluar el modelo.
Ajustar hiperparámetros si es necesario.
Usar el modelo para predecir nuevos datos.

📌 Diferencias entre Modelos Lineales y Algoritmos de Machine Learning

Tanto los modelos lineales (como regresión lineal o logística) como algoritmos como Random Forest forman parte del mismo ecosistema, pero efectivamente tienen orígenes conceptuales distintos, y por eso muchas veces se hace una distinción sutil pero útil entre ellos.

1. Modelos estadísticos clásicos

Ejemplos: regresión lineal, regresión logística, modelos lineales generalizados (GLM), GAM, etc.
Origen: estadística tradicional.
Características:
- Interpretables.
- Basados en suposiciones explícitas (linealidad, distribución de errores, etc.).
- Tienen una forma funcional definida, por ejemplo:

$Y = β_{0} + β_{1} X_{1} + \dots + ϵ) .$

👉 En ML se los suele llamar:

Modelos lineales
Modelos paramétricos
O simplemente “modelos estadísticos”

2. Algoritmos de aprendizaje automático (ML algorithms)

Ejemplos: Random Forest, Gradient Boosting, Support Vector Machines, redes neuronales, k-NN, etc.
Origen: inteligencia artificial, ciencias de la computación.
Características:
- Menos supuestos estadísticos.
- Pueden modelar relaciones complejas y no lineales.
- A menudo considerados modelos de caja negra (menos interpretables).
- Suelen requerir más datos y computación.

👉 En ML se los suele llamar:

Algoritmos de machine learning
Modelos de aprendizaje no paramétrico
Modelos complejos o no lineales

Comparación entre modelos estadísticos clásicos y algoritmos de Machine Learning

Categoría	Ejemplos	Origen	Características	Términos sugeridos
Modelos estadísticos clásicos	Regresión lineal, regresión logística, GLM, GAM	Estadística tradicional	Interpretables, basados en supuestos como linealidad y normalidad, fórmula funcional definida	Modelos lineales, modelos estadísticos, modelos paramétricos
Algoritmos de Machine Learning	Random Forest, SVM, XGBoost, Redes neuronales, k-NN	Ciencias de la computación / IA	Menos supuestos, pueden modelar relaciones no lineales, suelen ser cajas negras	Algoritmos de ML, modelos complejos, modelos no paramétricos

📘 Ejemplo en una frase:

“Se compararon modelos estadísticos clásicos (regresión logística) con algoritmos de machine learning (Random Forest, XGBoost) para predecir la presencia de la especie.”

📌 Hiperparámetros en machine learning

Los hiperparámetros son configuraciones externas al modelo que se establecen antes del entrenamiento y afectan su rendimiento. No se aprenden directamente de los datos, a diferencia de los parámetros del modelo (como coeficientes en regresión).

Ejemplos comunes de hiperparámetros para algoritmos de regresión

Algoritmo	Hiperparámetros comunes	Descripción	Ejemplos conceptuales
Hiperparámetros por algoritmo de regresión
Descripción y ejemplos agnósticos (sin referencia a sintaxis específica)
Regresión lineal	Intercepto, normalización	Ajustar o no el intercepto; normalizar predictores para mejorar estabilidad.	Con/sin intercepto; con/sin normalización
Ridge	Penalización (L2)	Evita sobreajuste reduciendo la magnitud de los coeficientes.	Penalización moderada (e.g., 1.0)
Lasso	Penalización (L1), número máximo de iteraciones	Puede reducir coeficientes a cero; útil para selección de variables.	Penalización baja (e.g., 0.1); 1000 iteraciones
Elastic Net	Proporción L1 vs L2, penalización total, iteraciones	Combina Lasso y Ridge; útil con muchas variables correlacionadas.	Proporción 50/50; penalización 0.1
Árbol de decisión	Profundidad máxima, min. muestras por división y hoja, variables por nodo	Controla la complejidad del árbol para evitar sobreajuste.	Profundidad = 5; mínimo 10 muestras por división
Random Forest	Número de árboles, profundidad, muestras mínimas, variables por división	Promedio de varios árboles para mejorar estabilidad.	100 árboles; raíz cuadrada del total de variables por división
XGBoost	Número de árboles, tasa de aprendizaje, profundidad, fracción de datos	Boosting que mejora iterativamente; eficaz en datos estructurados.	100 iteraciones; tasa de aprendizaje baja (e.g., 0.1)
LightGBM	Número de hojas, tasa de aprendizaje, iteraciones, fracción de datos	Boosting rápido y eficiente; ideal para conjuntos grandes.	32 hojas; tasa de aprendizaje media (e.g., 0.05)
SVM lineal	Penalización (C), margen de tolerancia (epsilon)	Modelo lineal con margen de error flexible.	Penalización media (e.g., 1.0); tolerancia baja
SVM RBF	Penalización (C), ancho del kernel (gamma), tolerancia	Kernel RBF permite capturar relaciones no lineales.	Penalización 1.0; gamma pequeño (e.g., 0.01)
Vecinos más cercanos	Número de vecinos (k), métrica de distancia, ponderación	Promedia los valores de los vecinos más cercanos.	5 vecinos; distancia euclidiana; ponderación uniforme
Perceptrón multicapa (MLP)	Capas ocultas, función de activación, tasa de aprendizaje, regularización	Red neuronal; requiere ajuste fino de arquitectura.	2 capas; 100 y 50 neuronas; tasa de aprendizaje baja
PLS	Número de componentes, escalado	Extrae componentes que maximizan relación entre predictores y respuesta.	5 componentes; predictores escalados
Regresión bayesiana	Parámetros del prior (alpha, lambda)	Introduce incertidumbre en los coeficientes con enfoque bayesiano.	Prior informativo moderado

Ejemplos comunes de hiperparámetros para algoritmos de clasificación

Algoritmo	Hiperparámetros comunes	Descripción	Ejemplos conceptuales
Hiperparámetros por algoritmo de clasificación
Descripción y ejemplos agnósticos (sin referencia a sintaxis específica)
Regresión logística	Tipo de penalización (L1 o L2), fuerza de regularización	Controla el sobreajuste penalizando los coeficientes.	Penalización L2, regularización media
Regresión multinomial	Tipo de penalización, método de optimización	Clasificación multiclase basada en regresión logística.	Penalización L1, optimización rápida
Árbol de decisión	Profundidad máxima, mínimo de muestras por división y por hoja	Limita la complejidad del árbol para evitar sobreajuste.	Profundidad = 5, mínimo 10 muestras por división
C5.0 (reglas)	Cantidad de reglas, uso de poda, aplicación de boosting	Clasificación basada en reglas interpretables.	10 iteraciones con boosting, poda activada
Random Forest	Número de árboles, profundidad, número de variables por división	Modelo de conjunto que combina muchos árboles.	100 árboles, variables seleccionadas aleatoriamente por división
XGBoost	Número de iteraciones, tasa de aprendizaje, profundidad, fracción de muestra	Boosting con regularización avanzada para clasificación eficaz.	100 iteraciones, tasa de aprendizaje = 0.1, profundidad = 6
LightGBM	Número de hojas, tasa de aprendizaje, iteraciones, fracción de muestra	Boosting eficiente especialmente para grandes conjuntos.	32 hojas, tasa de aprendizaje media
SVM lineal	Penalización (C), margen de tolerancia	Separación lineal con margen óptimo.	Penalización media, tolerancia baja
SVM RBF	Penalización (C), gamma del kernel, tolerancia	Kernel RBF para relaciones no lineales.	Gamma pequeño, penalización media
Vecinos más cercanos	Número de vecinos (k), métrica de distancia	Clasificación en base a vecinos cercanos en el espacio.	5 vecinos, distancia euclidiana
Naive Bayes	Distribución asumida, suavizado	Clasificador probabilístico basado en independencia de predictores.	Distribución gaussiana, suavizado aplicado
Perceptrón multicapa (MLP)	Capas ocultas, función de activación, tasa de aprendizaje	Red neuronal multicapa entrenada por retropropagación.	2 capas ocultas, activación ReLU, tasa de aprendizaje baja
Discriminante lineal	Priorización de clases, escalado de variables	Modelo lineal para separar clases con varianzas iguales.	Clases balanceadas, predictores escalados
Discriminante cuadrático	Escalado de variables, covarianza específica por clase	Permite separación no lineal entre clases.	Varianzas distintas por clase, escalado activado
Árbol por bolsas (Bagging)	Número de árboles, tamaño de muestra bootstrap	Promedia múltiples árboles sobre subconjuntos re-muestreados.	50 árboles, muestras re-muestreadas con reemplazo

📌 Evaluación y Validación en Machine Learning

En el contexto de Machine Learning, validación y evaluación son dos conceptos fundamentales pero distintos en el proceso de construir y analizar modelos predictivos. Aquí te explico claramente cada uno:

🔄 1. Validación

Validación es el proceso de ajustar y seleccionar modelos (por ejemplo, elegir hiperparámetros) utilizando un conjunto de datos diferente del de entrenamiento y del de prueba, llamado conjunto de validación.

Objetivo:

Evitar el sobreajuste (overfitting)
Encontrar la mejor versión del modelo antes de evaluarlo definitivamente.

Tipos comunes de validación:

Hold-out validation: dividir los datos en entrenamiento / validación / prueba.
Cross-validation (validación cruzada):
Se entrena y valida el modelo varias veces con diferentes particiones de los datos.
La más común es la k-fold cross-validation.

✅ 2. Evaluación

Evaluación es el proceso de medir el rendimiento de un modelo ya entrenado, generalmente utilizando datos que nunca ha visto durante el entrenamiento, llamados datos de prueba o test set.

Objetivo:

Saber qué tan bien generaliza el modelo a datos nuevos

Ejemplos de métricas de evaluación:

Para regresión:
- RMSE (Root Mean Squared Error)
- MAE (Mean Absolute Error)
- R² (Coeficiente de determinación)
Para clasificación:
- Exactitud (accuracy)
- Precisión, recall, F1-score
- AUC-ROC

🧠 Analogía

Imagina que entrenás a un estudiante para un examen:

Entrenamiento: el estudiante estudia con ejercicios.
Validación: le das pruebas tipo ensayo para ver si está aprendiendo bien y ajustar su estudio.
Evaluación: es el examen real que toma para obtener su calificación.

Diferencias entre Validación y Evaluación en Machine Learning

Concepto	¿Cuándo se usa?	¿Con qué datos?	¿Para qué sirve?
Validación	Durante el entrenamiento	Conjunto de validación	Ajustar hiperparámetros, prevenir sobreajuste
Evaluación	Después de entrenar y validar	Conjunto de prueba	Medir rendimiento final del modelo

📌 Detección y manejo del sobreajuste

Detectar y manejar el sobreajuste (overfitting) es fundamental en machine learning, ya que un modelo sobreajustado aprende demasiado bien los datos de entrenamiento, incluyendo el ruido, y no generaliza bien a datos nuevos.

¿Cómo se detecta el sobreajuste?

1. Comparando desempeño en entrenamiento vs validación/test

Evalúa el modelo en el conjunto de entrenamiento y en el conjunto de validación o test.
Indicadores de sobreajuste:
Muy buen desempeño en entrenamiento (por ejemplo, accuracy 98%)
Desempeño mucho peor en validación/test (por ejemplo, accuracy 72%)

Esto se hace con métricas como:

Error cuadrático medio (RMSE)
Precisión, Recall, F1
AUC-ROC
etc., según el tipo de problema

2. Curvas de aprendizaje (learning curves)

Se grafican los errores en entrenamiento y validación a medida que se entrena el modelo con más datos.
Si el error en validación se mantiene alto mientras el de entrenamiento baja, hay sobreajuste.

¿Cómo se maneja o reduce el sobreajuste?

1. Cross-validation

Técnicas como k-fold cross-validation te dan una evaluación más robusta.
Ayuda a detectar si el buen desempeño es solo suerte en una partición de datos.

2. Reducir la complejidad del modelo

Usar modelos más simples:
Menos nodos en un árbol
Menos capas o neuronas en una red
Menos términos en un modelo lineal
O regularizar el modelo (ver más abajo)

3. Regularización

Penaliza la complejidad del modelo:
L1 (Lasso): fuerza a que coeficientes irrelevantes sean 0
L2 (Ridge): reduce la magnitud de los coeficientes
Algunos modelos que incluyen regularización:
glmnet, xgboost, keras, etc.

4. Más datos

Aumentar el tamaño del conjunto de entrenamiento puede ayudar a que el modelo generalice mejor.

5. Data augmentation (especialmente en imágenes, texto)

Crear versiones modificadas de los datos para entrenar (rotación, ruido, traducción…)

6. Early stopping

Detener el entrenamiento tan pronto como el error de validación comience a aumentar.

7. Dropout y otras técnicas (redes neuronales)

Dropout apaga neuronas aleatoriamente durante el entrenamiento para evitar dependencia excesiva.

Tabla comparativa de la detección y manejo del sobreajuste

Paso	Técnicas
Detección	Comparar métricas entre entrenamiento y validación; usar curvas de aprendizaje
Manejo	Cross-validation, regularización (L1, L2), early stopping, modelos más simples

📌 Elección de métricas según el tipo de modelo

La elección de métricas de evaluación es crucial para medir el rendimiento de un modelo de machine learning. Dependiendo del tipo de problema (regresión o clasificación), algunas métricas son más adecuadas que otras.

Tabla de métricas comunes para regresión

Métrica	Descripción
RMSE (Root Mean Squared Error)	Raíz cuadrada del error cuadrático medio. Penaliza más los errores grandes.
MAE (Mean Absolute Error)	Promedio del valor absoluto de los errores. Más robusto a outliers que el RMSE.
R² (Coeficiente de determinación)	Proporción de la varianza explicada por el modelo. 1 es perfecto, 0 significa que no mejora sobre la media.
MAPE (Mean Absolute Percentage Error)	Porcentaje promedio del error absoluto. Útil para interpretar errores en términos relativos.
MSE (Mean Squared Error)	Promedio de los errores al cuadrado. Muy sensible a valores atípicos.
Huber Loss	Combina MAE y MSE, penalizando menos los errores pequeños y siendo más robusto a outliers.

Tabla de métricas comunes para clasificación binaria

Métrica	Descripción
Accuracy	Proporción de predicciones correctas sobre el total de casos.
Precision	De los casos predichos como positivos, qué proporción es realmente positiva.
Recall (Sensibilidad)	De los casos realmente positivos, qué proporción fue predicha correctamente.
Especificidad	De los casos realmente negativos, qué proporción fue predicha correctamente.
F1 Score	Media armónica entre precision y recall, útil cuando hay clases desbalanceadas.
ROC AUC	Área bajo la curva ROC. Evalúa la capacidad del modelo para distinguir entre clases.
Log Loss	Penaliza las predicciones incorrectas con mayor severidad, útil para probabilidades.
MCC (Coeficiente de correlación de Matthews)	Mide la calidad de las predicciones binarias, especialmente útil con clases desbalanceadas.
Cohen's Kappa (κ)	Mide el acuerdo entre predicción y verdad ajustado por azar; 1 es acuerdo perfecto, 0 es azar.

Tabla de elección de métricas según el tipo de modelo

Tipo de problema	Ejemplo	Métricas recomendadas
Regresión	Predecir precio de una casa	RMSE, MAE, R²
Regresión	Predecir temperatura diaria	RMSE, MAE
Regresión	Predecir número de visitas	MAE, R²
Clasificación	Detectar enfermedad (sí/no)	Accuracy, Sensibilidad, Especificidad
Clasificación	Clasificar correos como spam	F1 Score, ROC AUC
Clasificación	Predicción de fraude bancario	ROC AUC, F1 Score
Clasificación	Clasificación con clases desbalanceadas	Sensibilidad, F1 Score, ROC AUC
Clasificación	Evaluar desempeño más allá del azar	Kappa

Cómo citar

BibTeX

@online{spínola2025,
  author = {Spínola, Manuel},
  title = {Machine Learning (Aprendizaje Automático) supervisado},
  date = {2025-08-11},
  url = {https://mspinola-ciencia-de-datos.netlify.app/posts/2025-08-08-machine_learning/a_machine_learning_introduccion_texto.html},
  langid = {es}
}

Por favor, cita este trabajo como:

Spínola, Manuel. 2025. “Machine Learning (Aprendizaje Automático) supervisado.” August 11, 2025. https://mspinola-ciencia-de-datos.netlify.app/posts/2025-08-08-machine_learning/a_machine_learning_introduccion_texto.html.