Tipo de aprendizaje | ¿Tiene etiquetas? | ¿Objetivo? |
---|---|---|
Supervisado | Sí | Predecir una salida (Y) |
No supervisado | No | Encontrar estructuras (clusters, etc.) |
Por refuerzo | No directamente | Maximizar recompensa a largo plazo |
📌 ¿Qué es el machine learning (aprendizaje automático)?
El machine learning (aprendizaje automático) es una rama de la inteligencia artificial que permite a las computadoras aprender patrones a partir de datos, sin ser programadas explícitamente. Se usa para hacer predicciones o tomar decisiones basadas en nuevos datos.
📌 Tipos de aprendizaje y modelos
Existen principalmente tres tipos:
Aprendizaje supervisado: el modelo aprende a partir de datos etiquetados (con una variable respuesta conocida). Ej: predicción de precios.
Aprendizaje no supervisado: el modelo encuentra patrones o estructuras en datos sin etiquetas. Ej: segmentación de clientes.
Aprendizaje por refuerzo: el modelo aprende a través de ensayo y error, optimizando una recompensa.
Los modelos son algoritmos que implementan estos tipos de aprendizaje (como árboles de decisión, redes neuronales, etc.).
Tabla comparativa de tipos de aprendizaje
Resumen: Tipos de Aprendizaje Automático
Tipo | ¿Cómo aprende el modelo? | Ejemplos comunes |
---|---|---|
Aprendizaje supervisado | El modelo aprende a partir de datos etiquetados, es decir, cada entrada tiene una salida conocida. | Regresión lineal, random forest, redes neuronales para clasificación. |
Aprendizaje no supervisado | El modelo encuentra patrones o estructuras ocultas en datos sin etiquetas. | Análisis de conglomerados (clustering), reducción de dimensionalidad (PCA). |
Aprendizaje por refuerzo | El modelo aprende a través de ensayo y error, optimizando una señal de recompensa. | Agentes que aprenden a jugar videojuegos o a controlar robots mediante retroalimentación. |
📌 Clasificación vs Regresión
Son los dos tipos principales de problemas en aprendizaje supervisado:
Clasificación: predice categorías o clases. Ej: “presente” o “ausente”.
Regresión: predice un valor numérico continuo. Ej: precio de una casa.
📌 Flujo de trabajo típico en machine learning
Pasos que normalmente se siguen al construir un modelo:
- Cargar y explorar los datos.
- Preprocesar (limpiar y transformar) los datos.
- Dividir los datos en entrenamiento y prueba.
- Entrenar el modelo.
- Evaluar el modelo.
- Ajustar hiperparámetros si es necesario.
- Usar el modelo para predecir nuevos datos.
📌 Diferencias entre Modelos Lineales y Algoritmos de Machine Learning
Tanto los modelos lineales (como regresión lineal o logística) como algoritmos como Random Forest forman parte del mismo ecosistema, pero efectivamente tienen orígenes conceptuales distintos, y por eso muchas veces se hace una distinción sutil pero útil entre ellos.
1. Modelos estadísticos clásicos
Ejemplos: regresión lineal, regresión logística, modelos lineales generalizados (GLM), GAM, etc.
Origen: estadística tradicional.
Características:
- Interpretables.
- Basados en suposiciones explícitas (linealidad, distribución de errores, etc.).
- Tienen una forma funcional definida, por ejemplo:
👉 En ML se los suele llamar:
Modelos lineales
Modelos paramétricos
O simplemente “modelos estadísticos”
2. Algoritmos de aprendizaje automático (ML algorithms)
Ejemplos: Random Forest, Gradient Boosting, Support Vector Machines, redes neuronales, k-NN, etc.
Origen: inteligencia artificial, ciencias de la computación.
Características:
- Menos supuestos estadísticos.
- Pueden modelar relaciones complejas y no lineales.
- A menudo considerados modelos de caja negra (menos interpretables).
- Suelen requerir más datos y computación.
👉 En ML se los suele llamar:
Algoritmos de machine learning
Modelos de aprendizaje no paramétrico
Modelos complejos o no lineales
Comparación entre modelos estadísticos clásicos y algoritmos de Machine Learning
Categoría | Ejemplos | Origen | Características | Términos sugeridos |
---|---|---|---|---|
Modelos estadísticos clásicos | Regresión lineal, regresión logística, GLM, GAM | Estadística tradicional | Interpretables, basados en supuestos como linealidad y normalidad, fórmula funcional definida | Modelos lineales, modelos estadísticos, modelos paramétricos |
Algoritmos de Machine Learning | Random Forest, SVM, XGBoost, Redes neuronales, k-NN | Ciencias de la computación / IA | Menos supuestos, pueden modelar relaciones no lineales, suelen ser cajas negras | Algoritmos de ML, modelos complejos, modelos no paramétricos |
📘 Ejemplo en una frase:
“Se compararon modelos estadísticos clásicos (regresión logística) con algoritmos de machine learning (Random Forest, XGBoost) para predecir la presencia de la especie.”
📌 Hiperparámetros en machine learning
Los hiperparámetros son configuraciones externas al modelo que se establecen antes del entrenamiento y afectan su rendimiento. No se aprenden directamente de los datos, a diferencia de los parámetros del modelo (como coeficientes en regresión).
Ejemplos comunes de hiperparámetros para algoritmos de regresión
Hiperparámetros por algoritmo de regresión | |||
---|---|---|---|
Descripción y ejemplos agnósticos (sin referencia a sintaxis específica) | |||
Algoritmo | Hiperparámetros comunes | Descripción | Ejemplos conceptuales |
Regresión lineal | Intercepto, normalización | Ajustar o no el intercepto; normalizar predictores para mejorar estabilidad. | Con/sin intercepto; con/sin normalización |
Ridge | Penalización (L2) | Evita sobreajuste reduciendo la magnitud de los coeficientes. | Penalización moderada (e.g., 1.0) |
Lasso | Penalización (L1), número máximo de iteraciones | Puede reducir coeficientes a cero; útil para selección de variables. | Penalización baja (e.g., 0.1); 1000 iteraciones |
Elastic Net | Proporción L1 vs L2, penalización total, iteraciones | Combina Lasso y Ridge; útil con muchas variables correlacionadas. | Proporción 50/50; penalización 0.1 |
Árbol de decisión | Profundidad máxima, min. muestras por división y hoja, variables por nodo | Controla la complejidad del árbol para evitar sobreajuste. | Profundidad = 5; mínimo 10 muestras por división |
Random Forest | Número de árboles, profundidad, muestras mínimas, variables por división | Promedio de varios árboles para mejorar estabilidad. | 100 árboles; raíz cuadrada del total de variables por división |
XGBoost | Número de árboles, tasa de aprendizaje, profundidad, fracción de datos | Boosting que mejora iterativamente; eficaz en datos estructurados. | 100 iteraciones; tasa de aprendizaje baja (e.g., 0.1) |
LightGBM | Número de hojas, tasa de aprendizaje, iteraciones, fracción de datos | Boosting rápido y eficiente; ideal para conjuntos grandes. | 32 hojas; tasa de aprendizaje media (e.g., 0.05) |
SVM lineal | Penalización (C), margen de tolerancia (epsilon) | Modelo lineal con margen de error flexible. | Penalización media (e.g., 1.0); tolerancia baja |
SVM RBF | Penalización (C), ancho del kernel (gamma), tolerancia | Kernel RBF permite capturar relaciones no lineales. | Penalización 1.0; gamma pequeño (e.g., 0.01) |
Vecinos más cercanos | Número de vecinos (k), métrica de distancia, ponderación | Promedia los valores de los vecinos más cercanos. | 5 vecinos; distancia euclidiana; ponderación uniforme |
Perceptrón multicapa (MLP) | Capas ocultas, función de activación, tasa de aprendizaje, regularización | Red neuronal; requiere ajuste fino de arquitectura. | 2 capas; 100 y 50 neuronas; tasa de aprendizaje baja |
PLS | Número de componentes, escalado | Extrae componentes que maximizan relación entre predictores y respuesta. | 5 componentes; predictores escalados |
Regresión bayesiana | Parámetros del prior (alpha, lambda) | Introduce incertidumbre en los coeficientes con enfoque bayesiano. | Prior informativo moderado |
Ejemplos comunes de hiperparámetros para algoritmos de clasificación
Hiperparámetros por algoritmo de clasificación | |||
---|---|---|---|
Descripción y ejemplos agnósticos (sin referencia a sintaxis específica) | |||
Algoritmo | Hiperparámetros comunes | Descripción | Ejemplos conceptuales |
Regresión logística | Tipo de penalización (L1 o L2), fuerza de regularización | Controla el sobreajuste penalizando los coeficientes. | Penalización L2, regularización media |
Regresión multinomial | Tipo de penalización, método de optimización | Clasificación multiclase basada en regresión logística. | Penalización L1, optimización rápida |
Árbol de decisión | Profundidad máxima, mínimo de muestras por división y por hoja | Limita la complejidad del árbol para evitar sobreajuste. | Profundidad = 5, mínimo 10 muestras por división |
C5.0 (reglas) | Cantidad de reglas, uso de poda, aplicación de boosting | Clasificación basada en reglas interpretables. | 10 iteraciones con boosting, poda activada |
Random Forest | Número de árboles, profundidad, número de variables por división | Modelo de conjunto que combina muchos árboles. | 100 árboles, variables seleccionadas aleatoriamente por división |
XGBoost | Número de iteraciones, tasa de aprendizaje, profundidad, fracción de muestra | Boosting con regularización avanzada para clasificación eficaz. | 100 iteraciones, tasa de aprendizaje = 0.1, profundidad = 6 |
LightGBM | Número de hojas, tasa de aprendizaje, iteraciones, fracción de muestra | Boosting eficiente especialmente para grandes conjuntos. | 32 hojas, tasa de aprendizaje media |
SVM lineal | Penalización (C), margen de tolerancia | Separación lineal con margen óptimo. | Penalización media, tolerancia baja |
SVM RBF | Penalización (C), gamma del kernel, tolerancia | Kernel RBF para relaciones no lineales. | Gamma pequeño, penalización media |
Vecinos más cercanos | Número de vecinos (k), métrica de distancia | Clasificación en base a vecinos cercanos en el espacio. | 5 vecinos, distancia euclidiana |
Naive Bayes | Distribución asumida, suavizado | Clasificador probabilístico basado en independencia de predictores. | Distribución gaussiana, suavizado aplicado |
Perceptrón multicapa (MLP) | Capas ocultas, función de activación, tasa de aprendizaje | Red neuronal multicapa entrenada por retropropagación. | 2 capas ocultas, activación ReLU, tasa de aprendizaje baja |
Discriminante lineal | Priorización de clases, escalado de variables | Modelo lineal para separar clases con varianzas iguales. | Clases balanceadas, predictores escalados |
Discriminante cuadrático | Escalado de variables, covarianza específica por clase | Permite separación no lineal entre clases. | Varianzas distintas por clase, escalado activado |
Árbol por bolsas (Bagging) | Número de árboles, tamaño de muestra bootstrap | Promedia múltiples árboles sobre subconjuntos re-muestreados. | 50 árboles, muestras re-muestreadas con reemplazo |
📌 Evaluación y Validación en Machine Learning
En el contexto de Machine Learning, validación y evaluación son dos conceptos fundamentales pero distintos en el proceso de construir y analizar modelos predictivos. Aquí te explico claramente cada uno:
🔄 1. Validación
Validación es el proceso de ajustar y seleccionar modelos (por ejemplo, elegir hiperparámetros) utilizando un conjunto de datos diferente del de entrenamiento y del de prueba, llamado conjunto de validación.
Objetivo:
Evitar el sobreajuste (overfitting)
Encontrar la mejor versión del modelo antes de evaluarlo definitivamente.
Tipos comunes de validación:
Hold-out validation: dividir los datos en entrenamiento / validación / prueba.
Cross-validation (validación cruzada):
Se entrena y valida el modelo varias veces con diferentes particiones de los datos.
La más común es la k-fold cross-validation.
✅ 2. Evaluación
Evaluación es el proceso de medir el rendimiento de un modelo ya entrenado, generalmente utilizando datos que nunca ha visto durante el entrenamiento, llamados datos de prueba o test set.
Objetivo:
- Saber qué tan bien generaliza el modelo a datos nuevos
Ejemplos de métricas de evaluación:
- Para regresión:
- RMSE (Root Mean Squared Error)
- MAE (Mean Absolute Error)
- R² (Coeficiente de determinación)
- Para clasificación:
- Exactitud (accuracy)
- Precisión, recall, F1-score
- AUC-ROC
🧠 Analogía
Imagina que entrenás a un estudiante para un examen:
Entrenamiento: el estudiante estudia con ejercicios.
Validación: le das pruebas tipo ensayo para ver si está aprendiendo bien y ajustar su estudio.
Evaluación: es el examen real que toma para obtener su calificación.
Diferencias entre Validación y Evaluación en Machine Learning
Concepto | ¿Cuándo se usa? | ¿Con qué datos? | ¿Para qué sirve? |
---|---|---|---|
Validación | Durante el entrenamiento | Conjunto de validación | Ajustar hiperparámetros, prevenir sobreajuste |
Evaluación | Después de entrenar y validar | Conjunto de prueba | Medir rendimiento final del modelo |
📌 Detección y manejo del sobreajuste
Detectar y manejar el sobreajuste (overfitting) es fundamental en machine learning, ya que un modelo sobreajustado aprende demasiado bien los datos de entrenamiento, incluyendo el ruido, y no generaliza bien a datos nuevos.
¿Cómo se detecta el sobreajuste?
1. Comparando desempeño en entrenamiento vs validación/test
Evalúa el modelo en el conjunto de entrenamiento y en el conjunto de validación o test.
Indicadores de sobreajuste:
Muy buen desempeño en entrenamiento (por ejemplo, accuracy 98%)
Desempeño mucho peor en validación/test (por ejemplo, accuracy 72%)
Esto se hace con métricas como:
- Error cuadrático medio (RMSE)
- Precisión, Recall, F1
- AUC-ROC
- etc., según el tipo de problema
2. Curvas de aprendizaje (learning curves)
Se grafican los errores en entrenamiento y validación a medida que se entrena el modelo con más datos.
Si el error en validación se mantiene alto mientras el de entrenamiento baja, hay sobreajuste.
¿Cómo se maneja o reduce el sobreajuste?
1. Cross-validation
Técnicas como k-fold cross-validation te dan una evaluación más robusta.
Ayuda a detectar si el buen desempeño es solo suerte en una partición de datos.
2. Reducir la complejidad del modelo
- Usar modelos más simples:
- Menos nodos en un árbol
- Menos capas o neuronas en una red
- Menos términos en un modelo lineal
- O regularizar el modelo (ver más abajo)
3. Regularización
- Penaliza la complejidad del modelo:
- L1 (Lasso): fuerza a que coeficientes irrelevantes sean 0
- L2 (Ridge): reduce la magnitud de los coeficientes
- Algunos modelos que incluyen regularización:
- glmnet, xgboost, keras, etc.
4. Más datos
- Aumentar el tamaño del conjunto de entrenamiento puede ayudar a que el modelo generalice mejor.
5. Data augmentation (especialmente en imágenes, texto)
- Crear versiones modificadas de los datos para entrenar (rotación, ruido, traducción…)
6. Early stopping
- Detener el entrenamiento tan pronto como el error de validación comience a aumentar.
7. Dropout y otras técnicas (redes neuronales)
- Dropout apaga neuronas aleatoriamente durante el entrenamiento para evitar dependencia excesiva.
Tabla comparativa de la detección y manejo del sobreajuste
Paso | Técnicas |
---|---|
Detección | Comparar métricas entre entrenamiento y validación; usar curvas de aprendizaje |
Manejo | Cross-validation, regularización (L1, L2), early stopping, modelos más simples |
📌 Elección de métricas según el tipo de modelo
La elección de métricas de evaluación es crucial para medir el rendimiento de un modelo de machine learning. Dependiendo del tipo de problema (regresión o clasificación), algunas métricas son más adecuadas que otras.
Tabla de métricas comunes para regresión
Métrica | Descripción |
---|---|
RMSE (Root Mean Squared Error) | Raíz cuadrada del error cuadrático medio. Penaliza más los errores grandes. |
MAE (Mean Absolute Error) | Promedio del valor absoluto de los errores. Más robusto a outliers que el RMSE. |
R² (Coeficiente de determinación) | Proporción de la varianza explicada por el modelo. 1 es perfecto, 0 significa que no mejora sobre la media. |
MAPE (Mean Absolute Percentage Error) | Porcentaje promedio del error absoluto. Útil para interpretar errores en términos relativos. |
MSE (Mean Squared Error) | Promedio de los errores al cuadrado. Muy sensible a valores atípicos. |
Huber Loss | Combina MAE y MSE, penalizando menos los errores pequeños y siendo más robusto a outliers. |
Tabla de métricas comunes para clasificación binaria
Métrica | Descripción |
---|---|
Accuracy | Proporción de predicciones correctas sobre el total de casos. |
Precision | De los casos predichos como positivos, qué proporción es realmente positiva. |
Recall (Sensibilidad) | De los casos realmente positivos, qué proporción fue predicha correctamente. |
Especificidad | De los casos realmente negativos, qué proporción fue predicha correctamente. |
F1 Score | Media armónica entre precision y recall, útil cuando hay clases desbalanceadas. |
ROC AUC | Área bajo la curva ROC. Evalúa la capacidad del modelo para distinguir entre clases. |
Log Loss | Penaliza las predicciones incorrectas con mayor severidad, útil para probabilidades. |
MCC (Coeficiente de correlación de Matthews) | Mide la calidad de las predicciones binarias, especialmente útil con clases desbalanceadas. |
Cohen's Kappa (κ) | Mide el acuerdo entre predicción y verdad ajustado por azar; 1 es acuerdo perfecto, 0 es azar. |
Tabla de elección de métricas según el tipo de modelo
Tipo de problema | Ejemplo | Métricas recomendadas |
---|---|---|
Regresión | Predecir precio de una casa | RMSE, MAE, R² |
Regresión | Predecir temperatura diaria | RMSE, MAE |
Regresión | Predecir número de visitas | MAE, R² |
Clasificación | Detectar enfermedad (sí/no) | Accuracy, Sensibilidad, Especificidad |
Clasificación | Clasificar correos como spam | F1 Score, ROC AUC |
Clasificación | Predicción de fraude bancario | ROC AUC, F1 Score |
Clasificación | Clasificación con clases desbalanceadas | Sensibilidad, F1 Score, ROC AUC |
Clasificación | Evaluar desempeño más allá del azar | Kappa |
Cómo citar
@online{spínola2025,
author = {Spínola, Manuel},
title = {Machine Learning (Aprendizaje Automático) supervisado},
date = {2025-08-11},
url = {https://mspinola-ciencia-de-datos.netlify.app/posts/2025-08-08-machine_learning/a_machine_learning_introduccion_texto.html},
langid = {es}
}