top of page

Search

Parte 02: Mi Primer Proyecto de Machine Learning en Microsoft Fabric: Predicción Salarial con Regresión Lineal usando PySpark

Ahias Portillo
Jan 5
2 min read

Updated: Apr 2

La inteligencia artificial ya no es exclusiva de grandes laboratorios o equipos de investigación. Hoy, cualquier persona con interés por los datos puede construir su primer modelo de machine learning. Y lo mejor: no necesitás instalar nada ni tener GPU.

Con Microsoft Fabric, podés trabajar directamente desde un entorno web que ya trae integrado Spark, Python y todo lo que necesitás para comenzar. En este post, te voy a mostrar cómo hice mi primer proyecto de machine learning: predecir el salario de una persona según su experiencia laboral, usando una regresión lineal simple con PySpark.

¿Qué vamos a hacer?

Simular un conjunto de datos con salarios que crecen un 4% anual.
Usar PySpark en un notebook de Fabric para crear un modelo de regresión.
Entrenar, evaluar y visualizar el modelo.
Aprender qué significa cada parte del código.

Paso 1: Crear nuestros propios datos en un notebook

En lugar de cargar un dataset externo, vamos a crear un conjunto de datos desde cero. Simulamos una persona que comienza con un salario de $500 USD, y cada año su salario sube un 4%.

¿Qué hace este código?

Creamos una lista de tuplas (años, salario) donde el salario sube 4% por cada año.
Definimos un esquema para PySpark con tipos de datos.
Creamos un DataFrame de Spark y mostramos los datos con .show().

Paso 2: Visualizar la relación con matplotlib

Antes de entrenar el modelo, siempre es buena idea visualizar la relación entre variables.

¿Qué hace este código?

Convertimos el DataFrame de Spark a Pandas para poder graficar.
Usamos matplotlib para hacer un gráfico de línea.
Vemos claramente una tendencia ascendente: salario aumenta con los años

Paso 3: Preparar los datos para Machine Learning

En PySpark, el algoritmo de regresión requiere que la variable independiente (X) esté en una sola columna tipo vector.

¿Qué hace este código?

Usa VectorAssembler para combinar columnas independientes en un vector.
En este caso, solo tenemos una columna: AniosExperiencia.
El resultado es una nueva columna features que usaremos para entrenar.

Paso 4: Entrenar el modelo de regresión lineal

Ahora sí, creamos y entrenamos un modelo de regresión con PySpark.

¿Qué hace este código?

Divide los datos en entrenamiento (80%) y prueba (20%).
Crea un modelo de regresión lineal con LinearRegression.
Entrena el modelo con .fit().
Imprime el intercepto (salario base) y el coeficiente (aumento por año).

Paso 5: Hacer predicciones y evaluar el modelo

¿Qué hace esto?

Usa el modelo para predecir el salario.
Muestra lado a lado: años, salario real y predicción.
Te permite ver qué tan preciso fue el modelo.

Paso 6: Visualizar predicciones vs valores reales

Descarga el Notebook AQUI!!!!!!!!!

***Este contenido fue potenciado con IA. Porque cuando el conocimiento humano se encuentra con la inteligencia artificial, surgen mejores ideas.***

#MicrosoftFabric #MachineLearning #PySpark #RegresiónLineal #IADesdeCero #PrimerModeloIA #DataScience #FabricNotebooks

Recent Posts

Parte 3: Optimización de Modelos de Regresión con Hiperparámetros y Grid Search en Microsoft Fabric

Parte 3: Optimización de Modelos de Regresión con Hiperparámetros y Grid Search en Microsoft Fabric

Parte 5: Buenas Prácticas y Optimización de Consultas KQL en Entornos Productivos

Parte 5: Buenas Prácticas y Optimización de Consultas KQL en Entornos Productivos

Parte 01: Comenzando con IA y Regresión en Microsoft Fabric

Parte 01: Comenzando con IA y Regresión en Microsoft Fabric

Comments

bottom of page