Visual Studio Code - PySpark funcionando en Ubuntu
Como continuación del ejercicio de instalar primero extensiones y después módulos / librerías ahora vamos con una tarea común que es el análisis de grandes conjuntos de datos y vamos con nuestro conjunto de datos de juguete (sintético) - archivo de puestos de trabajo de 21 millones de registros. La verdad todo fluyó bien y solo fue ver ejemplo de la web o de la inteligencia artificial y adecuarlo a mis datos, como aparece aquí, también cronometramos un par de consultas para ver en cuanto tiempo lo realiza. La consulta se realiza aunque con algunos warnings como se ve en la siguiente imagen: