The steps in this hands-on tutorial about AWS Glue are the following: Step 1. Enter credentials Step 2. Create an S3 bucket and load the dataset into the bucket Step 3. Create a database for the crawled data Step 4. Create a service role, that will used to access S3 and use Glue features Step […]
In this tutorial I want to use AWS S3 with boto3. I’m going to create a bucket and save data in it, configuring the required policies to access it with a boto3 client.
In questo lungo post vi presento il progetto che ho sviluppato per il Data Engineering Nanodegree (DEND) di Udacity. Cosa sviluppare era libera scelta dello sviluppatore posto che alcuni criteri fossero soddisfatti, per esempio lavorare con un database di almeno 3 milioni di records. Questa è il primo notebook del progetto, nel secondo ci sono […]
Poiché non sono riuscito a trovare informazioni chiare e definitive su come vengono gestite le partizioni in Apache Spark, ho deciso di investigare un po’ per conto mio. Cosa ho trovato ? Cercando su Internet ho trovato diverse informazioni che non so bene come collegare tra loro. Vediamo queste informazioni. Nel memorizzare i dati in […]
In this post we see how to use a PostrgreSQL database with Python. I decided to use the dockerized version of PostgreSQL. I already have Docker installed on my PC. In case you need to install it, head over to Docker for Windows Docker desktop version Step 1. Pull the image form the docker hub […]
Con Apache Spark ho la possibilità di caricare in memoria grosse quantità di dati di diverso formato, csv, txt, json etc. I dati vengono memorizzati in un dataset o in un dataframe e successivamente processati. Vediamo cosa fare per caricare uno o più file di dati in un dataframe in Apache Spark, e successivamente ripulire i dati.
Come modificare iterativamente le colonne di un dataframe di Spark usando foldLeft. Per esempio per rinominare le colonne di un dataframe o per generare nuove colonne sulla base di quelle vecchie
Un veloce ripasso su come usare i for loop in Scala.
Vediamo quali sono gli argomenti da conoscere per affrontare la certificazione CRT020: Databricks Certified Associate Developer for Apache Spark 2.4 with Scala 2.11. In questa prima parte facciamo un ripasso della configurazione della SparkSession e dell’uso della DataFrames API. Infine vedremo come leggere e scrivere dati da e verso le sorgenti più comuni.
Una breve panoramica sul teorema di Bayes e la statistica bayesiana. Una teoria affascinante sviluppata 2 secoli e mezzo fa da Thomas Bayes, statistico, matematico, filosofo e ministro della chiesa presbiteriana. Dopo essere rimasta in in secondo piano per molto tempo a causa della difficoltà di calcolare gli integrali, essa è oggi resa attuale dalla potenza dei moderni mezzi di calcolo. Vediamo come usare le teorie di base della statistica bayesiana usando il package PYMC3 per Python 3.x.