... Hands-on tutorial on AWS Glue with boto3

Postato il Maggio 27, 2022Maggio 31, 2022

The steps in this hands-on tutorial about AWS Glue are the following: Step 1. Enter credentials Step 2. Create an S3 bucket and load the dataset into the bucket Step 3. Create a database for the crawled data Step 4. Create a service role, that will used to access S3 and use Glue features Step […]

... awswrangler tutorial on S3

Postato il Maggio 6, 2022Maggio 27, 2022

In this tutorial I want to use AWS S3 with boto3. I’m going to create a bucket and save data in it, configuring the required policies to access it with a boto3 client.

... Udacity Data Engineering Capstone Project

Postato il Agosto 29, 2021Agosto 29, 2021

In questo lungo post vi presento il progetto che ho sviluppato per il Data Engineering Nanodegree (DEND) di Udacity. Cosa sviluppare era libera scelta dello sviluppatore posto che alcuni criteri fossero soddisfatti, per esempio lavorare con un database di almeno 3 milioni di records. Questa è il primo notebook del progetto, nel secondo ci sono […]

... le partizioni di Apache Spark

Postato il Giugno 7, 2021Giugno 7, 2021

Poiché non sono riuscito a trovare informazioni chiare e definitive su come vengono gestite le partizioni in Apache Spark, ho deciso di investigare un po’ per conto mio. Cosa ho trovato ? Cercando su Internet ho trovato diverse informazioni che non so bene come collegare tra loro. Vediamo queste informazioni. Nel memorizzare i dati in […]

... learning PostgreSQL basic usage

Postato il Giugno 5, 2021Gennaio 25, 2022

In this post we see how to use a PostrgreSQL database with Python. I decided to use the dockerized version of PostgreSQL. I already have Docker installed on my PC. In case you need to install it, head over to Docker for Windows Docker desktop version Step 1. Pull the image form the docker hub […]

... ingestione di dati da un file testo in Apache Spark

Postato il Agosto 11, 2020Aprile 9, 2021

Con Apache Spark ho la possibilità di caricare in memoria grosse quantità di dati di diverso formato, csv, txt, json etc. I dati vengono memorizzati in un dataset o in un dataframe e successivamente processati. Vediamo cosa fare per caricare uno o più file di dati in un dataframe in Apache Spark, e successivamente ripulire i dati.

... modificare iterativamente le colonne del dataframe in Apache Spark

Postato il Luglio 31, 2020Luglio 31, 2020

Come modificare iterativamente le colonne di un dataframe di Spark usando foldLeft. Per esempio per rinominare le colonne di un dataframe o per generare nuove colonne sulla base di quelle vecchie

... for loop in Scala

Postato il Giugno 24, 2020Agosto 7, 2020

Un veloce ripasso su come usare i for loop in Scala.

... Certificazione Apache Spark Developer con Scala – Parte 1

Postato il Febbraio 18, 2020Luglio 2, 2020

Vediamo quali sono gli argomenti da conoscere per affrontare la certificazione CRT020: Databricks Certified Associate Developer for Apache Spark 2.4 with Scala 2.11. In questa prima parte facciamo un ripasso della configurazione della SparkSession e dell’uso della DataFrames API. Infine vedremo come leggere e scrivere dati da e verso le sorgenti più comuni.

... implementare modelli bayesiani con PYMC3

Postato il Gennaio 28, 2020Novembre 24, 2020

Una breve panoramica sul teorema di Bayes e la statistica bayesiana. Una teoria affascinante sviluppata 2 secoli e mezzo fa da Thomas Bayes, statistico, matematico, filosofo e ministro della chiesa presbiteriana. Dopo essere rimasta in in secondo piano per molto tempo a causa della difficoltà di calcolare gli integrali, essa è oggi resa attuale dalla potenza dei moderni mezzi di calcolo. Vediamo come usare le teorie di base della statistica bayesiana usando il package PYMC3 per Python 3.x.