Uno dei metodi disponibili per i dataframe (e i dataset) è filter che consente di filtrare le righe che soddisfano una determinata condizione. La funzione filter ha diverse signature, in questo post voglio vedere tutte le opzioni per fare un filter su un dataframe.
Nelle versioni di Apache Spark 1.x gli RDD erano lo standard per la memorizzazione distribuita dei dati. Un RDD è una collezione di dati che sono partizionati (con ridondanza) tra i nodi del cluster. RDD sta per resilient distributed dataset, la chiave è il termine resilient, ovvero resistente. Un RDD è resistente alla perdita dei dati, ovvero la memorizzazione dei dati è ridondante per cui se un nodo del cluster dovesse andare giù, il RDD comunque non subirebbe una perdita dei dati. In questo articolo vediamo un esempio di come operare con gli RDD.
In questo articolo voglio vedere come unire 2 DataFrame di Pandas. Il problema è: dati due DataFrame che contengono dati diversi voglio combinare questi due in modo da avere un unico DataFrame alla fine del processo. Pandas mette a disposizione la funzione merge() per fare questa unione. L’unione verrà fatta sulla base di una chiave (id nellesempio), gli elementi dei due DataFrame con lo stesso id vengono combinati in una unica riga nel nuovo DataFrame. Se un id non è comune ai due DataFrame… ci sono diverse possibilità. Nell’esempio sotto ho fatto un inner merge in cui ho usato solo gli id comuni ai due DataFrame di partenza. Vedremo più avanti le altre possibilità.
Apache Spark è un framework per il calcolo distribuito su un cluster di computer. Di fatto è il sistema più diffuso per l’esecuzione di calcoli su una grosse mole di dati, leggasi Big Data. In questo articolo vediamo di muovere i primi passi con i DataFrame di Apache Spark.
Risolviamo un problema di classificazione con un algoritmo di regressione logistica. Costruiamo il modello, facciamo il training e vediamo come possibile migliorare l’accuratezza del risultato con semplici accorgimenti. Il modello è implementato con Pytorch.
In questo articolo voglio implementare una regressione lineare usando Pytorch. Innanzitutto un breve ripasso di cosa una regressione lineare con pi variabili indipendenti. Poi un training dei parametri del modello. Infine una valutazione del fitting e per finire… si ricomincia.
In questo articolo voglio muovere i primi passi in Pytorch. Vedremo come programmare una rete neurale completamente connessa partendo da una base teorica che do per acquisita. Abbiamo bisogno di un set di dati (dataset), un modello di rete neurale, la definizione di una funzione errore, la scelta di un ottimizzatore.
Inizieremo analizzando gli elementi che ci servono per definire una rete neurale semplice, limitandoci a layer lineari e ReLU.
In seguito vedremo come mettere insieme i layer per costruire il modello di una rete.
Alla fine implementeremo una rete e la ottimizzeremo per un problema specifico.