Sviluppo di un'applicazione Hadoop MapReduc e per l'analisi dei dati meteorologici grezzi

Paschina, Giacomo (2013) Sviluppo di un'applicazione Hadoop MapReduc e per l'analisi dei dati meteorologici grezzi. Technical Report. IMATI, Genova.

[img] PDF
MapReduce_Meteo.pdf
Restricted to Registered users only

Download (1MB) | Request a copy

Abstract

Il mondo moderno si basa su dati informatici. Non è facile misurare il volume totale dei dati memorizzati elettronicamente, ma una stima dell’International Data Corportation (IDC)1 ha stabilito che la dimensione dell’universo digitale si attestava nel 2006 intorno ai 0,18 zettabytes2 [WHI12]. Con il termine universo digitale si intende una misura di tutti i dati digitali creati, replicati, e utilizzati nell’arco di un solo anno. Si riferisce anche alla proiezione della dimensione dell’universo alla fine del decennio in corso. L’universo digitale è costituito da immagini e video creati con gli smartphone e caricati su YouTube, film digitali su televisori ad alta definizione, dati bancari, riprese di sicurezza negli aeroporti e nei grandi eventi come i Giochi Olimpici, collisioni subatomiche registrate dal Large Hadron Collider del CERN, chiamate vocali attraverso linee telefoniche digitali e sms, file di log dei computer e via dicendo [GAN12]. Da questo fatto sorgono due problematiche: la memorizzazione e l’analisi di queste grandi quantità di dati. Per quanto riguarda la memorizzazione, una delle principali tematiche riflette la possibilità di salvare file di grandi dimensioni su più macchine distribuite, garantendone la disponibilità, l’affidabilità, e fornendone un modello per l’accesso, che astragga i problemi relativi alla lettura e scrittura di parti di file su più dischi distribuiti. Per quanto riguarda l’analisi, occorre fornire anche in questo caso un modello di programmazione per il recupero di informazioni di interesse da dati grezzi e/o eterogenei e quindi non formattati. Le risposte a questi due tipi di problemi possono essere Apache Hadoop e Hadoop MapReduce [APA13]. Hadoop è un framework che permette l’elaborazione distribuita di grandi insiemi di dati tra cluster, utilizzando modelli di programmazione semplici. È progettato per scalare da singoli server a migliaia di macchine, ognuna delle quali offre calcolo e storage locale. Piuttosto che fare affidamento sull’hardware per fornire alta disponibilità, la libreria stessa è progettata per rilevare e gestire gli errori a livello di applicazione, in modo da fornire un servizio altamente disponibile su di un cluster di computer, ciascuno dei quali può essere soggetto a guasti. MapReduce è un framework software per scrivere applicazioni che elaborano grandi quantità di dati in parallelo su cluster di grandi dimensioni in modo affidabile [APA13]. In questo lavoro viene presentata un’applicazione per il recupero di informazioni metereologiche da dati grezzi, utilizzando la distribuzione open-source di Hadoop e MapReduce. Nei primi due capitoli verrà presentata una panoramica sull’architettura e il funzionamento di Hadoop e sul paradigma di programmazione di MapReduce. Nel capitolo tre verrà illustrata la metodologia e le procedure necessarie per il recupero delle informazioni grezze dal sito http://www.wunderground.com, mentre nel quarto capitolo sarà illustrata l’applicazione MapReduce per il recupero dei dati d’interesse.

Item Type: Monograph (Technical Report)
Subjects: 000 Scienza degli elaboratori - Scienze dell’informazione - Scienze archivistiche, librarie e dell'informazione documentaria – opere generali
Depositing User: Ms. Cristiana Costalunga
Date Deposited: 22 Apr 2014 12:55
Last Modified: 22 Apr 2014 14:25
URI: http://eprints.bice.rm.cnr.it/id/eprint/9073

Actions (login required)

View Item View Item