Struttura del corso

Ogni sessione dura 2 ore

Giorno-1: Sessione -1: Panoramica aziendale del Big Data Business Intelligence nel governo

  • Studi di caso da NIH, DoE
  • Tasso di adozione del Big Data nelle agenzie governative e come stanno allineando le loro operazioni future intorno all'analitica predittiva del Big Data
  • Ampia area applicativa nel DoD, NSA, IRS, USDA ecc.
  • Interfacciamento di Big Data con dati legacy
  • Comprensione di base delle tecnologie abilitanti nell'analitica predittiva
  • Integrazione dei dati e visualizzazione del dashboard
  • Gestione della frode
  • Generazione di regole aziendali/rilevazione frodi
  • Rilevamento e profilatura delle minacce
  • Analisi costi-benefici per l'implementazione del Big Data

Giorno-1: Sessione-2 : Introduzione al Big Data-1

  • Caratteristiche principali del Big Data-volume, varietà, velocità e veridicità. Architettura MPP per il volume.
  • Warehouse di dati – schema statico, dataset che evolve lentamente
  • Database MPP come Greenplum, Exadata, Teradata, Netezza, Vertica ecc.
  • Soluzioni basate su Hadoop – nessuna condizione sulla struttura del dataset.
  • Schema tipico : HDFS, MapReduce (elaborazione), recupero da HDFS
  • Batch - adatto per analisi/non interattiva
  • Volume : dati di streaming CEP
  • Scelte tipiche – prodotti CEP (ad esempio Infostreams, Apama, MarkLogic ecc)
  • Meno pronti per la produzione – Storm/S4
  • Database NoSQL – (a colonne e a coppie chiave-valore): adatti come integrazione analitica al warehouse di dati/database

Giorno-1 : Sessione -3 : Introduzione al Big Data-2

Soluzioni NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Gerarchico) - GT.m, Cache
  • KV Store (Ordinato) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Database a oggetti - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Varietà di dati: introduzione al problema della pulizia dei dati nel Big Data

  • RDBMS – struttura/schema statico, non promuove un ambiente agile ed esplorativo.
  • NoSQL – semistrutturato, abbastanza strutturato per memorizzare i dati senza uno schema preciso prima del salvataggio
  • Problemi di pulizia dei dati

Giorno-1 : Sessione-4 : Introduzione al Big Data-3 : Hadoop

  • Quando scegliere Hadoop?
  • STRUTTURATO - I warehouse di dati aziendali/database possono memorizzare quantità massicce di dati (a un costo), ma impongono una struttura (non adatta per l'esplorazione attiva)
  • DATI SEMISTRUTTURATI – difficili da gestire con soluzioni tradizionali (warehouse di dati/database)
  • Warehousing dei dati = sforzo ENORME e statico anche dopo l'implementazione
  • Per la varietà e il volume di dati, elaborati su hardware a costo ridotto – HADOOP
  • Hardware commodity necessario per creare un cluster Hadoop

Introduzione a Map Reduce /HDFS

  • MapReduce – calcolo distribuito su più server
  • HDFS – rende disponibili i dati localmente per il processo di calcolo (con ridondanza)
  • Dati – possono essere non strutturati/senza schema (a differenza dei RDBMS)
  • Responsabilità dello sviluppatore di dare senso ai dati
  • Programmazione MapReduce = lavoro con Java (pro e contro), caricamento manuale dei dati in HDFS

Giorno-2: Sessione-1: Ecosystema Big Data-Building Big Data ETL: universo degli strumenti Big Data-quali usare e quando?

  • Hadoop vs. altre soluzioni NoSQL
  • Per l'accesso interattivo, casuale ai dati
  • Hbase (database a colonne) su Hadoop
  • Accesso casuale ai dati ma con restrizioni imposte (max 1 PB)
  • Non adatto per analisi ad-hoc, buono per log, conteggio, serie temporali
  • Sqoop - Importazione da database a Hive o HDFS (accesso JDBC/ODBC)
  • Flume – Streaming di dati (ad esempio log) in HDFS

Giorno-2: Sessione-2: Sistema di gestione del Big Data

  • Parti mobili, nodi di calcolo avviano/falliscono :ZooKeeper - Per configurazione/coordinamento/naming services
  • Pipeline/workflow complesse: Oozie – gestione workflow, dipendenze, concatenamento
  • Distribuzione, configurazione, gestione cluster, aggiornamenti ecc (amministratore di sistema) :Ambari
  • Nel cloud : Whirr

Giorno-2: Sessione-3: Analitica predittiva in Business Intelligence -1: Tecniche fondamentali e analitica BI basata su machine learning:

  • Introduzione al machine learning
  • Tecniche di classificazione
  • Predizione bayesiana-preparazione del file di training
  • Support Vector Machine
  • KNN p-Tree Algebra & mining verticale
  • Reti neurali
  • Problema di variabili numerose nel Big Data -Random forest (RF)
  • Problema di automazione nel Big Data – Multi-model ensemble RF
  • Automazione tramite Soft10-M
  • Strumento di analisi testuale-Treeminer
  • Apprendimento agile
  • Apprendimento basato su agenti
  • Apprendimento distribuito
  • Introduzione agli strumenti open source per l'analitica predittiva : R, Rapidminer, Mahut

Giorno-2: Sessione-4 Ecosystema di analisi predittive-2: Problemi comuni di analisi predittiva nel governo

  • Analisi di insight
  • Analisi visuale
  • Analisi predittiva strutturata
  • Analisi predittiva non strutturata
  • Profilatura di minacce/frodi/fornitori
  • Motore di raccomandazione
  • Rilevamento di pattern
  • Scoperta di regole/scenario – fallimento, frode, ottimizzazione
  • Scoperta della causa radice
  • Analisi del sentiment
  • Analisi CRM
  • Analisi di rete
  • Analisi testuale
  • Revisione assistita da tecnologia
  • Analisi della frode
  • Analisi in tempo reale

Giorno-3 : Sesion-1 : Analisi in tempo reale e scalabile su Hadoop

  • Perché gli algoritmi di analisi comuni falliscono in Hadoop/HDFS
  • Apache Hama- per il calcolo distribuito bulk sincrono
  • Apache SPARK- per il calcolo cluster per l'analisi in tempo reale
  • CMU Graphics Lab2- approccio asincrono basato su grafo al calcolo distribuito
  • Approccio KNN p-Algebra da Treeminer per ridurre il costo operativo del hardware

Giorno-3: Sessione-2: Strumenti per l'eDiscovery e la forensica

  • eDiscovery su Big Data vs. dati legacy – un confronto di costo e prestazioni
  • Codifica predittiva e revisione assistita da tecnologia (TAR)
  • Demo live di un prodotto TAR (vMiner) per comprendere come funziona la TAR per una scoperta più rapida
  • Indicizzazione più veloce attraverso HDFS – velocità dei dati
  • NLP o Elaborazione del linguaggio naturale – varie tecniche e prodotti open source
  • eDiscovery in lingue straniere- tecnologie per l'elaborazione delle lingue straniere

Giorno-3 : Sessione 3: Big Data BI per la sicurezza informatica – Comprensione di una visuale completa a 360 gradi dalla raccolta rapida dei dati all'identificazione delle minacce

  • Comprensione delle basi dell'analisi della sicurezza- superficie di attacco, configurazione errata della sicurezza, difese host
  • Infrastruttura di rete / Large datapipe / ETL di risposta per l'analisi in tempo reale
  • Prescrittivo vs predittivo – Regole fisse basate su auto-scoperta delle regole di minaccia dai metadati

Giorno-3: Sessione 4: Big Data nell'USDA : Applicazioni nell'agricoltura

  • Introduzione a IoT (Internet of Things) per l'agricoltura-sensori basati su Big Data e controllo
  • Introduzione all'imaging satellitare e sue applicazioni nell'agricoltura
  • Integrazione di dati sensori e immagini per la fertilità del suolo, raccomandazioni colturali e previsioni
  • Assicurazione agricola e Big Data
  • Previsione della perdita delle colture

Giorno-4 : Sessione-1: Prevenzione frodi BI dal Big Data nel governo-Analisi della frode:

  • Classificazione di base dell'analisi della frode- basata su regole vs analisi predittiva
  • Machine learning supervisionato vs non supervisionato per la rilevazione dei pattern di frode
  • Frode fornitori/sovrimposte per progetti
  • Frode Medicare e Medicaid- tecniche di rilevazione della frode per il processing delle richieste
  • Frodi sul rimborso viaggi
  • Frodi sui rimborsi fiscali dell'IRS
  • Saranno forniti studi di caso e demo live ogni volta che i dati saranno disponibili.

Giorno-4 : Sessione-2: Analisi dei social media- raccolta ed analisi delle informazioni

  • API Big Data ETL per l'estrazione di dati dai social media
  • Testo, immagini, metadati e video
  • Analisi del sentiment dai feed dei social media
  • Filtraggio contestuale e non contextuale dei feed dei social media
  • Dashboard dei social media per integrare diversi social media
  • Profilatura automatizzata del profilo di un utente dei social media
  • Sarà fornita una demo live di ogni analisi attraverso lo strumento Treeminer.

Giorno-4 : Sessione-3: Analitica Big Data nel processing delle immagini e dei feed video

  • Tecnologie di storage delle immagini nel Big Data- soluzioni di stoccaggio per dati che superano i petabyte
  • LTFS e LTO
  • GPFS-LTFS (soluzione a livelli di storage per grandi immagini)
  • Fondamenti dell'analitica delle immagini
  • Riconoscimento degli oggetti
  • Segmentazione delle immagini
  • Tracking del movimento
  • Ricostruzione 3-D delle immagini

Giorno-4: Sessione-4: Applicazioni di Big Data presso NIH:

  • Nuove aree della bioinformatica
  • Meta-genomica e problemi di mining del Big Data
  • Analitica predittiva del Big Data per farmacogenomica, metabolomica e proteomica
  • Big Data nel processo downstream della genomica
  • Applicazioni dell'analitica predittiva del Big Data nella salute pubblica

Dashboard Big Data per l'accesso rapido a dati diversificati e la loro visualizzazione:

  • Integrazione della piattaforma di applicazioni esistente con il Dashboard Big Data
  • Gestione del Big Data
  • Studio di caso del Dashboard Big Data: Tableau e Pentaho
  • Utilizzo dell'applicazione Big Data per fornire servizi basati sulla posizione nel governo
  • Sistema di tracciamento e gestione

Giorno-5 : Sessione-1: Come giustificare l'implementazione del Big Data BI all'interno di un'organizzazione:

  • Definizione dell'ROI per l'implementazione del Big Data
  • Studi di caso per il risparmio del tempo degli analisti nella raccolta e preparazione dei dati – aumento della produttività
  • Studi di caso di guadagno di ricavi dalla riduzione del costo delle database licenziate
  • Guadagno di ricavi dai servizi basati sulla posizione
  • Risparmio dalla prevenzione della frode
  • Un approccio integrato del foglio di calcolo per calcolare i costi approssimativi vs. guadagni/risparmi dall'implementazione del Big Data.

Giorno-5 : Sessione-2: Procedura passo-passo per sostituire il sistema di dati legacy con un sistema Big Data:

  • Comprensione della roadmap pratica per la migrazione del Big Data
  • Quali sono le informazioni importanti da acquisire prima di architettare un'implementazione del Big Data
  • In quali modi calcolare il volume, la velocità, la varietà e la veridicità dei dati
  • Come stimare la crescita dei dati
  • Studi di caso

Giorno-5: Sessione 4: Revisione dei fornitori Big Data e delle loro soluzioni. Sessione Q/A:

  • Accenture
  • APTEAN (in precedenza CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (in precedenza 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (parte di EMC)

Requisiti

  • Conoscenze di base delle operazioni aziendali e dei sistemi di dati governativi nel loro settore
  • Comprensione di base di SQL/Oracle o database relazionali
  • Conoscenze di base di Statistica (a livello di foglio di calcolo)
 35 Ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (1)

Corsi in Arrivo

Categorie relative