Struttura del corso

Ogni sessione dura 2 ore

Giorno 1: Sessione -1: Panoramica aziendale del motivo per cui la Business Intelligence dei Big Data in Govt.

  • Casi di studio da NIH, DoE
  • Tasso di adattamento dei Big Data nelle agenzie governative e come stanno allineando le loro operazioni future intorno ai Big Data Predictive Analytics
  • Area di applicazione su larga scala in DoD, NSA, IRS, USDA ecc.
  • Interfacciamento dei Big Data con i dati Legacy
  • Conoscenza di base delle tecnologie abilitanti nell'analisi predittiva
  • Integrazione dei dati e visualizzazione della dashboard
  • Gestione delle frodi
  • Generazione di regole di business/rilevamento delle frodi
  • Rilevamento e profilazione delle minacce
  • Analisi costi-benefici per l'implementazione dei Big Data

Giorno-1: Sessione-2 : Introduzione di Big Data-1

  • Caratteristiche principali dei Big Data: volume, varietà, velocità e veridicità. Architettura MPP per il volume.
  • Data Warehouse: schema statico, set di dati in lenta evoluzione
  • Database MPP come Greenplum, Exadata, Teradata, Netezza, Vertica ecc.
  • Soluzioni basate su Hadoop: nessuna condizione sulla struttura del set di dati.
  • Modello tipico: HDFS, MapReduce (crunch), recupero da HDFS
  • Batch: adatto per analisi analitiche/non interattive
  • Volume : CEP streaming data
  • Scelte tipiche – prodotti CEP (ad es. Infostreams, Apama, MarkLogic ecc.)
  • Meno pronto per la produzione – Storm/S4
  • Database NoSQL - (colonnari e chiave-valore): più adatto come aggiunta analitica al data warehouse/database

Giorno-1 : Sessione -3 : Introduzione a Big Data-2

NoSQL soluzioni

  • Archivio KV - Keyspace, Flare, SchemaFree, RAMCloud, database Oracle NoSQL (OnDB)
  • Negozio KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Archivio KV (gerarchico) - GT.m, Cache
  • Negozio KV (ordinato) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Negozio Tuple - Gigaspaces, Coord, Apache River
  • Database di oggetti - ZopeDB, DB40, Shoal
  • Archivio documenti - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Ampio archivio colonnare - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Varietà di dati: introduzione al problema Data Cleaning dei Big Data

  • RDBMS – struttura/schema statico, non promuove un ambiente agile ed esplorativo.
  • NoSQL - struttura semi-strutturata, sufficiente per memorizzare i dati senza uno schema esatto prima di memorizzare i dati
  • Problemi di pulizia dei dati

Giorno-1 : Sessione-4 : Introduzione ai Big Data-3 : Hadoop

  • Quando selezionare Hadoop?
  • STRUTTURATO - I data warehouse/database aziendali possono archiviare dati di grandi dimensioni (a pagamento) ma imporre una struttura (non adatta per l'esplorazione attiva)
  • Dati SEMI STRUTTURATI – difficili da fare con le soluzioni tradizionali (DW/DB)
  • Dati di magazzino = ENORME sforzo e statici anche dopo l'implementazione
  • Per la varietà e il volume dei dati, elaborati su hardware di base – HADOOP
  • Commodity H/W necessario per creare un Hadoop Cluster

Introduzione a Map Reduce /HDFS

  • MapReduce: distribuisci l'elaborazione su più server
  • HDFS: rende i dati disponibili localmente per il processo di elaborazione (con ridondanza)
  • Dati: possono essere non strutturati/senza schema (a differenza di RDBMS)
  • Responsabilità dello sviluppatore per dare un senso ai dati
  • Programming MapReduce = lavorare con Java (pro/contro), caricare manualmente i dati in HDFS

Giorno-2: Sessione-1: Big Data Costruzione dell'ecosistema Big Data ETL: universo di Big Data Strumenti: quale usare e quando?

  • Hadoop vs. altre soluzioni NoSQL
  • Per l'accesso interattivo e casuale ai dati
  • Hbase (database orientato alle colonne) su Hadoop
  • Accesso casuale ai dati ma restrizioni imposte (max 1 PB)
  • Non va bene per l'analisi ad hoc, va bene per la registrazione, il conteggio, le serie temporali
  • Sqoop - Importazione da database in Hive o HDFS (accesso JDBC/ODBC)
  • Flume – Trasmette i dati (ad es. dati .log) in HDFS

Giorno-2: Sessione-2: Big Data Management Sistema

  • Parti mobili, nodi di calcolo start/fail :ZooKeeper - Per i servizi di configurazione/coordinamento/denominazione
  • Pipeline/flusso di lavoro complesso: Oozie: gestione del flusso di lavoro, delle dipendenze, del collegamento a margherita
  • Distribuzione, configurazione, gestione del cluster, aggiornamento e così via (amministratore di sistema) :Ambari
  • In nuvola : Whirr

Giorno 2: Sessione-3: Analisi predittiva in Business Intelligence -1: Tecniche fondamentali e BI basata sull'apprendimento automatico:

  • Introduzione all'apprendimento automatico
  • Apprendimento delle tecniche di classificazione
  • File di training per la preparazione della previsione bayesiana
  • Macchina vettoriale di supporto
  • KNN p-Tree Algebra e estrazione mineraria verticale
  • Rete neurale
  • Big Data problema di grandi variabili -Foresta casuale (RF)
  • Big Data Problema di automazione – RF multi-modello ensemble
  • Automazione tramite Soft10-M
  • Strumento di analisi del testo-Treeminer
  • Apprendimento agile
  • Apprendimento basato su agenti
  • Apprendimento distribuito
  • Introduzione agli strumenti open source per l'analisi predittiva: R, Rapidminer, Mahut

Giorno-2: Sessione-4 Ecosistema di analisi predittiva-2: Problemi analitici predittivi comuni in Govt.

  • Analisi degli insight
  • Visualizzazione analitica
  • Analitica predittiva strutturata
  • Analitica predittiva non strutturata
  • Profilazione di minacce/fraudstar/vendor
  • Motore di raccomandazione
  • Rilevamento del modello
  • Individuazione di regole/scenari: errori, frodi, ottimizzazioni
  • Individuazione della causa principale
  • Analisi del sentiment
  • Analitica CRM
  • Analitica di rete
  • Analisi del testo
  • Revisione assistita dalla tecnologia
  • Analisi delle frodi
  • Analitica in tempo reale

Giorno-3 : Sesion-1 : Tempo reale e Scalaè diventato analitico su Hadoop

  • Perché gli algoritmi analitici comuni falliscono in Hadoop/HDFS
  • Apache Hama- per il calcolo distribuito sincrono di massa
  • Apache SPARK - per il cluster computing per l'analisi in tempo reale
  • CMU Graphics Lab2 - Approccio asincrono basato su grafi al calcolo distribuito
  • Approccio basato su KNN p-Algebra di Treeminer per ridurre i costi operativi dell'hardware

Giorno 3: Sessione 2: Strumenti per l'eDiscovery e l'analisi forense

  • eDiscovery over Big Data vs. dati legacy: un confronto tra costi e prestazioni
  • Codifica predittiva e revisione assistita dalla tecnologia (TAR)
  • Demo live di un prodotto Tar (vMiner) per capire come funziona TAR per una scoperta più rapida
  • Indicizzazione più rapida tramite HDFS – velocità dei dati
  • NLP o Natural Language processing: varie tecniche e prodotti open source
  • eDiscovery nelle lingue straniere - tecnologia per l'elaborazione delle lingue straniere

Giorno-3 : Sessione 3: Big Data BI per Cyber Security – Comprendere tutte le viste a 360 gradi della rapida raccolta dei dati per l'identificazione delle minacce

  • Comprendere le nozioni di base dell'analisi della sicurezza: superficie di attacco, configurazione errata della sicurezza, difese dell'host
  • Infrastruttura di rete/ Datapipe di grandi dimensioni/Response ETL per l'analisi in tempo reale
  • Prescrittivo vs predittivo: corretto il rilevamento basato su regole e automatico delle regole di minaccia dai metadati

Giorno-3: Sessione 4: Big Data in USDA: Applicazione in agricoltura

  • Introduzione all'IoT (Internet of Things) per l'agricoltura basata su sensori Big Data e controllo
  • Introduzione all'imaging satellitare e alla sua applicazione in agricoltura
  • Integrazione di sensori e dati di immagini per la fertilità del suolo, raccomandazioni e previsioni di coltivazione
  • Assicurazione per l'agricoltura e Big Data
  • Previsione delle perdite di raccolto

Giorno-4 : Sessione-1: Prevenzione delle frodi BI da Big Data in Govt-Fraud analytic:

  • Classificazione di base dell'analisi delle frodi: analisi basata su regole e analisi predittiva
  • Apprendimento automatico supervisionato e non supervisionato per il rilevamento di modelli di frode
  • Frode del fornitore/addebito eccessivo per i progetti
  • Tecniche di rilevamento delle frodi Medicare e Medicaid per l'elaborazione delle richieste di risarcimento
  • Frodi sui rimborsi di viaggio
  • Frodi sui rimborsi dell'IRS
  • Casi di studio e dimostrazioni dal vivo saranno forniti ovunque siano disponibili i dati.

Giorno-4 : Sessione-2: Social Media Analitica - Raccolta e analisi di intelligence

  • API ETL Big Data per l'estrazione dei dati dei social media
  • Testo, immagine, metadati e video
  • Analisi del sentiment dal feed dei social media
  • Filtraggio contestuale e non contestuale del feed dei social media
  • Social Media Dashboard per l'integrazione di diversi social media
  • Profilazione automatizzata del profilo social media
  • La demo dal vivo di ogni analisi sarà fornita tramite Treeminer Tool.

Giorno-4 : Sessione-3: Big Data Analitica nell'elaborazione delle immagini e nei feed video

  • Tecniche di archiviazione delle immagini in Big Data- Soluzione di archiviazione per dati superiori a petabyte
  • LTFS e LTO
  • GPFS-LTFS (soluzione di archiviazione a più livelli per dati di grandi immagini)
  • Fondamenti di analisi delle immagini
  • Riconoscimento degli oggetti
  • Segmentazione delle immagini
  • Tracciamento del movimento
  • Ricostruzione dell'immagine 3D

Giorno-4: Sessione-4: Big Data domande in NIH:

  • Aree emergenti dell'informatica Bio
  • Meta-genomica e problemi di Big Data mining
  • Analitica predittiva dei Big Data per la Farmacogenomica, la Metabolomica e la Proteomica
  • Big Data nel processo di genomica a valle
  • Applicazione dell'analisi predittiva dei Big Data nella sanità pubblica

Big Data Dashboard per una rapida accessibilità di diversi dati e visualizzazione:

  • Integrazione della piattaforma applicativa esistente con Big Data Dashboard
  • Gestione dei Big Data
  • Caso di studio di Big Data Dashboard: Tableau e Pentaho
  • Usa l'app Big Data per spingere i servizi basati sulla posizione nel governo.
  • Sistema di tracciamento e gestione

Giorno-5 : Sessione-1: Come giustificare Big Data l'implementazione della BI all'interno di un'organizzazione:

  • Definizione del ROI per l'implementazione Big Data
  • Casi di studio per risparmiare tempo all'analista per la raccolta e la preparazione dei dati – aumento dell'aumento della produttività
  • Casi di studio di guadagno derivante dal risparmio sui costi del database concesso in licenza
  • Aumento dei ricavi dai servizi basati sulla localizzazione
  • Risparmiare dalla prevenzione delle frodi
  • Un approccio integrato basato su fogli di calcolo per calcolare approssimativamente le spese rispetto ai guadagni/risparmi derivanti dall'implementazione Big Data.

Giorno-5 : Sessione-2: Procedura passo dopo passo per sostituire il sistema di dati legacy con Big Data Sistema:

  • Comprendere la Big Data Roadmap pratica per la migrazione
  • Quali sono le informazioni importanti necessarie prima di progettare un'implementazione Big Data
  • Quali sono i diversi modi di calcolare il volume, la velocità, la varietà e la veridicità dei dati
  • Come stimare la crescita dei dati
  • Casi di studio

Giorno 5: Sessione 4: Revisione di Big Data fornitori e revisione dei loro prodotti. Sessione Q/A:

  • Accenture
  • APTEAN (precedentemente CDC Software)
  • Sistemi Cisco
  • Cloudera
  • Valletta
  • EMC
  • GoodData Corporation
  • Guavus
  • Sistemi di dati Hitachi
  • Hortonworks
  • CV
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft (in inglese)
  • MongoDB (in precedenza 10Gen)
  • MU Sigma
  • Netapp
  • Soluzioni Opera
  • Oracolo
  • Pentaho
  • Piattaforma
  • Qliktech
  • Quanto
  • Spazio rack
  • Analisi della rivoluzione
  • Forza vendita
  • LINFA
  • Istituto SAS
  • Sisense
  • Software AG/Terracotta
  • Automazione Soft10
  • Spicchio
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Pensa in grande all'analisi
  • Sistemi Tidemark
  • Minatore di alberi
  • VMware (Parte di EMC)

Requisiti

  • Conoscenza di base delle operazioni aziendali e dei sistemi di dati nel governo nel loro dominio
  • Conoscenza di base di SQL/Oracle o database relazionale
  • Conoscenza di base di Statistics (a livello di foglio di calcolo) 
  35 ore
 

Numero di Partecipanti


Data Inizio

Data Fine


Le date sono soggette a disponibilità e si svolgono tra le 09:30 e le 16:30.
I corsi di formazione pubblici richiedono più di 5 partecipanti.

Recensioni (4)

Corsi relativi

Categorie relative