Grazie per aver inviato la vostra richiesta! Un membro del nostro team vi contatterà a breve.
Grazie per aver inviato la vostra prenotazione! Un membro del nostro team vi contatterà a breve.
Struttura del corso
Ogni sessione dura 2 ore
Giorno 1: Sessione -1: Panoramica aziendale del motivo per cui la Business Intelligence dei Big Data in Govt.
- Casi di studio da NIH, DoE
- Tasso di adattamento dei Big Data nelle agenzie governative e come stanno allineando le loro operazioni future intorno ai Big Data Predictive Analytics
- Area di applicazione su larga scala in DoD, NSA, IRS, USDA ecc.
- Interfacciamento dei Big Data con i dati Legacy
- Conoscenza di base delle tecnologie abilitanti nell'analisi predittiva
- Integrazione dei dati e visualizzazione della dashboard
- Gestione delle frodi
- Generazione di regole di business/rilevamento delle frodi
- Rilevamento e profilazione delle minacce
- Analisi costi-benefici per l'implementazione dei Big Data
Giorno-1: Sessione-2 : Introduzione di Big Data-1
- Caratteristiche principali dei Big Data: volume, varietà, velocità e veridicità. Architettura MPP per il volume.
- Data Warehouse: schema statico, set di dati in lenta evoluzione
- Database MPP come Greenplum, Exadata, Teradata, Netezza, Vertica ecc.
- Soluzioni basate su Hadoop: nessuna condizione sulla struttura del set di dati.
- Modello tipico: HDFS, MapReduce (crunch), recupero da HDFS
- Batch: adatto per analisi analitiche/non interattive
- Volume : CEP streaming data
- Scelte tipiche – prodotti CEP (ad es. Infostreams, Apama, MarkLogic ecc.)
- Meno pronto per la produzione – Storm/S4
- Database NoSQL - (colonnari e chiave-valore): più adatto come aggiunta analitica al data warehouse/database
Giorno-1 : Sessione -3 : Introduzione a Big Data-2
NoSQL soluzioni
- Archivio KV - Keyspace, Flare, SchemaFree, RAMCloud, database Oracle NoSQL (OnDB)
- Negozio KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Archivio KV (gerarchico) - GT.m, Cache
- Negozio KV (ordinato) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Negozio Tuple - Gigaspaces, Coord, Apache River
- Database di oggetti - ZopeDB, DB40, Shoal
- Archivio documenti - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Ampio archivio colonnare - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Varietà di dati: introduzione al problema Data Cleaning dei Big Data
- RDBMS – struttura/schema statico, non promuove un ambiente agile ed esplorativo.
- NoSQL - struttura semi-strutturata, sufficiente per memorizzare i dati senza uno schema esatto prima di memorizzare i dati
- Problemi di pulizia dei dati
Giorno-1 : Sessione-4 : Introduzione ai Big Data-3 : Hadoop
- Quando selezionare Hadoop?
- STRUTTURATO - I data warehouse/database aziendali possono archiviare dati di grandi dimensioni (a pagamento) ma imporre una struttura (non adatta per l'esplorazione attiva)
- Dati SEMI STRUTTURATI – difficili da fare con le soluzioni tradizionali (DW/DB)
- Dati di magazzino = ENORME sforzo e statici anche dopo l'implementazione
- Per la varietà e il volume dei dati, elaborati su hardware di base – HADOOP
- Commodity H/W necessario per creare un Hadoop Cluster
Introduzione a Map Reduce /HDFS
- MapReduce: distribuisci l'elaborazione su più server
- HDFS: rende i dati disponibili localmente per il processo di elaborazione (con ridondanza)
- Dati: possono essere non strutturati/senza schema (a differenza di RDBMS)
- Responsabilità dello sviluppatore per dare un senso ai dati
- Programming MapReduce = lavorare con Java (pro/contro), caricare manualmente i dati in HDFS
Giorno-2: Sessione-1: Big Data Costruzione dell'ecosistema Big Data ETL: universo di Big Data Strumenti: quale usare e quando?
- Hadoop vs. altre soluzioni NoSQL
- Per l'accesso interattivo e casuale ai dati
- Hbase (database orientato alle colonne) su Hadoop
- Accesso casuale ai dati ma restrizioni imposte (max 1 PB)
- Non va bene per l'analisi ad hoc, va bene per la registrazione, il conteggio, le serie temporali
- Sqoop - Importazione da database in Hive o HDFS (accesso JDBC/ODBC)
- Flume – Trasmette i dati (ad es. dati .log) in HDFS
Giorno-2: Sessione-2: Big Data Management Sistema
- Parti mobili, nodi di calcolo start/fail :ZooKeeper - Per i servizi di configurazione/coordinamento/denominazione
- Pipeline/flusso di lavoro complesso: Oozie: gestione del flusso di lavoro, delle dipendenze, del collegamento a margherita
- Distribuzione, configurazione, gestione del cluster, aggiornamento e così via (amministratore di sistema) :Ambari
- In nuvola : Whirr
Giorno 2: Sessione-3: Analisi predittiva in Business Intelligence -1: Tecniche fondamentali e BI basata sull'apprendimento automatico:
- Introduzione all'apprendimento automatico
- Apprendimento delle tecniche di classificazione
- File di training per la preparazione della previsione bayesiana
- Macchina vettoriale di supporto
- KNN p-Tree Algebra e estrazione mineraria verticale
- Rete neurale
- Big Data problema di grandi variabili -Foresta casuale (RF)
- Big Data Problema di automazione – RF multi-modello ensemble
- Automazione tramite Soft10-M
- Strumento di analisi del testo-Treeminer
- Apprendimento agile
- Apprendimento basato su agenti
- Apprendimento distribuito
- Introduzione agli strumenti open source per l'analisi predittiva: R, Rapidminer, Mahut
Giorno-2: Sessione-4 Ecosistema di analisi predittiva-2: Problemi analitici predittivi comuni in Govt.
- Analisi degli insight
- Visualizzazione analitica
- Analitica predittiva strutturata
- Analitica predittiva non strutturata
- Profilazione di minacce/fraudstar/vendor
- Motore di raccomandazione
- Rilevamento del modello
- Individuazione di regole/scenari: errori, frodi, ottimizzazioni
- Individuazione della causa principale
- Analisi del sentiment
- Analitica CRM
- Analitica di rete
- Analisi del testo
- Revisione assistita dalla tecnologia
- Analisi delle frodi
- Analitica in tempo reale
Giorno-3 : Sesion-1 : Tempo reale e Scalaè diventato analitico su Hadoop
- Perché gli algoritmi analitici comuni falliscono in Hadoop/HDFS
- Apache Hama- per il calcolo distribuito sincrono di massa
- Apache SPARK - per il cluster computing per l'analisi in tempo reale
- CMU Graphics Lab2 - Approccio asincrono basato su grafi al calcolo distribuito
- Approccio basato su KNN p-Algebra di Treeminer per ridurre i costi operativi dell'hardware
Giorno 3: Sessione 2: Strumenti per l'eDiscovery e l'analisi forense
- eDiscovery over Big Data vs. dati legacy: un confronto tra costi e prestazioni
- Codifica predittiva e revisione assistita dalla tecnologia (TAR)
- Demo live di un prodotto Tar (vMiner) per capire come funziona TAR per una scoperta più rapida
- Indicizzazione più rapida tramite HDFS – velocità dei dati
- NLP o Natural Language processing: varie tecniche e prodotti open source
- eDiscovery nelle lingue straniere - tecnologia per l'elaborazione delle lingue straniere
Giorno-3 : Sessione 3: Big Data BI per Cyber Security – Comprendere tutte le viste a 360 gradi della rapida raccolta dei dati per l'identificazione delle minacce
- Comprendere le nozioni di base dell'analisi della sicurezza: superficie di attacco, configurazione errata della sicurezza, difese dell'host
- Infrastruttura di rete/ Datapipe di grandi dimensioni/Response ETL per l'analisi in tempo reale
- Prescrittivo vs predittivo: corretto il rilevamento basato su regole e automatico delle regole di minaccia dai metadati
Giorno-3: Sessione 4: Big Data in USDA: Applicazione in agricoltura
- Introduzione all'IoT (Internet of Things) per l'agricoltura basata su sensori Big Data e controllo
- Introduzione all'imaging satellitare e alla sua applicazione in agricoltura
- Integrazione di sensori e dati di immagini per la fertilità del suolo, raccomandazioni e previsioni di coltivazione
- Assicurazione per l'agricoltura e Big Data
- Previsione delle perdite di raccolto
Giorno-4 : Sessione-1: Prevenzione delle frodi BI da Big Data in Govt-Fraud analytic:
- Classificazione di base dell'analisi delle frodi: analisi basata su regole e analisi predittiva
- Apprendimento automatico supervisionato e non supervisionato per il rilevamento di modelli di frode
- Frode del fornitore/addebito eccessivo per i progetti
- Tecniche di rilevamento delle frodi Medicare e Medicaid per l'elaborazione delle richieste di risarcimento
- Frodi sui rimborsi di viaggio
- Frodi sui rimborsi dell'IRS
- Casi di studio e dimostrazioni dal vivo saranno forniti ovunque siano disponibili i dati.
Giorno-4 : Sessione-2: Social Media Analitica - Raccolta e analisi di intelligence
- API ETL Big Data per l'estrazione dei dati dei social media
- Testo, immagine, metadati e video
- Analisi del sentiment dal feed dei social media
- Filtraggio contestuale e non contestuale del feed dei social media
- Social Media Dashboard per l'integrazione di diversi social media
- Profilazione automatizzata del profilo social media
- La demo dal vivo di ogni analisi sarà fornita tramite Treeminer Tool.
Giorno-4 : Sessione-3: Big Data Analitica nell'elaborazione delle immagini e nei feed video
- Tecniche di archiviazione delle immagini in Big Data- Soluzione di archiviazione per dati superiori a petabyte
- LTFS e LTO
- GPFS-LTFS (soluzione di archiviazione a più livelli per dati di grandi immagini)
- Fondamenti di analisi delle immagini
- Riconoscimento degli oggetti
- Segmentazione delle immagini
- Tracciamento del movimento
- Ricostruzione dell'immagine 3D
Giorno-4: Sessione-4: Big Data domande in NIH:
- Aree emergenti dell'informatica Bio
- Meta-genomica e problemi di Big Data mining
- Analitica predittiva dei Big Data per la Farmacogenomica, la Metabolomica e la Proteomica
- Big Data nel processo di genomica a valle
- Applicazione dell'analisi predittiva dei Big Data nella sanità pubblica
Big Data Dashboard per una rapida accessibilità di diversi dati e visualizzazione:
- Integrazione della piattaforma applicativa esistente con Big Data Dashboard
- Gestione dei Big Data
- Caso di studio di Big Data Dashboard: Tableau e Pentaho
- Usa l'app Big Data per spingere i servizi basati sulla posizione nel governo.
- Sistema di tracciamento e gestione
Giorno-5 : Sessione-1: Come giustificare Big Data l'implementazione della BI all'interno di un'organizzazione:
- Definizione del ROI per l'implementazione Big Data
- Casi di studio per risparmiare tempo all'analista per la raccolta e la preparazione dei dati – aumento dell'aumento della produttività
- Casi di studio di guadagno derivante dal risparmio sui costi del database concesso in licenza
- Aumento dei ricavi dai servizi basati sulla localizzazione
- Risparmiare dalla prevenzione delle frodi
- Un approccio integrato basato su fogli di calcolo per calcolare approssimativamente le spese rispetto ai guadagni/risparmi derivanti dall'implementazione Big Data.
Giorno-5 : Sessione-2: Procedura passo dopo passo per sostituire il sistema di dati legacy con Big Data Sistema:
- Comprendere la Big Data Roadmap pratica per la migrazione
- Quali sono le informazioni importanti necessarie prima di progettare un'implementazione Big Data
- Quali sono i diversi modi di calcolare il volume, la velocità, la varietà e la veridicità dei dati
- Come stimare la crescita dei dati
- Casi di studio
Giorno 5: Sessione 4: Revisione di Big Data fornitori e revisione dei loro prodotti. Sessione Q/A:
- Accenture
- APTEAN (precedentemente CDC Software)
- Sistemi Cisco
- Cloudera
- Valletta
- EMC
- GoodData Corporation
- Guavus
- Sistemi di dati Hitachi
- Hortonworks
- CV
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft (in inglese)
- MongoDB (in precedenza 10Gen)
- MU Sigma
- Netapp
- Soluzioni Opera
- Oracolo
- Pentaho
- Piattaforma
- Qliktech
- Quanto
- Spazio rack
- Analisi della rivoluzione
- Forza vendita
- LINFA
- Istituto SAS
- Sisense
- Software AG/Terracotta
- Automazione Soft10
- Spicchio
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Pensa in grande all'analisi
- Sistemi Tidemark
- Minatore di alberi
- VMware (Parte di EMC)
Requisiti
- Conoscenza di base delle operazioni aziendali e dei sistemi di dati nel governo nel loro dominio
- Conoscenza di base di SQL/Oracle o database relazionale
- Conoscenza di base di Statistics (a livello di foglio di calcolo)
35 ore
Recensioni (4)
Le abilità orali e il lato umano del formatore (Augustin).
Jeremy Chicon - TE Connectivity
Corso - NB-IoT for Developers
Traduzione automatica
Spiegazioni chiare con buoni esempi in modo da potermi relazionare con la mia linea di lavoro.
Elaine Vermeulen - Sandoz BV
Corso - Alteryx for Developers
Traduzione automatica
I enjoyed the exercises session the most as I get to understand how to apply. Would definitely enjoyed it more if there are more combination exercises :)
Joan Ng
Corso - Data Preparation with Alteryx
Use cases were awesome! and Ray involved each and every one of us in each use case.