Grazie per aver inviato la tua richiesta! Uno dei nostri team membri ti contatterà a breve.
Grazie per aver inviato il tuo prenotazione! Uno dei nostri team membri ti contatterà a breve.
Struttura del corso
Ogni sessione dura 2 ore
Giorno-1: Sessione -1: Panoramica aziendale del Big Data Business Intelligence nel governo
- Studi di caso da NIH, DoE
- Tasso di adozione del Big Data nelle agenzie governative e come stanno allineando le loro operazioni future intorno all'analitica predittiva del Big Data
- Ampia area applicativa nel DoD, NSA, IRS, USDA ecc.
- Interfacciamento di Big Data con dati legacy
- Comprensione di base delle tecnologie abilitanti nell'analitica predittiva
- Integrazione dei dati e visualizzazione del dashboard
- Gestione della frode
- Generazione di regole aziendali/rilevazione frodi
- Rilevamento e profilatura delle minacce
- Analisi costi-benefici per l'implementazione del Big Data
Giorno-1: Sessione-2 : Introduzione al Big Data-1
- Caratteristiche principali del Big Data-volume, varietà, velocità e veridicità. Architettura MPP per il volume.
- Warehouse di dati – schema statico, dataset che evolve lentamente
- Database MPP come Greenplum, Exadata, Teradata, Netezza, Vertica ecc.
- Soluzioni basate su Hadoop – nessuna condizione sulla struttura del dataset.
- Schema tipico : HDFS, MapReduce (elaborazione), recupero da HDFS
- Batch - adatto per analisi/non interattiva
- Volume : dati di streaming CEP
- Scelte tipiche – prodotti CEP (ad esempio Infostreams, Apama, MarkLogic ecc)
- Meno pronti per la produzione – Storm/S4
- Database NoSQL – (a colonne e a coppie chiave-valore): adatti come integrazione analitica al warehouse di dati/database
Giorno-1 : Sessione -3 : Introduzione al Big Data-2
Soluzioni NoSQL
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Gerarchico) - GT.m, Cache
- KV Store (Ordinato) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Database a oggetti - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Varietà di dati: introduzione al problema della pulizia dei dati nel Big Data
- RDBMS – struttura/schema statico, non promuove un ambiente agile ed esplorativo.
- NoSQL – semistrutturato, abbastanza strutturato per memorizzare i dati senza uno schema preciso prima del salvataggio
- Problemi di pulizia dei dati
Giorno-1 : Sessione-4 : Introduzione al Big Data-3 : Hadoop
- Quando scegliere Hadoop?
- STRUTTURATO - I warehouse di dati aziendali/database possono memorizzare quantità massicce di dati (a un costo), ma impongono una struttura (non adatta per l'esplorazione attiva)
- DATI SEMISTRUTTURATI – difficili da gestire con soluzioni tradizionali (warehouse di dati/database)
- Warehousing dei dati = sforzo ENORME e statico anche dopo l'implementazione
- Per la varietà e il volume di dati, elaborati su hardware a costo ridotto – HADOOP
- Hardware commodity necessario per creare un cluster Hadoop
Introduzione a Map Reduce /HDFS
- MapReduce – calcolo distribuito su più server
- HDFS – rende disponibili i dati localmente per il processo di calcolo (con ridondanza)
- Dati – possono essere non strutturati/senza schema (a differenza dei RDBMS)
- Responsabilità dello sviluppatore di dare senso ai dati
- Programmazione MapReduce = lavoro con Java (pro e contro), caricamento manuale dei dati in HDFS
Giorno-2: Sessione-1: Ecosystema Big Data-Building Big Data ETL: universo degli strumenti Big Data-quali usare e quando?
- Hadoop vs. altre soluzioni NoSQL
- Per l'accesso interattivo, casuale ai dati
- Hbase (database a colonne) su Hadoop
- Accesso casuale ai dati ma con restrizioni imposte (max 1 PB)
- Non adatto per analisi ad-hoc, buono per log, conteggio, serie temporali
- Sqoop - Importazione da database a Hive o HDFS (accesso JDBC/ODBC)
- Flume – Streaming di dati (ad esempio log) in HDFS
Giorno-2: Sessione-2: Sistema di gestione del Big Data
- Parti mobili, nodi di calcolo avviano/falliscono :ZooKeeper - Per configurazione/coordinamento/naming services
- Pipeline/workflow complesse: Oozie – gestione workflow, dipendenze, concatenamento
- Distribuzione, configurazione, gestione cluster, aggiornamenti ecc (amministratore di sistema) :Ambari
- Nel cloud : Whirr
Giorno-2: Sessione-3: Analitica predittiva in Business Intelligence -1: Tecniche fondamentali e analitica BI basata su machine learning:
- Introduzione al machine learning
- Tecniche di classificazione
- Predizione bayesiana-preparazione del file di training
- Support Vector Machine
- KNN p-Tree Algebra & mining verticale
- Reti neurali
- Problema di variabili numerose nel Big Data -Random forest (RF)
- Problema di automazione nel Big Data – Multi-model ensemble RF
- Automazione tramite Soft10-M
- Strumento di analisi testuale-Treeminer
- Apprendimento agile
- Apprendimento basato su agenti
- Apprendimento distribuito
- Introduzione agli strumenti open source per l'analitica predittiva : R, Rapidminer, Mahut
Giorno-2: Sessione-4 Ecosystema di analisi predittive-2: Problemi comuni di analisi predittiva nel governo
- Analisi di insight
- Analisi visuale
- Analisi predittiva strutturata
- Analisi predittiva non strutturata
- Profilatura di minacce/frodi/fornitori
- Motore di raccomandazione
- Rilevamento di pattern
- Scoperta di regole/scenario – fallimento, frode, ottimizzazione
- Scoperta della causa radice
- Analisi del sentiment
- Analisi CRM
- Analisi di rete
- Analisi testuale
- Revisione assistita da tecnologia
- Analisi della frode
- Analisi in tempo reale
Giorno-3 : Sesion-1 : Analisi in tempo reale e scalabile su Hadoop
- Perché gli algoritmi di analisi comuni falliscono in Hadoop/HDFS
- Apache Hama- per il calcolo distribuito bulk sincrono
- Apache SPARK- per il calcolo cluster per l'analisi in tempo reale
- CMU Graphics Lab2- approccio asincrono basato su grafo al calcolo distribuito
- Approccio KNN p-Algebra da Treeminer per ridurre il costo operativo del hardware
Giorno-3: Sessione-2: Strumenti per l'eDiscovery e la forensica
- eDiscovery su Big Data vs. dati legacy – un confronto di costo e prestazioni
- Codifica predittiva e revisione assistita da tecnologia (TAR)
- Demo live di un prodotto TAR (vMiner) per comprendere come funziona la TAR per una scoperta più rapida
- Indicizzazione più veloce attraverso HDFS – velocità dei dati
- NLP o Elaborazione del linguaggio naturale – varie tecniche e prodotti open source
- eDiscovery in lingue straniere- tecnologie per l'elaborazione delle lingue straniere
Giorno-3 : Sessione 3: Big Data BI per la sicurezza informatica – Comprensione di una visuale completa a 360 gradi dalla raccolta rapida dei dati all'identificazione delle minacce
- Comprensione delle basi dell'analisi della sicurezza- superficie di attacco, configurazione errata della sicurezza, difese host
- Infrastruttura di rete / Large datapipe / ETL di risposta per l'analisi in tempo reale
- Prescrittivo vs predittivo – Regole fisse basate su auto-scoperta delle regole di minaccia dai metadati
Giorno-3: Sessione 4: Big Data nell'USDA : Applicazioni nell'agricoltura
- Introduzione a IoT (Internet of Things) per l'agricoltura-sensori basati su Big Data e controllo
- Introduzione all'imaging satellitare e sue applicazioni nell'agricoltura
- Integrazione di dati sensori e immagini per la fertilità del suolo, raccomandazioni colturali e previsioni
- Assicurazione agricola e Big Data
- Previsione della perdita delle colture
Giorno-4 : Sessione-1: Prevenzione frodi BI dal Big Data nel governo-Analisi della frode:
- Classificazione di base dell'analisi della frode- basata su regole vs analisi predittiva
- Machine learning supervisionato vs non supervisionato per la rilevazione dei pattern di frode
- Frode fornitori/sovrimposte per progetti
- Frode Medicare e Medicaid- tecniche di rilevazione della frode per il processing delle richieste
- Frodi sul rimborso viaggi
- Frodi sui rimborsi fiscali dell'IRS
- Saranno forniti studi di caso e demo live ogni volta che i dati saranno disponibili.
Giorno-4 : Sessione-2: Analisi dei social media- raccolta ed analisi delle informazioni
- API Big Data ETL per l'estrazione di dati dai social media
- Testo, immagini, metadati e video
- Analisi del sentiment dai feed dei social media
- Filtraggio contestuale e non contextuale dei feed dei social media
- Dashboard dei social media per integrare diversi social media
- Profilatura automatizzata del profilo di un utente dei social media
- Sarà fornita una demo live di ogni analisi attraverso lo strumento Treeminer.
Giorno-4 : Sessione-3: Analitica Big Data nel processing delle immagini e dei feed video
- Tecnologie di storage delle immagini nel Big Data- soluzioni di stoccaggio per dati che superano i petabyte
- LTFS e LTO
- GPFS-LTFS (soluzione a livelli di storage per grandi immagini)
- Fondamenti dell'analitica delle immagini
- Riconoscimento degli oggetti
- Segmentazione delle immagini
- Tracking del movimento
- Ricostruzione 3-D delle immagini
Giorno-4: Sessione-4: Applicazioni di Big Data presso NIH:
- Nuove aree della bioinformatica
- Meta-genomica e problemi di mining del Big Data
- Analitica predittiva del Big Data per farmacogenomica, metabolomica e proteomica
- Big Data nel processo downstream della genomica
- Applicazioni dell'analitica predittiva del Big Data nella salute pubblica
Dashboard Big Data per l'accesso rapido a dati diversificati e la loro visualizzazione:
- Integrazione della piattaforma di applicazioni esistente con il Dashboard Big Data
- Gestione del Big Data
- Studio di caso del Dashboard Big Data: Tableau e Pentaho
- Utilizzo dell'applicazione Big Data per fornire servizi basati sulla posizione nel governo
- Sistema di tracciamento e gestione
Giorno-5 : Sessione-1: Come giustificare l'implementazione del Big Data BI all'interno di un'organizzazione:
- Definizione dell'ROI per l'implementazione del Big Data
- Studi di caso per il risparmio del tempo degli analisti nella raccolta e preparazione dei dati – aumento della produttività
- Studi di caso di guadagno di ricavi dalla riduzione del costo delle database licenziate
- Guadagno di ricavi dai servizi basati sulla posizione
- Risparmio dalla prevenzione della frode
- Un approccio integrato del foglio di calcolo per calcolare i costi approssimativi vs. guadagni/risparmi dall'implementazione del Big Data.
Giorno-5 : Sessione-2: Procedura passo-passo per sostituire il sistema di dati legacy con un sistema Big Data:
- Comprensione della roadmap pratica per la migrazione del Big Data
- Quali sono le informazioni importanti da acquisire prima di architettare un'implementazione del Big Data
- In quali modi calcolare il volume, la velocità, la varietà e la veridicità dei dati
- Come stimare la crescita dei dati
- Studi di caso
Giorno-5: Sessione 4: Revisione dei fornitori Big Data e delle loro soluzioni. Sessione Q/A:
- Accenture
- APTEAN (in precedenza CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (in precedenza 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (parte di EMC)
Requisiti
- Conoscenze di base delle operazioni aziendali e dei sistemi di dati governativi nel loro settore
- Comprensione di base di SQL/Oracle o database relazionali
- Conoscenze di base di Statistica (a livello di foglio di calcolo)
35 Ore
Recensioni (1)
La capacità del formatore di allineare il corso ai requisiti dell'organizzazione, piuttosto che limitarsi a erogarlo solo per motivi formali.
Masilonyane - Revenue Services Lesotho
Corso - Big Data Business Intelligence for Govt. Agencies
Traduzione automatica