Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Struttura del corso
Ogni sessione dura 2 ore
Giorno 1: Sessione -1: Panoramica aziendale del motivo per cui la Business Intelligence dei Big Data in Govt.
- Casi di studio da NIH, DoE
- Tasso di adattamento dei Big Data nelle agenzie governative e come stanno allineando le loro operazioni future intorno ai Big Data Predictive Analytics
- Area di applicazione su larga scala in DoD, NSA, IRS, USDA ecc.
- Interfacciamento dei Big Data con i dati Legacy
- Conoscenza di base delle tecnologie abilitanti nell'analisi predittiva
- Integrazione dei dati e visualizzazione della dashboard
- Gestione delle frodi
- Generazione di regole di business/rilevamento delle frodi
- Rilevamento e profilazione delle minacce
- Analisi costi-benefici per l'implementazione dei Big Data
Giorno-1: Sessione-2 : Introduzione di Big Data-1
- Caratteristiche principali dei Big Data: volume, varietà, velocità e veridicità. Architettura MPP per il volume.
- Data Warehouse: schema statico, set di dati in lenta evoluzione
- Database MPP come Greenplum, Exadata, Teradata, Netezza, Vertica ecc.
- Soluzioni basate su Hadoop: nessuna condizione sulla struttura del set di dati.
- Modello tipico: HDFS, MapReduce (crunch), recupero da HDFS
- Batch: adatto per analisi analitiche/non interattive
- Volume : CEP streaming data
- Scelte tipiche – prodotti CEP (ad es. Infostreams, Apama, MarkLogic ecc.)
- Meno pronto per la produzione – Storm/S4
- Database NoSQL - (colonnari e chiave-valore): più adatto come aggiunta analitica al data warehouse/database
Giorno-1 : Sessione -3 : Introduzione a Big Data-2
NoSQL soluzioni
- Archivio KV - Keyspace, Flare, SchemaFree, RAMCloud, database Oracle NoSQL (OnDB)
- Negozio KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Archivio KV (gerarchico) - GT.m, Cache
- Negozio KV (ordinato) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Negozio Tuple - Gigaspaces, Coord, Apache River
- Database di oggetti - ZopeDB, DB40, Shoal
- Archivio documenti - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Ampio archivio colonnare - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Varietà di dati: introduzione al problema Data Cleaning dei Big Data
- RDBMS – struttura/schema statico, non promuove un ambiente agile ed esplorativo.
- NoSQL - struttura semi-strutturata, sufficiente per memorizzare i dati senza uno schema esatto prima di memorizzare i dati
- Problemi di pulizia dei dati
Giorno-1 : Sessione-4 : Introduzione ai Big Data-3 : Hadoop
- Quando selezionare Hadoop?
- STRUTTURATO - I data warehouse/database aziendali possono archiviare dati di grandi dimensioni (a pagamento) ma imporre una struttura (non adatta per l'esplorazione attiva)
- Dati SEMI STRUTTURATI – difficili da fare con le soluzioni tradizionali (DW/DB)
- Dati di magazzino = ENORME sforzo e statici anche dopo l'implementazione
- Per la varietà e il volume dei dati, elaborati su hardware di base – HADOOP
- Commodity H/W necessario per creare un Hadoop Cluster
Introduzione a Map Reduce /HDFS
- MapReduce: distribuisci l'elaborazione su più server
- HDFS: rende i dati disponibili localmente per il processo di elaborazione (con ridondanza)
- Dati: possono essere non strutturati/senza schema (a differenza di RDBMS)
- Responsabilità dello sviluppatore per dare un senso ai dati
- Programming MapReduce = lavorare con Java (pro/contro), caricare manualmente i dati in HDFS
Giorno-2: Sessione-1: Big Data Costruzione dell'ecosistema Big Data ETL: universo di Big Data Strumenti: quale usare e quando?
- Hadoop vs. altre soluzioni NoSQL
- Per l'accesso interattivo e casuale ai dati
- Hbase (database orientato alle colonne) su Hadoop
- Accesso casuale ai dati ma restrizioni imposte (max 1 PB)
- Non va bene per l'analisi ad hoc, va bene per la registrazione, il conteggio, le serie temporali
- Sqoop - Importazione da database in Hive o HDFS (accesso JDBC/ODBC)
- Flume – Trasmette i dati (ad es. dati .log) in HDFS
Giorno-2: Sessione-2: Big Data Management Sistema
- Parti mobili, nodi di calcolo start/fail :ZooKeeper - Per i servizi di configurazione/coordinamento/denominazione
- Pipeline/flusso di lavoro complesso: Oozie: gestione del flusso di lavoro, delle dipendenze, del collegamento a margherita
- Distribuzione, configurazione, gestione del cluster, aggiornamento e così via (amministratore di sistema) :Ambari
- In nuvola : Whirr
Giorno 2: Sessione-3: Analisi predittiva in Business Intelligence -1: Tecniche fondamentali e BI basata sull'apprendimento automatico:
- Introduzione all'apprendimento automatico
- Apprendimento delle tecniche di classificazione
- File di training per la preparazione della previsione bayesiana
- Macchina vettoriale di supporto
- KNN p-Tree Algebra e estrazione mineraria verticale
- Rete neurale
- Big Data problema di grandi variabili -Foresta casuale (RF)
- Big Data Problema di automazione – RF multi-modello ensemble
- Automazione tramite Soft10-M
- Strumento di analisi del testo-Treeminer
- Apprendimento agile
- Apprendimento basato su agenti
- Apprendimento distribuito
- Introduzione agli strumenti open source per l'analisi predittiva: R, Rapidminer, Mahut
Giorno-2: Sessione-4 Ecosistema di analisi predittiva-2: Problemi analitici predittivi comuni in Govt.
- Analisi degli insight
- Visualizzazione analitica
- Analitica predittiva strutturata
- Analitica predittiva non strutturata
- Profilazione di minacce/fraudstar/vendor
- Motore di raccomandazione
- Rilevamento del modello
- Individuazione di regole/scenari: errori, frodi, ottimizzazioni
- Individuazione della causa principale
- Analisi del sentiment
- Analitica CRM
- Analitica di rete
- Analisi del testo
- Revisione assistita dalla tecnologia
- Analisi delle frodi
- Analitica in tempo reale
Giorno-3 : Sesion-1 : Tempo reale e Scalaè diventato analitico su Hadoop
- Perché gli algoritmi analitici comuni falliscono in Hadoop/HDFS
- Apache Hama- per il calcolo distribuito sincrono di massa
- Apache SPARK - per il cluster computing per l'analisi in tempo reale
- CMU Graphics Lab2 - Approccio asincrono basato su grafi al calcolo distribuito
- Approccio basato su KNN p-Algebra di Treeminer per ridurre i costi operativi dell'hardware
Giorno 3: Sessione 2: Strumenti per l'eDiscovery e l'analisi forense
- eDiscovery over Big Data vs. dati legacy: un confronto tra costi e prestazioni
- Codifica predittiva e revisione assistita dalla tecnologia (TAR)
- Demo live di un prodotto Tar (vMiner) per capire come funziona TAR per una scoperta più rapida
- Indicizzazione più rapida tramite HDFS – velocità dei dati
- NLP o Natural Language processing: varie tecniche e prodotti open source
- eDiscovery nelle lingue straniere - tecnologia per l'elaborazione delle lingue straniere
Giorno-3 : Sessione 3: Big Data BI per Cyber Security – Comprendere tutte le viste a 360 gradi della rapida raccolta dei dati per l'identificazione delle minacce
- Comprendere le nozioni di base dell'analisi della sicurezza: superficie di attacco, configurazione errata della sicurezza, difese dell'host
- Infrastruttura di rete/ Datapipe di grandi dimensioni/Response ETL per l'analisi in tempo reale
- Prescrittivo vs predittivo: corretto il rilevamento basato su regole e automatico delle regole di minaccia dai metadati
Giorno-3: Sessione 4: Big Data in USDA: Applicazione in agricoltura
- Introduzione all'IoT (Internet of Things) per l'agricoltura basata su sensori Big Data e controllo
- Introduzione all'imaging satellitare e alla sua applicazione in agricoltura
- Integrazione di sensori e dati di immagini per la fertilità del suolo, raccomandazioni e previsioni di coltivazione
- Assicurazione per l'agricoltura e Big Data
- Previsione delle perdite di raccolto
Giorno-4 : Sessione-1: Prevenzione delle frodi BI da Big Data in Govt-Fraud analytic:
- Classificazione di base dell'analisi delle frodi: analisi basata su regole e analisi predittiva
- Apprendimento automatico supervisionato e non supervisionato per il rilevamento di modelli di frode
- Frode del fornitore/addebito eccessivo per i progetti
- Tecniche di rilevamento delle frodi Medicare e Medicaid per l'elaborazione delle richieste di risarcimento
- Frodi sui rimborsi di viaggio
- Frodi sui rimborsi dell'IRS
- Casi di studio e dimostrazioni dal vivo saranno forniti ovunque siano disponibili i dati.
Giorno-4 : Sessione-2: Social Media Analitica - Raccolta e analisi di intelligence
- API ETL Big Data per l'estrazione dei dati dei social media
- Testo, immagine, metadati e video
- Analisi del sentiment dal feed dei social media
- Filtraggio contestuale e non contestuale del feed dei social media
- Social Media Dashboard per l'integrazione di diversi social media
- Profilazione automatizzata del profilo social media
- La demo dal vivo di ogni analisi sarà fornita tramite Treeminer Tool.
Giorno-4 : Sessione-3: Big Data Analitica nell'elaborazione delle immagini e nei feed video
- Tecniche di archiviazione delle immagini in Big Data- Soluzione di archiviazione per dati superiori a petabyte
- LTFS e LTO
- GPFS-LTFS (soluzione di archiviazione a più livelli per dati di grandi immagini)
- Fondamenti di analisi delle immagini
- Riconoscimento degli oggetti
- Segmentazione delle immagini
- Tracciamento del movimento
- Ricostruzione dell'immagine 3D
Giorno-4: Sessione-4: Big Data domande in NIH:
- Aree emergenti dell'informatica Bio
- Meta-genomica e problemi di Big Data mining
- Analitica predittiva dei Big Data per la Farmacogenomica, la Metabolomica e la Proteomica
- Big Data nel processo di genomica a valle
- Applicazione dell'analisi predittiva dei Big Data nella sanità pubblica
Big Data Dashboard per una rapida accessibilità di diversi dati e visualizzazione:
- Integrazione della piattaforma applicativa esistente con Big Data Dashboard
- Gestione dei Big Data
- Caso di studio di Big Data Dashboard: Tableau e Pentaho
- Usa l'app Big Data per spingere i servizi basati sulla posizione nel governo.
- Sistema di tracciamento e gestione
Giorno-5 : Sessione-1: Come giustificare Big Data l'implementazione della BI all'interno di un'organizzazione:
- Definizione del ROI per l'implementazione Big Data
- Casi di studio per risparmiare tempo all'analista per la raccolta e la preparazione dei dati – aumento dell'aumento della produttività
- Casi di studio di guadagno derivante dal risparmio sui costi del database concesso in licenza
- Aumento dei ricavi dai servizi basati sulla localizzazione
- Risparmiare dalla prevenzione delle frodi
- Un approccio integrato basato su fogli di calcolo per calcolare approssimativamente le spese rispetto ai guadagni/risparmi derivanti dall'implementazione Big Data.
Giorno-5 : Sessione-2: Procedura passo dopo passo per sostituire il sistema di dati legacy con Big Data Sistema:
- Comprendere la Big Data Roadmap pratica per la migrazione
- Quali sono le informazioni importanti necessarie prima di progettare un'implementazione Big Data
- Quali sono i diversi modi di calcolare il volume, la velocità, la varietà e la veridicità dei dati
- Come stimare la crescita dei dati
- Casi di studio
Giorno 5: Sessione 4: Revisione di Big Data fornitori e revisione dei loro prodotti. Sessione Q/A:
- Accenture
- APTEAN (precedentemente CDC Software)
- Sistemi Cisco
- Cloudera
- Valletta
- EMC
- GoodData Corporation
- Guavus
- Sistemi di dati Hitachi
- Hortonworks
- CV
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft (in inglese)
- MongoDB (in precedenza 10Gen)
- MU Sigma
- Netapp
- Soluzioni Opera
- Oracolo
- Pentaho
- Piattaforma
- Qliktech
- Quanto
- Spazio rack
- Analisi della rivoluzione
- Forza vendita
- LINFA
- Istituto SAS
- Sisense
- Software AG/Terracotta
- Automazione Soft10
- Spicchio
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Pensa in grande all'analisi
- Sistemi Tidemark
- Minatore di alberi
- VMware (Parte di EMC)
Requisiti
- Conoscenza di base delle operazioni aziendali e dei sistemi di dati nel governo nel loro dominio
- Conoscenza di base di SQL/Oracle o database relazionale
- Conoscenza di base di Statistics (a livello di foglio di calcolo)
35 ore
Recensioni (1)
La capacità del formatore di allineare il corso con i requisiti dell'organizzazione, oltre a fornire il corso per il gusto di erogarlo.
Masilonyane - Revenue Services Lesotho
Corso - Big Data Business Intelligence for Govt. Agencies
Traduzione automatica