Struttura del corso
===== Giorno 01 ===== Panoramica di Big Data Business Intelligence for Criminal Intelligence Analysis
- Casi di studio dalle forze dell'ordine - Polizia predittiva
- Tasso di adozione dei Big Data nelle forze dell'ordine e come stanno allineando le loro operazioni future ai Big Data Predictive Analytics
- Soluzioni tecnologiche emergenti come sensori di colpi d'arma da fuoco, video di sorveglianza e social media
- Utilizzo della tecnologia Big Data per mitigare il sovraccarico di informazioni
- Interfacciamento dei Big Data con i dati Legacy
- Conoscenza di base delle tecnologie abilitanti nell'analisi predittiva
- Integrazione dei dati e visualizzazione della dashboard
- Gestione delle frodi
- Regole aziendali e rilevamento delle frodi
- Rilevamento e profilazione delle minacce
- Analisi costi-benefici per l'implementazione dei Big Data
Introduzione a Big Data
- Caratteristiche principali dei Big Data: Volume, Varietà, Velocità e Veridicità.
- Architettura MPP (Massively Parallel Processing)
- Data Warehouse: schema statico, set di dati in lenta evoluzione
- Basi di dati MPP: Greenplum, Exadata, Teradata, Netezza, Vertica ecc.
- Soluzioni basate su Hadoop: nessuna condizione sulla struttura del set di dati.
- Modello tipico: HDFS, MapReduce (crunch), recupero da HDFS
- Apache Spark per l'elaborazione dei flussi
- Batch: adatto per analisi analitiche/non interattive
- Volume : CEP streaming data
- Scelte tipiche – prodotti CEP (ad es. Infostreams, Apama, MarkLogic ecc.)
- Meno pronto per la produzione – Storm/S4
- Database NoSQL - (colonnari e chiave-valore): più adatto come aggiunta analitica al data warehouse/database
NoSQL soluzioni
- Archivio KV - Keyspace, Flare, SchemaFree, RAMCloud, database Oracle NoSQL (OnDB)
- Negozio KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Archivio KV (gerarchico) - GT.m, Cache
- Negozio KV (ordinato) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Negozio Tuple - Gigaspaces, Coord, Apache River
- Database di oggetti - ZopeDB, DB40, Shoal
- Archivio documenti - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Ampio archivio colonnare - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Varietà di dati: introduzione a Data Cleaning problemi nei Big Data
- RDBMS – struttura/schema statico, non promuove un ambiente agile ed esplorativo.
- NoSQL - struttura semi-strutturata, sufficiente per memorizzare i dati senza uno schema esatto prima di memorizzare i dati
- Problemi di pulizia dei dati
Hadoop
- Quando selezionare Hadoop?
- STRUTTURATO - I data warehouse/database aziendali possono archiviare dati di grandi dimensioni (a pagamento) ma imporre una struttura (non adatta per l'esplorazione attiva)
- Dati SEMI STRUTTURATI – difficili da realizzare con soluzioni tradizionali (DW/DB)
- Dati di magazzino = ENORME sforzo e statici anche dopo l'implementazione
- Per la varietà e il volume dei dati, elaborati su hardware di base – HADOOP
- Commodity H/W necessario per creare un Hadoop Cluster
Introduzione a Map Reduce /HDFS
- MapReduce: distribuisci l'elaborazione su più server
- HDFS: rende i dati disponibili localmente per il processo di elaborazione (con ridondanza)
- Dati: possono essere non strutturati/senza schema (a differenza di RDBMS)
- Responsabilità dello sviluppatore per dare un senso ai dati
- Programming MapReduce = lavorare con Java (pro/contro), caricare manualmente i dati in HDFS
===== Giorno 02 ===== Big Data Ecosistema -- Costruzione Big Data ETL (Estrazione, Trasformazione, Carica) -- Quali Big Data Strumenti usare e quando?
- Hadoop vs. altre soluzioni NoSQL
- Per l'accesso interattivo e casuale ai dati
- Hbase (database orientato alle colonne) su Hadoop
- Accesso casuale ai dati ma restrizioni imposte (max 1 PB)
- Non va bene per l'analisi ad hoc, va bene per la registrazione, il conteggio, le serie temporali
- Sqoop - Importazione da database in Hive o HDFS (accesso JDBC/ODBC)
- Flume – Trasmette i dati (ad es. dati .log) in HDFS
Sistema Big Data Management
- Parti mobili, nodi di calcolo start/fail :ZooKeeper - Per i servizi di configurazione/coordinamento/denominazione
- Pipeline/flusso di lavoro complesso: Oozie: gestione del flusso di lavoro, delle dipendenze, del collegamento a margherita
- Distribuzione, configurazione, gestione del cluster, aggiornamento e così via (amministratore di sistema) :Ambari
- In nuvola : Whirr
Predictive Analytics -- Tecniche fondamentali e Business Intelligence basate sull'apprendimento automatico
- Introduzione all'apprendimento automatico
- Apprendimento delle tecniche di classificazione
- Predizione bayesiana: preparazione di un file di training
- Macchina vettoriale di supporto
- KNN p-Tree Algebra e estrazione mineraria verticale
- Reti neurali
- Problema di variabili di grandi dimensioni Big Data -- Foresta casuale (RF)
- Problema di automazione dei Big Data – RF ensemble multi-modello
- Automazione tramite Soft10-M
- Strumento di analisi del testo-Treeminer
- Apprendimento agile
- Apprendimento basato su agenti
- Apprendimento distribuito
- Introduzione agli strumenti open source per l'analisi predittiva: R, Python, Rapidminer, Mahut
Predictive Analytics L'ecosistema e la sua applicazione nell'analisi dell'intelligence criminale
- La tecnologia e il processo investigativo
- Analisi degli insight
- Analisi della visualizzazione
- Analisi predittiva strutturata
- Analisi predittiva non strutturata
- Profilazione di minacce/fraudstar/vendor
- Motore di raccomandazione
- Rilevamento del modello
- Individuazione di regole/scenari: errori, frodi, ottimizzazione
- Individuazione della causa principale
- Analisi del sentiment
- Analisi CRM
- Analisi di rete
- Analisi del testo per ottenere approfondimenti da trascrizioni, dichiarazioni di testimoni, chiacchiere su Internet, ecc.
- Revisione assistita dalla tecnologia
- Analisi delle frodi
- Analitica in tempo reale
===== Giorno 03 ===== Analisi in tempo reale e Scalable su Hadoop
- Perché gli algoritmi analitici comuni falliscono in Hadoop/HDFS
- Apache Hama- per il calcolo distribuito sincrono di massa
- Apache SPARK: per il cluster computing e l'analisi in tempo reale
- CMU Graphics Lab2 - Approccio asincrono basato su grafi al calcolo distribuito
- KNN p -- Approccio basato sull'algebra di Treeminer per ridurre i costi operativi dell'hardware
Strumenti per l'eDiscovery e l'analisi forense
- eDiscovery over Big Data vs. dati legacy: un confronto tra costi e prestazioni
- Codifica predittiva e Technology Assisted Review (TAR)
- Demo live di vMiner per capire come TAR consente un rilevamento più rapido
- Indicizzazione più rapida tramite HDFS – Velocità dei dati
- NLP (Natural Language processing) – prodotti e tecniche open source
- eDiscovery in lingue straniere -- tecnologia per l'elaborazione delle lingue straniere
Big Data BI per Cyber Security – Ottenere una visione a 360 gradi, una rapida raccolta dei dati e l'identificazione delle minacce
- Comprendere le nozioni di base dell'analisi della sicurezza: superficie di attacco, configurazione errata della sicurezza, difese dell'host
- Infrastruttura di rete / Datapipe di grandi dimensioni / Response ETL per l'analisi in tempo reale
- Prescrittivo vs predittivo: corretto il rilevamento basato su regole e automatico delle regole di minaccia dai metadati
Raccolta di dati eterogenei per l'analisi dell'intelligence criminale
- Utilizzo dell'IoT (Internet of Things) come sensori per l'acquisizione dei dati
- Utilizzo di immagini satellitari per la sorveglianza domestica
- Utilizzo dei dati di sorveglianza e delle immagini per l'identificazione criminale
- Altre tecnologie di raccolta dati: droni, videocamere indossabili, sistemi di tagging GPS e tecnologia di imaging termico
- Combinare il recupero automatizzato dei dati con i dati ottenuti da informatori, interrogatori e ricerche
- Forecasting Attività criminale
===== Giorno 04 ===== BI per la prevenzione delle frodi da Big Data in Fraud Analytics
- Classificazione di base di Fraud Analytics: analisi predittiva e basata su regole
- Apprendimento automatico supervisionato e non supervisionato per il rilevamento di modelli di frode
- Business alle frodi commerciali, alle frodi relative alle richieste di risarcimento medico, alle frodi assicurative, all'evasione fiscale e al riciclaggio di denaro.
Social Media Analytics -- Raccolta e analisi di intelligence
- Come Social Media viene utilizzato dai criminali per organizzare, reclutare e pianificare
- API ETL Big Data per l'estrazione dei dati dei social media
- Testo, immagine, metadati e video
- Analisi del sentiment dal feed dei social media
- Filtraggio contestuale e non contestuale del feed dei social media
- Social Media Dashboard per integrare diversi social media
- Profilazione automatizzata del profilo social media
- La demo dal vivo di ogni analisi sarà fornita tramite Treeminer Tool
Big Data Analisi nell'elaborazione delle immagini e nei feed video
- Tecniche di archiviazione delle immagini in Big Data -- Soluzione di archiviazione per dati superiori a petabyte
- LTFS (Linear Tape File System) e LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- soluzione di archiviazione a più livelli per dati di grandi dimensioni
- Fondamenti di analisi delle immagini
- Riconoscimento degli oggetti
- Segmentazione delle immagini
- Tracciamento del movimento
- Ricostruzione dell'immagine 3D
Biometriche, DNA e programmi di identificazione di nuova generazione
- Oltre le impronte digitali e il riconoscimento facciale
- Riconoscimento vocale, sequenza di tasti (analisi del modello di digitazione di un utente) e CODIS (sistema combinato di indice del DNA)
- Oltre la corrispondenza del DNA: utilizzare la fenotipizzazione forense del DNA per costruire un volto a partire da campioni di DNA
Big Data Dashboard per una rapida accessibilità di diversi dati e visualizzazione:
- Integrazione della piattaforma applicativa esistente con Big Data Dashboard
- Gestione dei Big Data
- Caso di studio di Big Data Dashboard: Tableau e Pentaho
- Usa l'app Big Data per spingere i servizi basati sulla posizione nel governo.
- Sistema di tracciamento e gestione
===== Giorno 05 ===== Come giustificare Big Data l'implementazione della BI all'interno di un'organizzazione:
- Definizione del ROI (Return on Investment) per l'implementazione dei Big Data
- Casi di studio per risparmiare tempo all'analista nella raccolta e nella preparazione dei dati, aumentando la produttività
- Aumento dei ricavi grazie alla riduzione dei costi di licenza del database
- Aumento dei ricavi dai servizi basati sulla localizzazione
- Risparmio sui costi grazie alla prevenzione delle frodi
- Un approccio integrato basato su fogli di calcolo per calcolare le spese approssimative rispetto ai guadagni/risparmi derivanti dall'implementazione dei Big Data.
Procedura passo passo per la sostituzione di un sistema di dati legacy con un sistema Big Data
- Big Data Tabella di marcia per la migrazione.
- Quali informazioni critiche sono necessarie prima di progettare un sistema Big Data?
- Quali sono i diversi modi per calcolare il volume, la velocità, la varietà e la veridicità dei dati
- Come stimare la crescita dei dati
- Casi di studio
Recensione di Big Data fornitori e revisione dei loro prodotti.
- Accenture
- APTEAN (precedentemente CDC Software)
- Sistemi Cisco
- Cloudera
- Valletta
- EMC
- GoodData Corporation
- Guavus
- Sistemi di dati Hitachi
- Hortonworks
- CV
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft (in inglese)
- MongoDB (in precedenza 10Gen)
- MU Sigma
- Netapp
- Soluzioni Opera
- Oracolo
- Pentaho
- Piattaforma
- Qliktech
- Quanto
- Spazio rack
- Analisi della rivoluzione
- Forza vendita
- LINFA
- Istituto SAS
- Sisense
- Software AG/Terracotta
- Automazione Soft10
- Spicchio
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Pensa in grande all'analisi
- Sistemi Tidemark
- Minatore di alberi
- VMware (Parte di EMC)
Sessione Q/A
Requisiti
- Conoscenza dei processi di applicazione della legge e dei sistemi di dati
- Conoscenza di base di SQL/Oracle o database relazionale
- Conoscenza di base della statistica (a livello di foglio di calcolo)
Recensioni (4)
Spiegazioni chiare con buoni esempi in modo da potermi relazionare con la mia linea di lavoro.
Elaine Vermeulen - Sandoz BV
Corso - Alteryx for Developers
Traduzione automatica
I enjoyed the exercises session the most as I get to understand how to apply. Would definitely enjoyed it more if there are more combination exercises :)
Joan Ng
Corso - Data Preparation with Alteryx
Use cases were awesome! and Ray involved each and every one of us in each use case.
Zara - Trench Ltd
Corso - Alteryx for Data Analysis
team work