Struttura del corso

===== Giorno 01 ===== Panoramica di Big Data Business Intelligence for Criminal Intelligence Analysis

  • Casi di studio dalle forze dell'ordine - Polizia predittiva
  • Tasso di adozione dei Big Data nelle forze dell'ordine e come stanno allineando le loro operazioni future ai Big Data Predictive Analytics
  • Soluzioni tecnologiche emergenti come sensori di colpi d'arma da fuoco, video di sorveglianza e social media
  • Utilizzo della tecnologia Big Data per mitigare il sovraccarico di informazioni
  • Interfacciamento dei Big Data con i dati Legacy
  • Conoscenza di base delle tecnologie abilitanti nell'analisi predittiva
  • Integrazione dei dati e visualizzazione della dashboard
  • Gestione delle frodi
  • Regole aziendali e rilevamento delle frodi
  • Rilevamento e profilazione delle minacce
  • Analisi costi-benefici per l'implementazione dei Big Data

Introduzione a Big Data

  • Caratteristiche principali dei Big Data: Volume, Varietà, Velocità e Veridicità.
  • Architettura MPP (Massively Parallel Processing)
  • Data Warehouse: schema statico, set di dati in lenta evoluzione
  • Basi di dati MPP: Greenplum, Exadata, Teradata, Netezza, Vertica ecc.
  • Soluzioni basate su Hadoop: nessuna condizione sulla struttura del set di dati.
  • Modello tipico: HDFS, MapReduce (crunch), recupero da HDFS
  • Apache Spark per l'elaborazione dei flussi
  • Batch: adatto per analisi analitiche/non interattive
  • Volume : CEP streaming data
  • Scelte tipiche – prodotti CEP (ad es. Infostreams, Apama, MarkLogic ecc.)
  • Meno pronto per la produzione – Storm/S4
  • Database NoSQL - (colonnari e chiave-valore): più adatto come aggiunta analitica al data warehouse/database

NoSQL soluzioni

  • Archivio KV - Keyspace, Flare, SchemaFree, RAMCloud, database Oracle NoSQL (OnDB)
  • Negozio KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Archivio KV (gerarchico) - GT.m, Cache
  • Negozio KV (ordinato) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Negozio Tuple - Gigaspaces, Coord, Apache River
  • Database di oggetti - ZopeDB, DB40, Shoal
  • Archivio documenti - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Ampio archivio colonnare - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Varietà di dati: introduzione a Data Cleaning problemi nei Big Data

  • RDBMS – struttura/schema statico, non promuove un ambiente agile ed esplorativo.
  • NoSQL - struttura semi-strutturata, sufficiente per memorizzare i dati senza uno schema esatto prima di memorizzare i dati
  • Problemi di pulizia dei dati

Hadoop

  • Quando selezionare Hadoop?
  • STRUTTURATO - I data warehouse/database aziendali possono archiviare dati di grandi dimensioni (a pagamento) ma imporre una struttura (non adatta per l'esplorazione attiva)
  • Dati SEMI STRUTTURATI – difficili da realizzare con soluzioni tradizionali (DW/DB)
  • Dati di magazzino = ENORME sforzo e statici anche dopo l'implementazione
  • Per la varietà e il volume dei dati, elaborati su hardware di base – HADOOP
  • Commodity H/W necessario per creare un Hadoop Cluster

Introduzione a Map Reduce /HDFS

  • MapReduce: distribuisci l'elaborazione su più server
  • HDFS: rende i dati disponibili localmente per il processo di elaborazione (con ridondanza)
  • Dati: possono essere non strutturati/senza schema (a differenza di RDBMS)
  • Responsabilità dello sviluppatore per dare un senso ai dati
  • Programming MapReduce = lavorare con Java (pro/contro), caricare manualmente i dati in HDFS

===== Giorno 02 ===== Big Data Ecosistema -- Costruzione Big Data ETL (Estrazione, Trasformazione, Carica) -- Quali Big Data Strumenti usare e quando?

  • Hadoop vs. altre soluzioni NoSQL
  • Per l'accesso interattivo e casuale ai dati
  • Hbase (database orientato alle colonne) su Hadoop
  • Accesso casuale ai dati ma restrizioni imposte (max 1 PB)
  • Non va bene per l'analisi ad hoc, va bene per la registrazione, il conteggio, le serie temporali
  • Sqoop - Importazione da database in Hive o HDFS (accesso JDBC/ODBC)
  • Flume – Trasmette i dati (ad es. dati .log) in HDFS

Sistema Big Data Management

  • Parti mobili, nodi di calcolo start/fail :ZooKeeper - Per i servizi di configurazione/coordinamento/denominazione
  • Pipeline/flusso di lavoro complesso: Oozie: gestione del flusso di lavoro, delle dipendenze, del collegamento a margherita
  • Distribuzione, configurazione, gestione del cluster, aggiornamento e così via (amministratore di sistema) :Ambari
  • In nuvola : Whirr

Predictive Analytics -- Tecniche fondamentali e Business Intelligence basate sull'apprendimento automatico

  • Introduzione all'apprendimento automatico
  • Apprendimento delle tecniche di classificazione
  • Predizione bayesiana: preparazione di un file di training
  • Macchina vettoriale di supporto
  • KNN p-Tree Algebra e estrazione mineraria verticale
  • Reti neurali
  • Problema di variabili di grandi dimensioni Big Data -- Foresta casuale (RF)
  • Problema di automazione dei Big Data – RF ensemble multi-modello
  • Automazione tramite Soft10-M
  • Strumento di analisi del testo-Treeminer
  • Apprendimento agile
  • Apprendimento basato su agenti
  • Apprendimento distribuito
  • Introduzione agli strumenti open source per l'analisi predittiva: R, Python, Rapidminer, Mahut

Predictive Analytics L'ecosistema e la sua applicazione nell'analisi dell'intelligence criminale

  • La tecnologia e il processo investigativo
  • Analisi degli insight
  • Analisi della visualizzazione
  • Analisi predittiva strutturata
  • Analisi predittiva non strutturata
  • Profilazione di minacce/fraudstar/vendor
  • Motore di raccomandazione
  • Rilevamento del modello
  • Individuazione di regole/scenari: errori, frodi, ottimizzazione
  • Individuazione della causa principale
  • Analisi del sentiment
  • Analisi CRM
  • Analisi di rete
  • Analisi del testo per ottenere approfondimenti da trascrizioni, dichiarazioni di testimoni, chiacchiere su Internet, ecc.
  • Revisione assistita dalla tecnologia
  • Analisi delle frodi
  • Analitica in tempo reale

===== Giorno 03 ===== Analisi in tempo reale e Scalable su Hadoop

  • Perché gli algoritmi analitici comuni falliscono in Hadoop/HDFS
  • Apache Hama- per il calcolo distribuito sincrono di massa
  • Apache SPARK: per il cluster computing e l'analisi in tempo reale
  • CMU Graphics Lab2 - Approccio asincrono basato su grafi al calcolo distribuito
  • KNN p -- Approccio basato sull'algebra di Treeminer per ridurre i costi operativi dell'hardware

Strumenti per l'eDiscovery e l'analisi forense

  • eDiscovery over Big Data vs. dati legacy: un confronto tra costi e prestazioni
  • Codifica predittiva e Technology Assisted Review (TAR)
  • Demo live di vMiner per capire come TAR consente un rilevamento più rapido
  • Indicizzazione più rapida tramite HDFS – Velocità dei dati
  • NLP (Natural Language processing) – prodotti e tecniche open source
  • eDiscovery in lingue straniere -- tecnologia per l'elaborazione delle lingue straniere

Big Data BI per Cyber Security – Ottenere una visione a 360 gradi, una rapida raccolta dei dati e l'identificazione delle minacce

  • Comprendere le nozioni di base dell'analisi della sicurezza: superficie di attacco, configurazione errata della sicurezza, difese dell'host
  • Infrastruttura di rete / Datapipe di grandi dimensioni / Response ETL per l'analisi in tempo reale
  • Prescrittivo vs predittivo: corretto il rilevamento basato su regole e automatico delle regole di minaccia dai metadati

Raccolta di dati eterogenei per l'analisi dell'intelligence criminale

  • Utilizzo dell'IoT (Internet of Things) come sensori per l'acquisizione dei dati
  • Utilizzo di immagini satellitari per la sorveglianza domestica
  • Utilizzo dei dati di sorveglianza e delle immagini per l'identificazione criminale
  • Altre tecnologie di raccolta dati: droni, videocamere indossabili, sistemi di tagging GPS e tecnologia di imaging termico
  • Combinare il recupero automatizzato dei dati con i dati ottenuti da informatori, interrogatori e ricerche
  • Forecasting Attività criminale

===== Giorno 04 ===== BI per la prevenzione delle frodi da Big Data in Fraud Analytics

  • Classificazione di base di Fraud Analytics: analisi predittiva e basata su regole
  • Apprendimento automatico supervisionato e non supervisionato per il rilevamento di modelli di frode
  • Business alle frodi commerciali, alle frodi relative alle richieste di risarcimento medico, alle frodi assicurative, all'evasione fiscale e al riciclaggio di denaro.

Social Media Analytics -- Raccolta e analisi di intelligence

  • Come Social Media viene utilizzato dai criminali per organizzare, reclutare e pianificare
  • API ETL Big Data per l'estrazione dei dati dei social media
  • Testo, immagine, metadati e video
  • Analisi del sentiment dal feed dei social media
  • Filtraggio contestuale e non contestuale del feed dei social media
  • Social Media Dashboard per integrare diversi social media
  • Profilazione automatizzata del profilo social media
  • La demo dal vivo di ogni analisi sarà fornita tramite Treeminer Tool

Big Data Analisi nell'elaborazione delle immagini e nei feed video

  • Tecniche di archiviazione delle immagini in Big Data -- Soluzione di archiviazione per dati superiori a petabyte
  • LTFS (Linear Tape File System) e LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) -- soluzione di archiviazione a più livelli per dati di grandi dimensioni
  • Fondamenti di analisi delle immagini
  • Riconoscimento degli oggetti
  • Segmentazione delle immagini
  • Tracciamento del movimento
  • Ricostruzione dell'immagine 3D

Biometriche, DNA e programmi di identificazione di nuova generazione

  • Oltre le impronte digitali e il riconoscimento facciale
  • Riconoscimento vocale, sequenza di tasti (analisi del modello di digitazione di un utente) e CODIS (sistema combinato di indice del DNA)
  • Oltre la corrispondenza del DNA: utilizzare la fenotipizzazione forense del DNA per costruire un volto a partire da campioni di DNA

Big Data Dashboard per una rapida accessibilità di diversi dati e visualizzazione:

  • Integrazione della piattaforma applicativa esistente con Big Data Dashboard
  • Gestione dei Big Data
  • Caso di studio di Big Data Dashboard: Tableau e Pentaho
  • Usa l'app Big Data per spingere i servizi basati sulla posizione nel governo.
  • Sistema di tracciamento e gestione

===== Giorno 05 ===== Come giustificare Big Data l'implementazione della BI all'interno di un'organizzazione:

  • Definizione del ROI (Return on Investment) per l'implementazione dei Big Data
  • Casi di studio per risparmiare tempo all'analista nella raccolta e nella preparazione dei dati, aumentando la produttività
  • Aumento dei ricavi grazie alla riduzione dei costi di licenza del database
  • Aumento dei ricavi dai servizi basati sulla localizzazione
  • Risparmio sui costi grazie alla prevenzione delle frodi
  • Un approccio integrato basato su fogli di calcolo per calcolare le spese approssimative rispetto ai guadagni/risparmi derivanti dall'implementazione dei Big Data.

Procedura passo passo per la sostituzione di un sistema di dati legacy con un sistema Big Data

  • Big Data Tabella di marcia per la migrazione.
  • Quali informazioni critiche sono necessarie prima di progettare un sistema Big Data?
  • Quali sono i diversi modi per calcolare il volume, la velocità, la varietà e la veridicità dei dati
  • Come stimare la crescita dei dati
  • Casi di studio

Recensione di Big Data fornitori e revisione dei loro prodotti.

  • Accenture
  • APTEAN (precedentemente CDC Software)
  • Sistemi Cisco
  • Cloudera
  • Valletta
  • EMC
  • GoodData Corporation
  • Guavus
  • Sistemi di dati Hitachi
  • Hortonworks
  • CV
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft (in inglese)
  • MongoDB (in precedenza 10Gen)
  • MU Sigma
  • Netapp
  • Soluzioni Opera
  • Oracolo
  • Pentaho
  • Piattaforma
  • Qliktech
  • Quanto
  • Spazio rack
  • Analisi della rivoluzione
  • Forza vendita
  • LINFA
  • Istituto SAS
  • Sisense
  • Software AG/Terracotta
  • Automazione Soft10
  • Spicchio
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Pensa in grande all'analisi
  • Sistemi Tidemark
  • Minatore di alberi
  • VMware (Parte di EMC)

Sessione Q/A

Requisiti

  • Conoscenza dei processi di applicazione della legge e dei sistemi di dati
  • Conoscenza di base di SQL/Oracle o database relazionale
  • Conoscenza di base della statistica (a livello di foglio di calcolo)
  35 ore
 

Numero di Partecipanti


Data Inizio

Data Fine


Le date sono soggette a disponibilità e si svolgono tra le 09:30 e le 16:30.
I corsi di formazione pubblici richiedono più di 5 partecipanti.

Recensioni (4)

Corsi relativi

Categorie relative