Struttura del corso

Giorno 01

Panoramica di Big Data Business Intelligence per l'analisi dell'intelligence criminale

  • Casi di studio dalle forze dell'ordine - Polizia predittiva
  • Big Data tasso di adozione nelle agenzie di applicazione della legge e come stanno allineando le loro future operazioni attorno a Big Data Predictive Analytics
  • Soluzioni tecnologiche emergenti come sensori di spari, video di sorveglianza e social media
  • Utilizzo della tecnologia Big Data per mitigare il sovraccarico di informazioni
  • Interfacciamento Big Data con dati Legacy
  • Conoscenza di base delle tecnologie abilitanti nell'analisi predittiva
  • Data Integration & Visualizzazione del dashboard
  • Gestione delle frodi
  • Business Rules e Rilevamento delle frodi
  • Rilevamento e profilazione delle minacce
  • Analisi costi-benefici per l'implementazione Big Data

Introduzione a Big Data

  • Caratteristiche principali di Big Data -- Volume, Varietà, Velocità e Veridicità.
  • Architettura MPP (Massively Parallel Processing)
  • Data Warehouses – schema statico, dataset in lenta evoluzione
  • MPP Database: Greenplum, Exadata, Teradata, Netezza, Vertica ecc.
  • Hadoop Soluzioni basate – nessuna condizione sulla struttura del set di dati.
  • Modello tipico: HDFS, MapReduce (crunch), recupero da HDFS
  • Apache Spark per l'elaborazione in streaming
  • Batch - adatto per analisi/non interattivo
  • Volume: dati in streaming CEP
  • Scelte tipiche – Prodotti CEP (ad esempio Infostreams, Apama, MarkLogic ecc.)
  • Meno pronto per la produzione – Storm/S4
  • NoSQL Databases – (colonnari e chiave-valore): più adatti come complemento analitico per data warehouse/database

NoSQL soluzioni

  • Negozio KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Negozio KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (gerarchico) - GT.m, Cache
  • KV Store (ordinato) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coerenza, Infinispan, EXtremeScale, JBossCache, Velocità, Terracoqua
  • Negozio Tuple - Gigaspaces, Coord, Apache River
  • Oggetto Database - ZopeDB, DB40, Shoal
  • Archivio documenti - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Ampio archivio a colonne: BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Varietà di dati: introduzione a Data Cleaning problemi nei Big Data

  • RDBMS – struttura/schema statico, non promuove un ambiente agile ed esplorativo.
  • NoSQL – semi strutturato, struttura sufficiente per memorizzare i dati senza schema esatto prima di memorizzare i dati
  • Problemi di pulizia dei dati

Hadoop

  • Quando selezionare Hadoop?
  • STRUTTURATO - I data warehouse/database aziendali possono archiviare dati enormi (a un costo) ma impongono una struttura (non adatta all'esplorazione attiva)
  • Dati SEMISTRUTTURATI – difficili da realizzare utilizzando soluzioni tradizionali (DW/DB)
  • Dati di warehousing = SFORZO ENORME e staticità anche dopo l'implementazione
  • Per varietà e volume di dati, elaborati su hardware commerciale – HADOOP
  • H/W di base necessario per creare un cluster Hadoop

Introduzione a Map Reduce /HDFS

  • MapReduce – distribuisci l'elaborazione su più server
  • HDFS – rende i dati disponibili localmente per il processo di elaborazione (con ridondanza)
  • Dati – possono essere non strutturati/senza schema (a differenza di RDBMS)
  • Responsabilità dello sviluppatore di dare un senso ai dati
  • Programming MapReduce = lavorare con Java (pro/contro), caricamento manuale dei dati in HDFS

Giorno 02

Big Data Ecosistema -- Costruzione Big Data ETL (Estrazione, Trasformazione, Caricamento) -- Quali Big Data Strumenti utilizzare e quando?

  • Hadoop vs. Altre NoSQL soluzioni
  • Per un accesso interattivo e casuale ai dati
  • Hbase (database orientato alle colonne) su Hadoop
  • Accesso casuale ai dati ma con restrizioni imposte (max 1 PB)
  • Non adatto per analisi ad hoc, adatto per la registrazione, il conteggio e le serie temporali
  • Sqoop - Importazione da database a Hive o HDFS (accesso JDBC/ODBC)
  • Flume – Trasmette i dati (ad esempio i dati di registro) in HDFS

Sistema Big Data Management

  • Parti mobili, avvio/fallimento dei nodi di calcolo: ZooKeeper - Per servizi di configurazione/coordinamento/denominazione
  • Pipeline/flusso di lavoro complesso: Oozie – gestione del flusso di lavoro, delle dipendenze, della daisy chain
  • Distribuzione, configurazione, gestione cluster, aggiornamento ecc. (amministratore di sistema): Ambari
  • Nella nuvola: ronzio

Predictive Analytics -- Tecniche fondamentali e Business Intelligence basate sull'apprendimento automatico

  • Introduzione a Machine Learning
  • Apprendimento delle tecniche di classificazione
  • Previsione bayesiana: preparazione di un file di formazione
  • Macchina a vettori di supporto
  • Algebra p-Tree KNN e mining verticale
  • Neural Networks
  • Big Data problema delle grandi variabili -- Foresta casuale (RF)
  • Big Data Problema di automazione – Insieme multi-modello RF
  • Automazione tramite Soft10-M
  • Strumento di analisi del testo-Treeminer
  • Agile apprendimento
  • Apprendimento basato su agenti
  • Apprendimento distribuito
  • Introduzione agli strumenti open source per l'analisi predittiva: R, Python, Rapidminer, Mahut

Predictive Analytics L'ecosistema e la sua applicazione nell'analisi dell'intelligence criminale

  • Tecnologia e processo investigativo
  • Analisi di insight
  • Analisi della visualizzazione
  • Analisi predittiva strutturata
  • Analisi predittiva non strutturata
  • Profilazione di minacce/frodi/venditori
  • Motore di raccomandazione
  • Rilevamento del modello
  • Scoperta di regole/scenari: fallimento, frode, ottimizzazione
  • Scoperta della causa principale
  • Analisi del sentimento
  • Analisi CRM
  • Analisi di rete
  • Analisi del testo per ottenere informazioni da trascrizioni, dichiarazioni di testimoni, chiacchiere su Internet, ecc.
  • Revisione assistita dalla tecnologia
  • Analisi delle frodi
  • Analitica in tempo reale

Giorno 03

Analisi in tempo reale e Scalable su Hadoop

  • Perché gli algoritmi analitici comuni falliscono in Hadoop/HDFS
  • Apache Hama- per il calcolo distribuito sincrono di massa
  • Apache SPARK - per cluster computing e analisi in tempo reale
  • CMU Graphics Lab2 - Approccio asincrono basato su grafici al calcolo distribuito
  • KNN p -- Approccio basato sull'algebra di Treeminer per ridurre i costi operativi dell'hardware

Strumenti per l'eDiscovery e l'analisi forense

  • eDiscovery su Big Data vs. dati legacy: un confronto tra costi e prestazioni
  • Codifica predittiva e revisione assistita dalla tecnologia (TAR)
  • Demo live di vMiner per comprendere come TAR consente una scoperta più rapida
  • Indicizzazione più rapida tramite HDFS – Velocità dei dati
  • NLP (Natural Language Processing) – prodotti e tecniche open source
  • eDiscovery in lingue straniere -- tecnologia per l'elaborazione delle lingue straniere

Big Data BI per Cyber Security – Ottenere una visione a 360 gradi, una rapida raccolta dei dati e l'identificazione delle minacce

  • Comprensione delle basi dell'analisi della sicurezza: superficie di attacco, configurazione errata della sicurezza, difese dell'host
  • Infrastruttura di rete / Grande datapipe / ETL di risposta per analisi in tempo reale
  • Prescrittivo vs predittivo – Regole fisse basate su vs individuazione automatica delle regole di minaccia dai metadati

Raccolta di dati eterogenei per l'analisi dell'intelligence criminale

  • Utilizzo dell'IoT (Internet of Things) come sensori per l'acquisizione dei dati
  • Utilizzo delle immagini satellitari per la sorveglianza interna
  • Utilizzo di dati di sorveglianza e immagini per l'identificazione criminale
  • Altre tecnologie di raccolta dati: droni, bodycam, sistemi di tagging GPS e tecnologia di imaging termico
  • Combinando il recupero automatico dei dati con i dati ottenuti da informatori, interrogatori e ricerche
  • Forecasting attività criminale

Giorno 04

BI di prevenzione delle frodi da Big Data in Fraud Analytics

  • Classificazione di base dell'analisi delle frodi: analisi basata su regole vs analisi predittiva
  • Apprendimento automatico supervisionato e non supervisionato per il rilevamento di modelli di frode
  • Business alle frodi commerciali, alle frodi sulle richieste di risarcimento danni mediche, alle frodi assicurative, all'evasione fiscale e al riciclaggio di denaro

Social Media Analytics -- Raccolta e analisi di intelligence

  • Come Social Media viene utilizzato dai criminali per organizzare, reclutare e pianificare
  • Big Data API ETL per l'estrazione di dati dai social media
  • Testo, immagine, metadati e video
  • Analisi del sentiment dal feed dei social media
  • Filtraggio contestuale e non contestuale del feed dei social media
  • Social Media Dashboard per integrare i diversi social media
  • Profilazione automatizzata del profilo dei social media
  • La demo live di ogni analisi verrà fornita tramite lo strumento Treeminer

Big Data Analisi nell'elaborazione delle immagini e nei feed video

  • Tecniche di archiviazione delle immagini in Big Data -- Soluzione di archiviazione per dati superiori ai petabyte
  • LTFS (Linear Tape File System) e LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) -- soluzione di archiviazione a strati per dati di immagini di grandi dimensioni
  • Fondamenti dell'analisi delle immagini
  • Riconoscimento degli oggetti
  • Segmentazione delle immagini
  • Tracciamento del movimento
  • Ricostruzione delle immagini 3D

Biometriche, DNA e programmi di identificazione di nuova generazione

  • Oltre le impronte digitali e il riconoscimento facciale
  • Riconoscimento vocale, battitura dei tasti (analisi dello schema di digitazione di un utente) e CODIS (Combined DNA Index System)
  • Oltre la corrispondenza del DNA: usare la fenotipizzazione forense del DNA per costruire un volto da campioni di DNA

Big Data Dashboard per una rapida accessibilità di diversi dati e visualizzazione:

  • Integrazione della piattaforma applicativa esistente con Big Data Dashboard
  • Big Data gestione
  • Caso di studio di Big Data Dashboard: Tableau e Pentaho
  • Utilizzare l'app Big Data per spingere i servizi basati sulla posizione in Govt.
  • Sistema di monitoraggio e gestione

Giorno 05

Come giustificare l'implementazione di Big Data BI all'interno di un'organizzazione:

  • Definizione del ROI (ritorno su Investment) per l'implementazione di Big Data
  • Casi di studio per risparmiare tempo agli analisti nella raccolta e preparazione dei dati, aumentando la produttività
  • Aumento dei ricavi grazie ai minori costi di licenza del database
  • Guadagno di fatturato dai servizi basati sulla posizione
  • Risparmio sui costi grazie alla prevenzione delle frodi
  • Un approccio integrato di foglio di calcolo per calcolare le spese approssimative rispetto al guadagno/risparmio di entrate dall'implementazione Big Data.

Procedura passo passo per la sostituzione di un sistema di dati legacy con un sistema Big Data

  • Big Data Roadmap della migrazione
  • Quali informazioni critiche sono necessarie prima di progettare un sistema Big Data?
  • Quali sono i diversi modi per calcolare il volume, la velocità, la varietà e la veridicità dei dati?
  • Come stimare la crescita dei dati
  • Casi di studio

Recensione di Big Data fornitori e revisione dei loro prodotti.

  • Accentura
  • APTEAN (precedentemente CDC Software)
  • Cisco Sistemi
  • Nuvola
  • Dell
  • Compatibilità elettromagnetica
  • GoodData Corporation
  • Guaiavo
  • Sistemi di dati Hitachi
  • Lavori di Horton
  • CV
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (già 10Gen)
  • Sigma MU
  • Netapp
  • Soluzioni Opera
  • Oracle
  • Pentaho
  • Piattaforma
  • Tecnologia Qlik
  • Quantistico
  • Spazio rack
  • Analisi della rivoluzione
  • Salesforce
  • SAP
  • SAS Istituto
  • Senso
  • Software AG/Terracotta
  • Automazione Soft10
  • Splunk
  • Quadrato
  • Supermicro
  • Tableau Il software
  • Teradata
  • Pensa in grande Analisi
  • Sistemi di maree
  • Minatore di alberi
  • VMware (Parte di EMC)

Sessione Q/A

Requisiti

  • Conoscenza dei processi di applicazione della legge e dei sistemi di dati
  • Conoscenza di base di SQL/Oracle o database relazionale
  • Conoscenza di base delle statistiche (a livello di foglio di calcolo)

Pubblico

  • Specialisti delle forze dell'ordine con un background tecnico
 35 ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (1)

Corsi in Arrivo

Categorie relative