Struttura del corso
Giorno 01
Panoramica di Big Data Business Intelligence per l'analisi dell'intelligence criminale
- Casi di studio dalle forze dell'ordine - Polizia predittiva
- Big Data tasso di adozione nelle agenzie di applicazione della legge e come stanno allineando le loro future operazioni attorno a Big Data Predictive Analytics
- Soluzioni tecnologiche emergenti come sensori di spari, video di sorveglianza e social media
- Utilizzo della tecnologia Big Data per mitigare il sovraccarico di informazioni
- Interfacciamento Big Data con dati Legacy
- Conoscenza di base delle tecnologie abilitanti nell'analisi predittiva
- Data Integration & Visualizzazione del dashboard
- Gestione delle frodi
- Business Rules e Rilevamento delle frodi
- Rilevamento e profilazione delle minacce
- Analisi costi-benefici per l'implementazione Big Data
Introduzione a Big Data
- Caratteristiche principali di Big Data -- Volume, Varietà, Velocità e Veridicità.
- Architettura MPP (Massively Parallel Processing)
- Data Warehouses – schema statico, dataset in lenta evoluzione
- MPP Database: Greenplum, Exadata, Teradata, Netezza, Vertica ecc.
- Hadoop Soluzioni basate – nessuna condizione sulla struttura del set di dati.
- Modello tipico: HDFS, MapReduce (crunch), recupero da HDFS
- Apache Spark per l'elaborazione in streaming
- Batch - adatto per analisi/non interattivo
- Volume: dati in streaming CEP
- Scelte tipiche – Prodotti CEP (ad esempio Infostreams, Apama, MarkLogic ecc.)
- Meno pronto per la produzione – Storm/S4
- NoSQL Databases – (colonnari e chiave-valore): più adatti come complemento analitico per data warehouse/database
NoSQL soluzioni
- Negozio KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Negozio KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (gerarchico) - GT.m, Cache
- KV Store (ordinato) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coerenza, Infinispan, EXtremeScale, JBossCache, Velocità, Terracoqua
- Negozio Tuple - Gigaspaces, Coord, Apache River
- Oggetto Database - ZopeDB, DB40, Shoal
- Archivio documenti - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Ampio archivio a colonne: BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Varietà di dati: introduzione a Data Cleaning problemi nei Big Data
- RDBMS – struttura/schema statico, non promuove un ambiente agile ed esplorativo.
- NoSQL – semi strutturato, struttura sufficiente per memorizzare i dati senza schema esatto prima di memorizzare i dati
- Problemi di pulizia dei dati
Hadoop
- Quando selezionare Hadoop?
- STRUTTURATO - I data warehouse/database aziendali possono archiviare dati enormi (a un costo) ma impongono una struttura (non adatta all'esplorazione attiva)
- Dati SEMISTRUTTURATI – difficili da realizzare utilizzando soluzioni tradizionali (DW/DB)
- Dati di warehousing = SFORZO ENORME e staticità anche dopo l'implementazione
- Per varietà e volume di dati, elaborati su hardware commerciale – HADOOP
- H/W di base necessario per creare un cluster Hadoop
Introduzione a Map Reduce /HDFS
- MapReduce – distribuisci l'elaborazione su più server
- HDFS – rende i dati disponibili localmente per il processo di elaborazione (con ridondanza)
- Dati – possono essere non strutturati/senza schema (a differenza di RDBMS)
- Responsabilità dello sviluppatore di dare un senso ai dati
- Programming MapReduce = lavorare con Java (pro/contro), caricamento manuale dei dati in HDFS
Giorno 02
Big Data Ecosistema -- Costruzione Big Data ETL (Estrazione, Trasformazione, Caricamento) -- Quali Big Data Strumenti utilizzare e quando?
- Hadoop vs. Altre NoSQL soluzioni
- Per un accesso interattivo e casuale ai dati
- Hbase (database orientato alle colonne) su Hadoop
- Accesso casuale ai dati ma con restrizioni imposte (max 1 PB)
- Non adatto per analisi ad hoc, adatto per la registrazione, il conteggio e le serie temporali
- Sqoop - Importazione da database a Hive o HDFS (accesso JDBC/ODBC)
- Flume – Trasmette i dati (ad esempio i dati di registro) in HDFS
Sistema Big Data Management
- Parti mobili, avvio/fallimento dei nodi di calcolo: ZooKeeper - Per servizi di configurazione/coordinamento/denominazione
- Pipeline/flusso di lavoro complesso: Oozie – gestione del flusso di lavoro, delle dipendenze, della daisy chain
- Distribuzione, configurazione, gestione cluster, aggiornamento ecc. (amministratore di sistema): Ambari
- Nella nuvola: ronzio
Predictive Analytics -- Tecniche fondamentali e Business Intelligence basate sull'apprendimento automatico
- Introduzione a Machine Learning
- Apprendimento delle tecniche di classificazione
- Previsione bayesiana: preparazione di un file di formazione
- Macchina a vettori di supporto
- Algebra p-Tree KNN e mining verticale
- Neural Networks
- Big Data problema delle grandi variabili -- Foresta casuale (RF)
- Big Data Problema di automazione – Insieme multi-modello RF
- Automazione tramite Soft10-M
- Strumento di analisi del testo-Treeminer
- Agile apprendimento
- Apprendimento basato su agenti
- Apprendimento distribuito
- Introduzione agli strumenti open source per l'analisi predittiva: R, Python, Rapidminer, Mahut
Predictive Analytics L'ecosistema e la sua applicazione nell'analisi dell'intelligence criminale
- Tecnologia e processo investigativo
- Analisi di insight
- Analisi della visualizzazione
- Analisi predittiva strutturata
- Analisi predittiva non strutturata
- Profilazione di minacce/frodi/venditori
- Motore di raccomandazione
- Rilevamento del modello
- Scoperta di regole/scenari: fallimento, frode, ottimizzazione
- Scoperta della causa principale
- Analisi del sentimento
- Analisi CRM
- Analisi di rete
- Analisi del testo per ottenere informazioni da trascrizioni, dichiarazioni di testimoni, chiacchiere su Internet, ecc.
- Revisione assistita dalla tecnologia
- Analisi delle frodi
- Analitica in tempo reale
Giorno 03
Analisi in tempo reale e Scalable su Hadoop
- Perché gli algoritmi analitici comuni falliscono in Hadoop/HDFS
- Apache Hama- per il calcolo distribuito sincrono di massa
- Apache SPARK - per cluster computing e analisi in tempo reale
- CMU Graphics Lab2 - Approccio asincrono basato su grafici al calcolo distribuito
- KNN p -- Approccio basato sull'algebra di Treeminer per ridurre i costi operativi dell'hardware
Strumenti per l'eDiscovery e l'analisi forense
- eDiscovery su Big Data vs. dati legacy: un confronto tra costi e prestazioni
- Codifica predittiva e revisione assistita dalla tecnologia (TAR)
- Demo live di vMiner per comprendere come TAR consente una scoperta più rapida
- Indicizzazione più rapida tramite HDFS – Velocità dei dati
- NLP (Natural Language Processing) – prodotti e tecniche open source
- eDiscovery in lingue straniere -- tecnologia per l'elaborazione delle lingue straniere
Big Data BI per Cyber Security – Ottenere una visione a 360 gradi, una rapida raccolta dei dati e l'identificazione delle minacce
- Comprensione delle basi dell'analisi della sicurezza: superficie di attacco, configurazione errata della sicurezza, difese dell'host
- Infrastruttura di rete / Grande datapipe / ETL di risposta per analisi in tempo reale
- Prescrittivo vs predittivo – Regole fisse basate su vs individuazione automatica delle regole di minaccia dai metadati
Raccolta di dati eterogenei per l'analisi dell'intelligence criminale
- Utilizzo dell'IoT (Internet of Things) come sensori per l'acquisizione dei dati
- Utilizzo delle immagini satellitari per la sorveglianza interna
- Utilizzo di dati di sorveglianza e immagini per l'identificazione criminale
- Altre tecnologie di raccolta dati: droni, bodycam, sistemi di tagging GPS e tecnologia di imaging termico
- Combinando il recupero automatico dei dati con i dati ottenuti da informatori, interrogatori e ricerche
- Forecasting attività criminale
Giorno 04
BI di prevenzione delle frodi da Big Data in Fraud Analytics
- Classificazione di base dell'analisi delle frodi: analisi basata su regole vs analisi predittiva
- Apprendimento automatico supervisionato e non supervisionato per il rilevamento di modelli di frode
- Business alle frodi commerciali, alle frodi sulle richieste di risarcimento danni mediche, alle frodi assicurative, all'evasione fiscale e al riciclaggio di denaro
Social Media Analytics -- Raccolta e analisi di intelligence
- Come Social Media viene utilizzato dai criminali per organizzare, reclutare e pianificare
- Big Data API ETL per l'estrazione di dati dai social media
- Testo, immagine, metadati e video
- Analisi del sentiment dal feed dei social media
- Filtraggio contestuale e non contestuale del feed dei social media
- Social Media Dashboard per integrare i diversi social media
- Profilazione automatizzata del profilo dei social media
- La demo live di ogni analisi verrà fornita tramite lo strumento Treeminer
Big Data Analisi nell'elaborazione delle immagini e nei feed video
- Tecniche di archiviazione delle immagini in Big Data -- Soluzione di archiviazione per dati superiori ai petabyte
- LTFS (Linear Tape File System) e LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- soluzione di archiviazione a strati per dati di immagini di grandi dimensioni
- Fondamenti dell'analisi delle immagini
- Riconoscimento degli oggetti
- Segmentazione delle immagini
- Tracciamento del movimento
- Ricostruzione delle immagini 3D
Biometriche, DNA e programmi di identificazione di nuova generazione
- Oltre le impronte digitali e il riconoscimento facciale
- Riconoscimento vocale, battitura dei tasti (analisi dello schema di digitazione di un utente) e CODIS (Combined DNA Index System)
- Oltre la corrispondenza del DNA: usare la fenotipizzazione forense del DNA per costruire un volto da campioni di DNA
Big Data Dashboard per una rapida accessibilità di diversi dati e visualizzazione:
- Integrazione della piattaforma applicativa esistente con Big Data Dashboard
- Big Data gestione
- Caso di studio di Big Data Dashboard: Tableau e Pentaho
- Utilizzare l'app Big Data per spingere i servizi basati sulla posizione in Govt.
- Sistema di monitoraggio e gestione
Giorno 05
Come giustificare l'implementazione di Big Data BI all'interno di un'organizzazione:
- Definizione del ROI (ritorno su Investment) per l'implementazione di Big Data
- Casi di studio per risparmiare tempo agli analisti nella raccolta e preparazione dei dati, aumentando la produttività
- Aumento dei ricavi grazie ai minori costi di licenza del database
- Guadagno di fatturato dai servizi basati sulla posizione
- Risparmio sui costi grazie alla prevenzione delle frodi
- Un approccio integrato di foglio di calcolo per calcolare le spese approssimative rispetto al guadagno/risparmio di entrate dall'implementazione Big Data.
Procedura passo passo per la sostituzione di un sistema di dati legacy con un sistema Big Data
- Big Data Roadmap della migrazione
- Quali informazioni critiche sono necessarie prima di progettare un sistema Big Data?
- Quali sono i diversi modi per calcolare il volume, la velocità, la varietà e la veridicità dei dati?
- Come stimare la crescita dei dati
- Casi di studio
Recensione di Big Data fornitori e revisione dei loro prodotti.
- Accentura
- APTEAN (precedentemente CDC Software)
- Cisco Sistemi
- Nuvola
- Dell
- Compatibilità elettromagnetica
- GoodData Corporation
- Guaiavo
- Sistemi di dati Hitachi
- Lavori di Horton
- CV
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (già 10Gen)
- Sigma MU
- Netapp
- Soluzioni Opera
- Oracle
- Pentaho
- Piattaforma
- Tecnologia Qlik
- Quantistico
- Spazio rack
- Analisi della rivoluzione
- Salesforce
- SAP
- SAS Istituto
- Senso
- Software AG/Terracotta
- Automazione Soft10
- Splunk
- Quadrato
- Supermicro
- Tableau Il software
- Teradata
- Pensa in grande Analisi
- Sistemi di maree
- Minatore di alberi
- VMware (Parte di EMC)
Sessione Q/A
Requisiti
- Conoscenza dei processi di applicazione della legge e dei sistemi di dati
- Conoscenza di base di SQL/Oracle o database relazionale
- Conoscenza di base delle statistiche (a livello di foglio di calcolo)
Pubblico
- Specialisti delle forze dell'ordine con un background tecnico
Recensioni (1)
Deepthi era estremamente sintonizzata sulle mie esigenze, sapeva quando aggiungere livelli di complessità e quando trattenersi e adottare un approccio più strutturato. Deepthi ha lavorato davvero al mio ritmo e si è assicurato che fossi in grado di usare le nuove funzioni/strumenti da solo, prima mostrandomi e poi lasciandomi ricreare gli elementi da solo, il che ha davvero aiutato a integrare la formazione. Non potrei essere più felice dei risultati di questa formazione e del livello di competenza di Deepthi!
Deepthi - Invest Northern Ireland
Corso - IBM Cognos Analytics
Traduzione automatica