Struttura del corso

Piano di formazione dettagliato

  1. Introduzione al NLP
    • Comprensione del NLP
    • Framework del NLP
    • Applicazioni commerciali del NLP
    • Scraping dei dati dal web
    • Lavorare con varie API per recuperare dati testuali
    • Lavorare e archiviare corpora testuali, salvando contenuti e metadati rilevanti
    • Vantaggi dell'uso di Python e corso accelerato su NLTK
  2. Comprensione pratica di un corpus e di un dataset
    • Perché abbiamo bisogno di un corpus?
    • Analisi del corpus
    • Tipi di attributi dei dati
    • Diversi formati di file per i corpora
    • Preparare un dataset per le applicazioni NLP
  3. Comprensione della struttura delle frasi
    • Componenti del NLP
    • Comprensione del linguaggio naturale
    • Analisi morfologica - radice, parola, token, tag di parte del discorso
    • Analisi sintattica
    • Analisi semantica
    • Gestire l'ambiguità
  4. Preprocessing dei dati testuali
    • Corpus - testo grezzo
      • Tokenizzazione delle frasi
      • Radicalizzazione del testo grezzo
      • Lemmizzazione del testo grezzo
      • Rimozione delle parole ferme
    • Corpus - frasi grezze
      • Tokenizzazione delle parole
      • Lemmizzazione delle parole
    • Lavorare con le matrici Term-Document/Document-Term
    • Tokenizzazione del testo in n-grammi e frasi
    • Preprocessing pratico e personalizzato
  5. Analisi dei dati testuali
    • Caratteristiche di base del NLP
      • Parsers e parsing
      • Tagging POS e taggers
      • Riconoscimento delle entità nominali
      • N-grammi
      • Sacca di parole (Bag of words)
    • Caratteristiche statistiche del NLP
      • Concetti di algebra lineare per il NLP
      • Teoria probabilistica per il NLP
      • TF-IDF
      • Vettorizzazione
      • Codificatori e decodificatori
      • Normalizzazione
      • Modelli probabilistici
    • Ingegneria avanzata delle caratteristiche e NLP
      • Nozioni di base del word2vec
      • Componenti del modello word2vec
      • Logica del modello word2vec
      • Estensione del concetto word2vec
      • Applicazione del modello word2vec
    • Caso di studio: Applicazione della sacca di parole (Bag of Words): sintesi automatica del testo utilizzando algoritmi semplificati e veri di Luhn
  6. Affinità documentale, classificazione e modellizzazione tematica
    • Affinità documentale e mining dei pattern (clustering gerarchico, k-means, etc.)
    • Confronto e classificazione dei documenti utilizzando misure di distanza TFIDF, Jaccard e coseno
    • Classificazione dei documenti usando Naïve Bayes e Maximum Entropy
  7. Identificazione degli elementi testuali importanti
    • Riduzione della dimensionalità: Analisi delle componenti principali (PCA), decomposizione a valori singolari, fattorizzazione matriciale non negativa
    • Modellizzazione tematica e recupero dell'informazione utilizzando l'Analisi Semantica Latente (LSA)
  8. Estrazione di entità, analisi del sentiment e modellizzazione tematica avanzata
    • Positivo vs. negativo: grado di sentiment
    • Teoria della risposta agli item (Item Response Theory)
    • Tagging delle parti del discorso e sue applicazioni: trovare persone, luoghi e organizzazioni menzionate nel testo
    • Modellizzazione tematica avanzata: Latent Dirichlet Allocation (LDA)
  9. Casi di studio
    • Sfruttamento delle recensioni utente non strutturate
    • Classificazione e visualizzazione del sentiment dei dati di recensione dei prodotti
    • Sfruttamento dei log di ricerca per i pattern di utilizzo
    • Classificazione testuale
    • Modellizzazione tematica

Requisiti

Conoscenza e consapevolezza dei principi del NLP e apprezzamento delle applicazioni di AI nel business

 21 Ore

Numero di Partecipanti


Prezzo per Partecipante

Recensioni (1)

Corsi in Arrivo

Categorie relative