Grazie per aver inviato la tua richiesta! Uno dei nostri team membri ti contatterà a breve.
Grazie per aver inviato il tuo prenotazione! Uno dei nostri team membri ti contatterà a breve.
Struttura del corso
Introduzione alla Multimodalità di Gemini 3
- Capacità in testo, immagini, audio e video
- Selezione del modello e panoramica degli endpoint
- Concetti chiave nel ragionamento multimodale
Lavorare con Testo e Input Strutturati
- Strategie di prompting per la generazione di testo
- Metadati, finestre di contesto e embeddings
- Orchestrazione basata su testo di task multimodali
Comprensione delle Immagini e Workflow Visivi
- Analisi e interpretazione delle immagini con Gemini 3
- Creazione di strumenti di ricerca visiva e tagging
- Costruzione di interazioni da immagine a testo e viceversa
Elaborazione dell'Input Audio
- Flussi di lavoro per il riconoscimento vocale e la trascrizione
- Rilevamento e interpretazione degli eventi audio
- Integrazione dell'audio con input testuali e visivi
Intelligenza Video e Analisi della Scena
- Ragionamento video frame per frame e continuo
- Costruzione di strumenti di sintesi e estrazione dei punti salienti
- Automazione basata su video e flussi di lavoro contenutistici
Progettazione di Architetture per Applicazioni Multimodalità
- Combinazione di più tipi di input in una singola pipeline
- Considerazioni sulla latenza, il costo e le risorse computazionali
- Best practice per sistemi multimodali scalabili
Prototipazione di Applicazioni Multimodalità
- Creazione manuale di prototipi multimodali
- Iterazione rapida con ingegneria dei prompt
- Test e raffinamento delle flow dell'esperienza utente
Distribuzione di Soluzioni Multimodalità
- Strategie di distribuzione e setup dell'ambiente
- Monitoraggio delle prestazioni nel mondo reale
- Considerazioni sulla sicurezza e conformità
Riepilogo e Passi Successivi
Requisiti
- Comprensione dei concetti moderni di AI
- Esperienza con Python o JavaScript
- Familiarità con REST APIs
Pubblico di Riferimento
- Designer
- Creatori di contenuti
- Team prodotto tecnico
14 Ore
Recensioni (1)
Flusso, atmosfera e argomento della presentazione
Lukasz Kowalczyk - Allegro Sp. z o.o.
Corso - Google Gemini AI for Data Analysis
Traduzione automatica