Contattataci

Struttura del corso

Introduzione a EXO e al clustering AI locale

  • Panoramica del framework EXO e dell'ecosistema exo-explore
  • Confronto tra inferenza cloud centralizzata e inferenza locale distribuita
  • Architettura: scoperta dispositivi libp2p, backend MLX, dashboard e strati API
  • Requisiti hardware: Apple Silicon (M3 Ultra, M4 Pro/Max), Thunderbolt 5, archiviazione condivisa

Installazione di EXO su macOS

  • Configurazione di Xcode, Metal Toolchain e prerequisiti macOS
  • Installazione di uv, Node.js e toolchain Rust nightly
  • Installazione della fork pinned di macmon per il monitoraggio di Apple Silicon
  • Clonazione del repository e compilazione della dashboard con npm
  • Esecuzione di EXO dal sorgente e verifica della dashboard su localhost:52415

Installazione di EXO su Linux

  • Installazione delle dipendenze tramite apt o Homebrew su Linux
  • Configurazione di uv, Node.js 18+ e Rust nightly
  • Compilazione della dashboard ed esecuzione di EXO in modalità solo CPU
  • Struttura delle directory: percorsi XDG Base Directory per config, data, cache e log

Scoperta automatica dei dispositivi e formazione del cluster

  • Comprensione della scoperta automatica basata su libp2p su reti locali
  • Configurazione di namespace personalizzati con EXO_LIBP2P_NAMESPACE per l'isolamento del cluster
  • Verifica dell'appartenenza dei nodi nella vista cluster della dashboard
  • Gestione dei fallimenti della scoperta e dei problemi di segmentazione della rete

Abilitazione di RDMA su Thunderbolt 5

  • Architettura RDMA e la riduzione del 99% della latenza
  • Abilitazione di RDMA in modalità Recovery macOS con rdma_ctl
  • Requisiti dei cavi e vincoli della topologia delle porte su Mac Studio
  • Corrispondenza delle versioni macOS su tutti i nodi del cluster
  • Risoluzione problemi della scoperta RDMA e configurazione DHCP

Distribuzione di modelli all'avanguardia

  • Utilizzo della dashboard per caricare e frammentare i modelli DeepSeek v3.1, Qwen3-235B e la famiglia Llama
  • Anteprima dei posizionamenti delle istanze con l'endpoint API /instance/previews
  • Creazione di istanze modello con frammentazione a pipeline o tensor-parallel
  • Configurazione di card modello personalizzate da HuggingFace hub

Monitoraggio e risoluzione dei problemi

  • Lettura dei log EXO e comprensione del tracciamento distribuito
  • Interpretazione dello stato del cluster nella vista cluster della dashboard
  • Diagnosi dei guasti dei nodi worker e del comportamento di riconnessione
  • Utilizzo di EXO_TRACING_ENABLED per l'analisi dei colli di bottiglia delle prestazioni

Manutenzione e aggiornamenti del cluster

  • Aggiornamento dei binari EXO e procedure di ricostruzione della dashboard
  • Migrazione delle cache dei modelli e gestione dei modelli pre-downloadati su NFS
  • Rimozione graduale dei nodi e riallocazione dei carichi di lavoro

Requisiti

  • Conoscenza dei fondamenti di rete (IP, subnetting, firewall)
  • Esperienza con l'amministrazione della riga di comando su macOS o Linux
  • Dimestichezza con la gestione dei pacchetti Python (pip/uv) e gli strumenti Node.js

Pubblico

  • Amministratori di sistema
  • Ingegneri DevOps
  • Architetti di infrastrutture AI responsabili della distribuzione LLM on-premise
 21 ore

Numero di Partecipanti


Prezzo per partecipante

Corsi in Arrivo

Categorie relative