AI010

Panoramica tecnica di Red Hat AI Inference Server

Panoramica

Sfrutta tutto il potenziale della tua infrastruttura Kubernetes.

Descrizione del corso

  • Ottieni informazioni essenziali sul deployment dell'IA con questa panoramica tecnica di Red Hat AI Inference Server. Scopri come affrontare le complessità e i costi legati all'esecuzione dei modelli di IA in produzione. Scopri come la soluzione di Red Hat, basata su vLLM, ottimizza le prestazioni e offre risparmi significativi in ambienti cloud, on premise, virtualizzati e all'edge. Approfondisci le tecniche avanzate come la quantizzazione e la decodifica speculativa per migliorare le capacità di inferenza IA. Questo contenuto video on demand illustra il deployment e la gestione ideali dei modelli all'interno di OpenShift AI, mostrando come ottenere un'efficienza e una flessibilità senza precedenti per i carichi di lavoro di IA.

Riepilogo dei contenuti del corso

  • Cos'è l'inferenza?
  • Sfide legate all'inferenza
  • La soluzione di Red Hat AI Inference Server
  • Integrazione con il portfolio Red Hat AI
  • Flessibilità del deployment
  • Strumento di compressione LLM (quantizzazione)
  • Tecniche di ottimizzazione delle prestazioni (cache KV, decodifica speculativa, inferenza con parallelismo tensoriale)
  • Casi cliente
  • Deployment e gestione dei modelli
  • Connessioni di storage per i modelli
  • Metriche e monitoraggio
  • Integrazione con Hugging Face

Destinatari del corso

  • Ingegneri e professionisti di AI/ML
  • Ingegneri DevOps
  • Architetti cloud e cloud engineer
  • Responsabili tecnici

Formazione consigliata

  • Non sono previsti requisiti per questa panoramica tecnica.

Considerazioni sulla tecnologia

  • N/D

Struttura del corso

Programma del corso

  • Cos'è l'inferenza?
  • Sfide legate all'inferenza
  • La soluzione di Red Hat AI Inference Server
  • Integrazione con il portfolio Red Hat AI
  • Flessibilità del deployment
  • Strumento di compressione LLM (quantizzazione)
  • Tecniche di ottimizzazione delle prestazioni (cache KV, decodifica speculativa, inferenza con parallelismo tensoriale)
  • Casi cliente
  • Deployment e gestione dei modelli
  • Connessioni di storage per i modelli
  • Metriche e monitoraggio
  • Integrazione con Hugging Face

Risultati

Esami o corsi successivi consigliati