AI010
Panoramica tecnica di Red Hat AI Inference Server
Panoramica
Sfrutta tutto il potenziale della tua infrastruttura Kubernetes.
Descrizione del corso
- Ottieni informazioni essenziali sul deployment dell'IA con questa panoramica tecnica di Red Hat AI Inference Server. Scopri come affrontare le complessità e i costi legati all'esecuzione dei modelli di IA in produzione. Scopri come la soluzione di Red Hat, basata su vLLM, ottimizza le prestazioni e offre risparmi significativi in ambienti cloud, on premise, virtualizzati e all'edge. Approfondisci le tecniche avanzate come la quantizzazione e la decodifica speculativa per migliorare le capacità di inferenza IA. Questo contenuto video on demand illustra il deployment e la gestione ideali dei modelli all'interno di OpenShift AI, mostrando come ottenere un'efficienza e una flessibilità senza precedenti per i carichi di lavoro di IA.
Riepilogo dei contenuti del corso
- Cos'è l'inferenza?
- Sfide legate all'inferenza
- La soluzione di Red Hat AI Inference Server
- Integrazione con il portfolio Red Hat AI
- Flessibilità del deployment
- Strumento di compressione LLM (quantizzazione)
- Tecniche di ottimizzazione delle prestazioni (cache KV, decodifica speculativa, inferenza con parallelismo tensoriale)
- Casi cliente
- Deployment e gestione dei modelli
- Connessioni di storage per i modelli
- Metriche e monitoraggio
- Integrazione con Hugging Face
Destinatari del corso
- Ingegneri e professionisti di AI/ML
- Ingegneri DevOps
- Architetti cloud e cloud engineer
- Responsabili tecnici
Formazione consigliata
- Non sono previsti requisiti per questa panoramica tecnica.
Considerazioni sulla tecnologia
- N/D
Struttura del corso
Programma del corso
- Cos'è l'inferenza?
- Sfide legate all'inferenza
- La soluzione di Red Hat AI Inference Server
- Integrazione con il portfolio Red Hat AI
- Flessibilità del deployment
- Strumento di compressione LLM (quantizzazione)
- Tecniche di ottimizzazione delle prestazioni (cache KV, decodifica speculativa, inferenza con parallelismo tensoriale)
- Casi cliente
- Deployment e gestione dei modelli
- Connessioni di storage per i modelli
- Metriche e monitoraggio
- Integrazione con Hugging Face