AI010

Présentation technique de Red Hat AI Inference Server

Présentation

Libérez tout le potentiel de votre infrastructure Kubernetes

Description du cours

  • Apprenez-en davantage le déploiement de l'IA grâce à cette présentation technique de Red Hat AI Inference Server. Apprenez à faire face à la complexité et aux coûts liés à l'exécution en production des modèles d'IA. Découvrez comment la solution Red Hat, basée sur le vLLM, optimise les performances et permet de réaliser des économies considérables dans les environnements cloud, virtualisés, sur site et d'edge computing. Familiarisez-vous avec des techniques avancées telles que la quantification et le décodage spéculatif afin d'améliorer vos capacités d'inférence dans le d'IA. Ces contenus vidéo à la demande illustrent le déploiement et la gestion de modèles dans OpenShift AI, et montrent comment optimiser l'efficacité et la flexibilité de vos charges de travail d'IA.

Contenu du cours

  • Définition de l'inférence
  • Difficultés liées à l'inférence
  • Solution Red Hat AI Inference Server
  • Intégration de la gamme de produits Red Hat AI
  • Flexibilité de déploiement
  • Outil de compression des grands modèles de langage (quantification)
  • Techniques d'optimisation des performances (cache kV, décodage spéculatif, inférence parallèle des tenseurs)
  • Études de cas
  • Déploiement et gestion de modèles
  • Connexions de stockage pour les modèles
  • Indicateurs de mesure et surveillance
  • Intégration à Hugging Face

Public ciblé

  • Ingénieurs et professionnels de l'IA/AA
  • Ingénieurs DevOps
  • Architectes et ingénieurs cloud
  • Décideurs techniques

Formation recommandée

  • Cette présentation technique ne nécessite aucun prérequis.

Technologies requises

  • S. O.

Programme

Programme du cours

  • Définition de l'inférence
  • Difficultés liées à l'inférence
  • Solution Red Hat AI Inference Server
  • Intégration de la gamme de produits Red Hat AI
  • Flexibilité de déploiement
  • Outil de compression des grands modèles de langage (quantification)
  • Techniques d'optimisation des performances (cache kV, décodage spéculatif, inférence parallèle des tenseurs)
  • Études de cas
  • Déploiement et gestion de modèles
  • Connexions de stockage pour les modèles
  • Indicateurs de mesure et surveillance
  • Intégration à Hugging Face

Bénéfices