面向混合云中 AI 模型的开放平台
拥抱智能应用与生成式 AI
人工智能(AI)、机器学习(ML)和深度学习(DL)正深刻影响着各行各业的应用现代化进程。为实现创新并从数据中挖掘战略价值和新见解,企业正广泛采用依托 AI 的云原生应用和 MLOps 方法。与此同时,这个充满机遇的新领域也颇为复杂,从开发人员、数据科学家到运维人员的每个人都面临挑战。将 AI/ML 投入实际运营绝非易事,往往需要数月时间,而生成式 AI(gen AI)的创新却日新月异。这种节奏不匹配可能导致项目失败,使企业在各种挑战中面临风险:
- 从确保各类快速迭代的工具和应用服务及时更新并保持一致,到合理置备图形处理单元(GPU)等硬件资源,再到扩展依托 AI 的应用的规模——要跟上 AI 的发展速度着实不易。
- 企业组织在投资 AI 时,必须设法降低风险并获得真正的价值,尤其是在使用敏感数据训练模型、开发应用时更需谨慎。
- 为应用开发人员和数据科学家维护多个不同平台可能会增加协作难度并减缓开发进度。
- 部署依托 AI 的应用时,必须能够实现规模化,且尽可能靠近数据生成点。
红帽 OpenShift AI 基于领先的混合云应用平台红帽® OpenShift®(红帽 AI 产品组合的重要组成部分)而构建,为数据科学家和开发人员提供了一个强大的 AI/ML 平台,用于构建和部署智能应用。企业组织可以通过一个通用平台尝试选择多种工具、开展协作,并加快上市速度。红帽 OpenShift AI 将数据科学家和开发人员需要的自助服务环境与企业 IT 所需的可靠性融为一体。
稳固的基础可以减少整个生命周期中的摩擦。红帽 OpenShift AI 提供了一个强大的平台、一个由主流认证工具组成的广泛生态系统,以及常用于将模型部署到生产环境的工作流。凭借这些优势,团队协作更加顺畅,能更高效地将依托 AI 的应用推向市场,最终为企业创造更大价值。
要点
通过扩展基础架构并实现其自动化,降低从实验阶段到生产阶段的成本。
为数据科学家、数据工程师、应用开发人员和 DevOps 团队提供一致的用户体验,全面提高各个团队的 AI/ML 运维效率。
通过在本地、云端或边缘环境中构建、训练、部署和监控 AI/ML 工作负载,尽享混合云带来的灵活性优势。
快速开发、训练、测试和部署
红帽 OpenShift AI 是一个灵活、可扩展的 AI 平台,配备的工具可用于构建、部署和管理依托 AI 的应用。该平台基于开源技术构建,提供值得信赖且运维一致的功能,支持团队开展实验、服务模型并交付创新应用。红帽 OpenShift AI 通过统一的共享平台,加速智能应用的交付,助力 ML 模型从初期试验快速转变为智能应用。
红帽 OpenShift AI 提供集成的用户界面(UI),配备用于构建、训练、调优、部署和监控预测性与生成式 AI 模型的工具。您可以选择在本地或各大主流公共云环境中部署模型,灵活运行工作负载,无需受限于特定商业云服务。红帽 OpenShift AI 基于社区项目 Open Data Hub 以及 Jupyter、Pytorch、vLLM 和 Kubeflow 等常见开源项目构建而成。
降低生产环境中的扩展成本
作为红帽 OpenShift 的附加组件,OpenShift AI 提供了一个专为应对高要求工作负载而设计的平台。OpenShift AI 通过简化资源置备和自动完成数据管道中的多项任务,降低了生成式和预测性 AI 项目从实验到生产阶段的持续训练、服务和基础架构成本。OpenShift AI 采用优化的服务引擎和运行时(如 vLLM),并根据工作负载需求动态扩展底层基础架构,从而有效地降低模型推理的成本。
数据科学家可以使用熟悉的工具和框架,或者借助不断发展的技术合作伙伴生态系统获取更深层次的 AI/ML 专业知识,而无需受限于指定工具链。他们无需等待 IT 部门置备必要的资源,而且无需填写 IT 工单,点击一下即可获得按需提供的基础架构。
降低运维复杂性
红帽 OpenShift AI 提供一致的用户体验,让数据科学家、数据工程师、应用工程师和 DevOps 团队能够高效协作,及时交付 AI 解决方案。它支持以自助服务方式访问协作工作流,支持借助 GPU 资源加快处理速度,还能简化运维操作。企业组织能够在混合云环境和边缘场景中,大规模且稳定一致地交付 AI 解决方案。
作为红帽 OpenShift 的附加产品,OpenShift AI 让 IT 运维能够基于一个稳定且成熟的平台,为数据科学家和应用开发人员提供更简便的配置,并支持轻松实现按需扩展和缩减。IT 部门不必再因监管和安全防护而烦心,无需追查不合规的云平台帐户。
尽享混合云带来的灵活性优势
红帽 OpenShift AI 支持在云环境、本地数据中心或者靠近数据生成点或所在点的网络边缘训练、部署和监控 AI/ML 工作负载。这种灵活性促使 AI 策略能够根据业务需求演进,支持将运维迁移到云端或边缘。企业组织可在任何满足法规、安全和数据要求的环境中训练和部署模型及依托 AI 的应用,包括隔离网络和断网环境。
在被问及 2025 年哪些技术领域将获得更多投资时,84% 的受访者选择了 AI,高于去年的 73%。1
红帽 OpenShift AI
图 1 展示了模型运维生命周期如何整合 OpenShift AI 作为通用平台,从而扩展了领先应用平台红帽 OpenShift 的功能。企业组织在经过验证的混合云平台开展构建工作,该平台既可作为传统软件由用户自主管理,也可作为托管云服务使用,带来极大的灵活性。自主管理版本可在红帽 OpenShift 支持的任何环境运行,无论是本地还是三大主流公共云环境。云服务版本则可通过 AWS 上的红帽 OpenShift 服务或红帽 OpenShift 专业版(在 AWS 或 Google Cloud Platform 上)使用。
我们的解决方案还支持通过与数十家 AI 软件和软件即服务(SaaS)合作伙伴的生态系统协作,进一步扩展 AI 能力。红帽 OpenShift AI 灵活且可组合,允许客户组建符合自身特定需求的端到端 AI/ML 平台。
对于刚开始使用生成式 AI 模型的用户,OpenShift AI 包含红帽企业 Linux® AI 的组件——这是一个用于开发、测试和运行 Granite 系列大语言模型(LLM)的基础模型平台,可支持企业级应用。除了红帽 OpenShift AI 提供的 Granite 模型外,该框架还支持来自 HuggingFace、Stability AI 和其他模型库的模型。
红帽 OpenShift AI 是 IBM watsonx.ai 中的一个基础组件,为生成式 AI 工作负载提供基础 AI 工具和服务。Watsonx 为 AI 构建者带来了一个用于交付生成式 AI 应用的企业级工作室,不仅很少需要甚至无需编写代码,还能利用易于使用的模型开发工作流,并可访问含有 IBM 基础模型及精选开源模型的资源库。红帽 OpenShift 和 OpenShift AI 是 watsonx 软件的嵌入式技术先决条件。
红帽 OpenShift AI 提供的核心工具和功能奠定了坚实基础:
- 模型构建和调优。数据科学家可以在 JupyterLab 用户界面中开展探索性的数据科学工作,其中提供了即开即用的安全 Notebook 镜像,预装常用的 Python 库和软件包,包括 TensorFlow、PyTorch 和 CUDA。此外,企业组织还可以提供自定义的 Notebook 镜像,能够在项目和工作台中创建并协作处理 Notebook,从而更有条理地开展工作。
- 模型服务。红帽 OpenShift AI 提供丰富的模型服务框架,可帮助企业轻松地将预测性机器学习模型或基础模型部署到生产环境中,且不受具体计算资源需求的限制。针对生成式 AI 工作负载,OpenShift AI 提供基于 vLLM 的模型推理,支持当前最主流的开源大语言模型(LLM),在性能与效率方面均处于行业领先水平。该解决方案还允许客户引入和使用自己偏好的推理运行环境,确保灵活性和控制权。
- 数据科学管道。红帽 OpenShift AI 还包含一个数据科学管道组件,可让您通过图形化前端将各类数据科学任务编排到管道中并构建管道。企业组织可以将数据准备、模型构建和模型部署等流程串联起来。
- 模型监控。红帽 OpenShift AI 帮助运维用户监控模型服务器和已部署模型的运维和性能指标。数据科学家可以使用即开即用的可视化界面查看性能和运维指标,也可以将相关数据集成到其他可观测性服务中。
- 分布式工作负载。分布式工作负载让团队可以加速数据处理以及模型训练、调优和部署等工作。此功能支持任务的优先级调度和分布式执行,同时优化节点的资源使用效率。先进的 GPU 支持能帮助处理基础模型的工作负载需求。
- 偏差与漂移检测。红帽 OpenShift AI 提供一套工具,不仅可以帮助数据科学家基于训练数据评估模型是否公平无偏,还能在实际部署环境中持续监控模型的公平性。对于已部署的 ML 模型,偏差检测工具会分析其输入数据的分布情况,以识别模型推理所用的实时数据是否与模型训练所用的数据发生了显著偏离。
- AI 护栏(技术预览版)。AI 护栏支持的功能包括输入检测器和输出检测器:前者用于限制用户可以发起的交互类型,后者用于对模型的输出进行安全检查。AI 护栏可用于过滤仇恨、侮辱或亵渎言论,个人身份信息,竞争性信息或其他特定领域的敏感内容。我们提供一系列检测器,客户也可以添加自定义的检测规则。
- 模型评估。在模型探索和开发阶段,LM-Eval(语言模型评估)组件可以为改进模型质量提供重要参考信息。借助 LM-Eval ,数据科学家可以在多种任务场景中对 LLM 模型进行性能基准测试,例如逻辑推理、数学推理、对抗性自然语言处理等。我们提供的基准测试均基于行业标准。
- 模型注册表。红帽 OpenShift AI 让数据科学家能够在一个位置集中管理和查看所有已注册的模型。在这里,他们可以对预测性和生成式 AI 模型进行版本管理、共享、部署和跟踪,还能管理模型的元数据和工件。
除了支持使用 Jupyter Notebook 镜像和 Jupyter 启动器来为数据科学团队部署预打包或企业组织的自定义镜像外,OpenShift AI 还包括 Git 插件,可直接在 JupyterLab 用户界面中集成 Git,提升工作效率。为了简化运维并帮助用户更顺利地开始项目,OpenShift AI 还预装了常用的分析工具包,包括 Pandas、scikit-learn 和 NumPy,确保项目启动时即具备所需的工具。此外,OpenShift AI 还提供了 RStudio Server(经过测试和验证)和 VS Code Server,作为 JupyterLab 的 IDE,为数据科学家提供更多选择。项目的 UI 允许数据科学家创建自己的工作空间,以项目形式组织和共享 Notebook 镜像与工件,并支持与其他用户协作。
对于生成式 AI 项目,OpenShift AI 提供分布式 InstructLab 训练作为预览功能。InstructLab 是红帽企业 Linux AI 的关键组件,它提供模型对齐工具,帮助企业组织更高效地使用私有数据对小型模型进行调优,即使团队缺乏 AI 专业知识也无妨。红帽 OpenShift AI 还支持通过 LoRA/QLoRA 对大语言模型(LLM)进行高效微调,从而降低计算资源开销和内存占用;同时也支持嵌入功能,方便将文本信息与向量数据库集成,以满足检索增强生成(RAG)的需求。
为满足同时部署预测性 AI 和生成式 AI 模型的需求,灵活的模型服务能力必不可少。红帽 OpenShift AI 支持多种模型服务框架,您可以选用其提供的多模型和单模型推理服务器,也可以使用自己的自定义推理服务器。模型服务 UI 已直接集成到红帽 OpenShift AI 信息面板和项目工作区中。底层的集群资源可根据工作负载的需求自动扩展或缩减。对于需要高度可扩展性的 LLM,红帽 OpenShift AI 支持通过 vLLM 运行时在多个节点上并行部署模型,从而实现实时处理多个请求的能力。
完整 AI 生命周期所需的工具
红帽 OpenShift 提供一系列服务和软件,帮助企业组织成功训练和部署模型,并将模型投入生产(图 2)。除了 OpenShift AI 之外,此流程还集成了红帽应用基础,其中包括用于实时数据和事件流处理的 Apache Kafka 流服务、用于 API 管理的红帽 3scale,以及用于数据集成的红帽版 Apache Camel。
为方便使用,红帽 OpenShift AI 控制面板中还设计了一个用于发现和访问所有应用和文档的中心位置。“智能启动”教程直接集成在控制面板中,为常用组件和合作伙伴集成软件提供了最佳实践指南,从而帮助数据科学家更快速地学习并上手操作。以下各部分将介绍与红帽 OpenShift AI 集成的技术合作伙伴工具。部分工具可能需要从相应的技术合作伙伴处单独获取许可。
Starburst
Starburst 可以让您的团队更快速、更轻松地利用您的数据来改善业务运作方式,从而加速分析。Starburst 可作为自助式产品或完全托管服务,使数据访问大众化,为数据使用者带来更全面的见解。Starburst 基于开源 Trino(之前称为 PrestoSQL)构建,Trino 是出色的大规模并行处理(MPP)SQL 引擎。Starburst 由 Trino 专家和 Presto 的创始团队构建和运维,可让您自由查询各种数据集,无论数据集位于何处,也无需移动数据。
Starburst 与红帽 OpenShift 提供的可扩展云存储和计算服务集成,以更稳定、更注重安全、更高效且更实惠的方式查询所有企业数据。其优势包括:
- 自动化。Starburst 和红帽 OpenShift 运维人员提供集群的自动配置、自动调整和自动管理。
- 高可用性与灵活缩减。红帽 OpenShift 负载平衡器可以使 Trino 协调器等服务保持始终开启的状态。
- 弹性扩展。红帽 OpenShift 可以根据查询负载自动扩展 Trino 工作节点集群。
企业组织需要数据管理解决方案来促进从笔记本电脑实验到重要企业部署等所有环节的发展。HPE Machine Learning Data Management 软件(之前称为 Pachyderm)支持数据科学团队构建和扩展由数据驱动的容器化 ML 管道,并通过自动数据版本控制保障数据沿袭。Pachyderm 旨在解决现实世界的数据科学问题,为团队提供数据基础,使其能够自动执行并扩展其 ML 生命周期,同时保证可再现性。HPE Machine Learning Data Management 软件的用例涵盖非结构化数据、数据仓库、自然语言处理、视频和图像 ETL(提取、转换和加载)、金融服务和生命科学,可提供:
- 自动数据版本控制为团队提供了一种高性能的方式来跟踪所有数据变更。
- 由数据驱动的容器化管道可加快数据处理速度,同时降低计算成本。
- 不可变的数据沿袭,为 ML 生命周期中的所有活动和资产提供固定记录。
- 控制台可直观地展示有向无环图(DAG),以帮助进行调试并实现可再现性。
- Jupyter Notebook 支持 JupyterLab Mount Extension,用户可在可视化界面中直接操作版本化数据。
- 使用强大的工具进行企业管理,用于在企业内的不同团队中大规模部署和管理 HPE Machine Learning Data Management 软件。
NVIDIA 加速计算软硬件平台为计算新时代提供动力
随着 AI/ML 应用在企业成功中的作用日益重要,企业组织需要能够处理复杂工作负载,同时实现硬件资源的最优利用与良好的可扩展性的平台。可扩展的数据处理、数据分析、机器学习训练与推理等任务对计算资源的需求极高,特别适合利用加速计算。NVIDIA AI Enterprise 软件可简化生产级 AI 解决方案的部署与管理。其中,NVIDIA NIM 是 NVIDIA AI Enterprise 的一个组成部分,它是一组易于使用的微服务,专为安全而可靠地部署高性能 AI 模型推理而设计。在红帽 OpenShift 环境中,NVIDIA NIM 能增强 AI 模型的管理和性能,使 AI 应用能够充分发挥 NVIDIA 加速计算与 NVIDIA AI Enterprise 软件的全部潜力。NVIDIA 加速计算、NVIDIA AI Enterprise 和红帽 OpenShift AI 的结合,能实现更高效的资源分配、更出色的运行效率,以及更快速的 AI 工作负载执行。
英特尔 OpenVINO 工具套件
英特尔 OpenVINO 工具套件发行版可加速高性能深度学习推理应用在英特尔平台上的开发和部署。该工具包可让您采用、优化并调优几乎所有神经网络模型,并通过 OpenVINO 开发工具生态系统实现全面的 AI 推理。
- 模型。软件开发人员可以灵活使用自己的深度学习模型。为了加快推向市场的速度,他们还可以使用通过英特尔与 Hugging Face 合作提供的、适用于 OpenVINO 工具包的预训练和预优化模型。
- 优化。OpenVINO 工具包提供多种方式来转换模型,以实现更好的便捷性和性能,帮助软件开发人员实现更快速、更高效的 AI 模型执行。开发人员可以跳过模型转换,直接使用 TensorFlow、TensorFlow Lite、ONNX 或 PaddlePaddle 格式运行推理。转换为 OpenVINO IR 可获得最佳性能,缩短首次推理所用的时间并节省存储空间。若使用神经网络压缩框架,还可以实现进一步的提升。
- 部署。OpenVINO Runtime 推理引擎是一个应用编程接口(API),可集成至您的应用中,以加快推理过程。它采用“一次编写、随处部署”的方式,支持在多种英特尔硬件上高效执行推理任务,包括中央处理单元(CPU)、GPU 和加速器。
英特尔® AI 工具
英特尔 AI 工具(之前称为英特尔 AI 分析工具套件)为数据科学家、AI 开发人员和研究人员带来了熟悉的 Python 工具和框架,以便加速英特尔基础架构上的端到端数据科学和分析管道。它的组件使用 oneAPI 库进行低级计算优化。该工具套件更大限度地提高了通过 ML 进行预处理的性能,并为高效的模型开发提供了互操作性。
使用英特尔 AI 工具,您可以:
- 在英特尔 XPU 上交付高性能的深度学习训练,并通过英特尔优化的 TensorFlow 和 PyTorch 框架(包括预训练模型和低精度工具),将更快的推理集成到 AI 开发工作流中。
- 通过针对英特尔优化的计算密集型 Python 软件包、Modin、scikit-learn 和 XGBoost,无需额外操作即可加速数据预处理和 ML 工作流。
- 直接访问英特尔的分析和 AI 优化功能,以确保您的软件持续协同工作。
Elastic
Elastic Search AI 平台(基于 ELK Stack 构建)融合了搜索的精准性与 AI 的智能性,使用户能够更快地进行原型设计并集成 LLM,以及借助生成式 AI 构建可扩展、具成本效益的应用。Elastic Search AI 平台允许用户构建具有变革性的 RAG(检索增强生成)应用,主动解决可观测性问题,并应对复杂的安全威胁。Elasticsearch 可部署在您的应用所在的位置:本地环境、您选择的云提供商,或物理隔离的环境中。
Elastic 通过一个简单的 API 调用,与来自红帽 OpenShift AI、Hugging Face、Cohere、OpenAI 等生态系统的嵌入模型集成。这种方式支持对 RAG 工作负载的混合推理进行清晰高效的代码管理,并具备以下特性:
- 数据分块、连接器和网页爬虫功能,支持将多样化数据集导入搜索层。
- 基于内置 ML 模型 Elastic Learned Sparse EncodeR(ELSER)和 E5 嵌入模型的语义搜索功能,实现多语言向量检索。
- 文档级和字段级安全防护,实现基于角色的访问控制策略,确保权限管理符合企业组织要求。
使用 Elastic Search AI 平台,您将加入一个全球开发人员社区,在这里您可以轻松获取灵感与支持。欢迎加入 Elastic 社区的 Slack 频道、讨论论坛或社交媒体。
结论
借助红帽 OpenShift AI,企业组织能够开展实验、促进协作,并最终加速其 AI 应用的开发进程。数据科学家可以灵活选择使用红帽 OpenShift AI 作为由红帽管理的云端附加服务,或作为自主管理的软件产品,从而无论在何处构建模型,都能简化相关任务。IT 运维团队可借助 MLOps 功能,更快地将模型部署到生产环境中。开发人员和数据科学家可通过自助服务访问包括 GPU 在内的资源,在企业 IT 已经使用并完全信任的应用平台上加速创新。此外,与其他竞争性方案不同,红帽 OpenShift AI 不强加限制性的工具链,数据科学家可根据自身需求选择所需工具,自由探索数据价值,避免受限于人为设定的工具边界。