글로벌 오픈소스 솔루션 선도기업 레드햇이 오늘 생성형 AI의 대중화에 중요한 역할을 할 ‘레드햇 AI 인퍼런스 서버(Red Hat AI Inference Server)’를 출시했다고 발표했다. 레드햇 AI 포트폴리오의 신규 제품인 이 엔터프라이즈급 추론 서버는 vLLM 커뮤니티 프로젝트와 레드햇의 뉴럴매직(Neural Magic) 기술 통합으로 탄생했다. 더욱 향상된 속도와 가속기 효율성 및 비용 효율성을 제공함으로써 모든 클라우드 환경의 AI 가속기에서 모든 생성형 AI 모델을 실행할 수 있게 지원한다. 이 플랫폼은 독립형 배포 또는 ‘레드햇 엔터프라이즈 리눅스 AI(Red Hat Enterprise Linux AI, 이하 RHEL AI)’ 및 ‘레드햇 오픈시프트 AI(Red Hat OpenShift AI)’의 통합 구성 요소 배포 여부와 관계없이 조직이 보다 안전하게 생성형 AI를 프로덕션 환경에 배포 및 확장할 수 있도록 지원한다.
레드햇 AI 인퍼런스 서버는 대규모의 응답성이 뛰어나고 고성능의 추론에 대한 수요를 충족하면서 리소스 요구 사항을 낮게 유지하고 모든 환경의 모든 가속기에서 실행되는 모든 모델을 지원하는 공통 추론 레이어를 제공한다.
추론은 사전 학습된 모델이 데이터를 실질적인 영향력으로 전환되는 과정으로 AI의 핵심 실행 엔진이다. 이는 사용자 상호 작용을 위한 핵심 지점이 되며 신속하고 정확한 응답을 필요로 한다. 생성형 AI 모델의 복잡성이 폭발적으로 증가하고 프로덕션 배포가 확장됨에 따라, 추론은 심각한 병목 현상을 일으켜 하드웨어 자원을 과도하게 소모하고 응답성을 저하시키며 운영 비용을 증가시킬 수 있다. 강력한 추론 서버는 이제 AI의 진정한 잠재력을 큰 규모로 실현하고 근본적인 복잡성을 보다 쉽게 탐색하기 위한 필수 요소가 됐다.
레드햇은 고성능을 위해 설계되고 선도적인 모델 압축 및 최적화 도구를 갖춘 개방형 추론 솔루션인 레드햇 AI 인퍼런스 서버를 통해 이러한 과제들을 직접적으로 해결한다. 이러한 혁신은 훨씬 더 반응성이 뛰어난 사용자 경험과 AI 가속기와 모델 및 IT 환경을 선택함에 있어 비교할 수 없는 선택의 자유를 제공함으로써 조직이 생성형 AI의 변혁적인 힘을 완전히 활용할 수 있도록 지원한다.
vLLM: 추론 혁신의 확장
레드햇 AI 인퍼런스 서버는 2023년 중반 캘리포니아대학교 버클리 캠퍼스(University of California, Berkeley)에서 시작된 업계 선도적인 vLLM 프로젝트를 기반으로 구축됐다. 이 커뮤니티 프로젝트는 높은 처리량의 생성형 AI 추론, 대규모 입력 컨텍스트 지원, 다중 GPU 모델 가속화, 연속 배치(batch) 지원 등을 제공한다.
공개적으로 사용 가능한 모델에 대한 폭넓은 지원은 물론 딥시크(DeepSeek), 젬마(Gemma), 라마(Llama), 미스트랄(Mistral), 파이(Phi) 등 선도적인 프론티어 모델 및 라마 네모트론(Llama Nemotron)과 같은 개방형 엔터프라이즈급 추론 모델에 대한 제로데이 통합을 제공하는 vLLM은 미래 AI 추론 혁신을 위한 사실상 표준으로 자리매김하고 있다. 선도적인 프론티어 모델 제공업체들이 점점 더 vLLM을 채택함에 따라 생성형 AI의 미래 형성에 있어 vLLM의 핵심적인 역할이 더욱 공고해지고 있다.
레드햇 AI 인퍼런스 서버 소개
레드햇 AI 인퍼런스 서버는 vLLM의 선도적인 혁신을 패키징해 엔터프라이즈급 기능으로 제공한다. 레드햇 AI 인퍼런스 서버는 컨테이너화된 독립형 제품 또는 RHEL AI 및 레드햇 오픈시프트 AI의 일부로 제공된다.
레드햇 AI 인퍼런스 서버는 모든 배포 환경에서 사용자에게 vLLM의 강화된 지원 배포판과 함께 다음과 같은 기능을 제공한다.
- 지능형 LLM 압축 도구: 기본 및 미세 조정된 AI 모델의 크기를 대폭 축소하고 컴퓨팅 자원 소비를 최소화하는 동시에 모델 정확도를 유지하거나 잠재적으로 향상
- 모델 저장소(repository) 최적화: 허깅페이스(Hugging Face)의 레드햇 AI 조직에서 호스팅되며 추론 배포가 준비된 검증되고 최적화된 선도적 AI 모델 컬렉션에 즉시 액세스할 수 있어 모델 정확도 저하 없이도 효율성을 2~4배 가속화할 수 있도록 지원
- 레드햇의 엔터프라이즈 지원: 커뮤니티 프로젝트를 프로덕션 환경으로 가져오는 데 있어 수십 년간 쌓아 온 레드햇의 전문성을 제공
- 서드파티 지원: 배포 유연성이 더욱 향상돼 레드햇의 서드파티 지원 정책하에 래드햇 AI 인퍼런스 서버를 비(非) 레드햇 리눅스 및 쿠버네티스 플랫폼에 배포
레드햇의 비전: 모든 모델, 모든 가속기, 모든 클라우드
AI의 미래는 인프라 사일로에 의해 제한되지 않고 무한한 가능성을 유지해야 한다. 레드햇은 조직이 모든 클라우드에서 모든 가속기에 모든 모델을 배포할 수 있어, 과도한 비용 없이 탁월하고 더 일관된 사용자 경험을 제공할 수 있는 미래를 지향한다. 생성형 AI 투자의 진정한 잠재력을 실현하기 위해 기업은 현재 및 미래에 걸쳐 보다 원활하고 고성능의 AI 혁신을 위한 표준이 될 범용 추론 플랫폼을 필요로 한다.
레드햇은 리눅스를 현대 IT의 기반으로 전환해 개방형 엔터프라이즈를 개척한 것처럼 이제 AI 추론의 미래를 설계하는 데 앞장서고 있다. vLLM의 잠재력은 표준화된 생성형 AI 추론의 핵심이며 레드햇은 vLLM 커뮤니티뿐만 아니라 대규모 분산 추론을 위한 ‘llm-d’를 중심으로 번창하는 생태계를 구축하기 위해 노력하고 있다. 레드햇은 AI 모델, 기본 가속기 또는 배포 환경에 관계없이 vLLM을 새로운 하이브리드 클라우드 전반에서 추론을 위한 확실한 개방형 표준으로 자리매김할 계획이다.
레드햇 서밋
레드햇 서밋 기조연설에 참여해 레드햇 경영진, 고객 및 파트너의 최신 소식을 확인할 수 있다.
- 현대화된 인프라스트럭처와 기업용 AI의 만남(Modernized infrastructure meets enterprise-ready AI): 5월 20일 화요일, 오전 8-10시(EDT) (유튜브 링크)
- 엔터프라이즈 혁신을 위해 진화하는 하이브리드 클라우드(Hybrid cloud evolves to deliver enterprise innovation): 5월 21일 수요일, 오전 8-9:30(EDT) (유튜브 링크)
인용문
조 페르난데스(Joe Fernandes) 레드햇 AI 사업 부문 부사장 겸 총괄 매니저
"추론은 생성형 AI의 진정한 잠재력이 발휘되는 부분이다. 사용자 상호 작용이 주어진 모델에 의해 빠르고 정확한 응답으로 충족되어야 하는 동시에 효과적이고 비용 효율적인 방식으로 제공되어야 한다. 레드햇 AI 인퍼런스 서버는 대규모의 응답성이 뛰어나고 고성능의 추론에 대한 수요를 충족하면서 리소스 요구 사항을 낮게 유지하고 모든 환경의 모든 가속기에서 실행되는 모든 모델을 지원하는 공통 추론 레이어를 제공한다”고 말했다.
라민 론(Ramine Roane), AMD AI 제품 관리 부문 부사장
"AMD는 레드햇과의 협력을 통해 기업에서 효율적인 생성형 AI를 구동할 수 있는 즉시 사용 가능한 솔루션을 제공한다. AMD 인스팅트(AMD Instinct) GPU에서 활성화된 레드햇 AI 인퍼런스 서버는 완전히 검증된 하드웨어 가속기에 의해 뒷받침되는 엔터프라이즈급 커뮤니티 주도 AI 추론 기능을 조직에 제공한다"고 말했다.
제레미 포스터(Jeremy Foster), 시스코 수석 부사장 겸 총괄 매니저
"AI 워크로드에는 속도와 일관성, 유연성이 필요하며 레드햇 AI 인퍼런스 서버는 이 요소들을 제공하도록 설계됐다. 이를 통해 시스코와 레드햇은 AI 배포의 접근성, 효율성, 확장성을 높이는 새로운 방법에 대해 지속적으로 협력하고 조직이 미래에 대비할 수 있도록 지원한다”고 말했다.
빌 피어슨(Bill Pearson), 인텔 데이터센터, AI 소프트웨어 솔루션 및 에코시스템 부문 부사장
"레드햇과의 협력을 통해 인텔 가우디(Intel Gaudi) 가속기에서 레드햇 AI 인퍼런스 서버를 지원하게 되어 기쁘다. 이번 통합을 통해 고객에게 AI 추론을 간소화하고 확장할 수 있는 최적화된 솔루션을 제공해 광범위한 엔터프라이즈 AI 애플리케이션을 위한 고급 성능과 효율성을 확보할 수 있게 지원한다”고 말했다.
존 파넬리(John Fanelli), 엔비디아 엔터프라이즈 소프트웨어 부문 부사장
"고성능 추론은 모델과 AI 에이전트가 단순히 답변만 하는 것이 아니라 실시간으로 추론하고 적응할 수 있게 한다. 개방형 풀스택 엔비디아 가속 컴퓨팅과 레드햇 AI 인퍼런스 서버를 통해, 개발자는 하이브리드 클라우드 전반에서 효율적인 추론을 대규모로 실행하고 새로운 엔디비아 엔터프라이즈 AI(NVIDIA Enterprise AI) 검증 설계가 적용된 레드햇 인퍼런스 서버를 사용해 안심하고 배포할 수 있다"고 말했다.
Additional Resources
- 레드햇 AI 인퍼런스 서버에 대해 자세히 알아보기
- 레드햇 경영진으로부터 레드햇 AI 추론 서버에 대해 자세히 알아보기
- 레드햇 AI에 대해 더 알아보기
- 레드햇 오픈시프트 AI에 대해 더 알아보기
- 레드햇 엔터프라이즈 리눅스 AI에 대해 더 알아보기
- llm-d 프로젝트에 대해 자세히 알아보기
- 레드햇 AI의 최신 업데이트 알아보기
- 레드햇 서밋에 대해 자세히 알아보기
- 레드햇 서밋 뉴스룸에서 이번 주 레드햇의 모든 발표 보기
- 이벤트 관련 업데이트는 X에서 @RedHatSummit 또는 #RHSummit을 팔로우하세요
Connect with Red Hat
- 레드햇(Red Hat, Inc.)에 대하여
레드햇은 오픈 하이브리드 클라우드 기술 분야의 글로벌 선도기업으로서 IT 혁신과 AI 애플리케이션을 위한 신뢰할 수 있고 일관되며 포괄적인 기반을 제공한다. 레드햇의 포트폴리오는 클라우드, AI, 리눅스, 자동화, 애플리케이션 플랫폼 기술을 포함하며, 데이터센터에서 엣지에 이르기까지 어디서든 모든 애플리케이션을 가능하게 한다. 레드햇은 미래의 IT 과제를 해결하기 위해 오픈소스 에코시스템과 커뮤니티에 지속적으로 투자하고 있다. 파트너 및 고객과 협력하여 IT 환경의 구축, 연결, 자동화, 보안 강화, 및 관리을 지원하며, 컨설팅 서비스는 물론 수상 경력에 빛나는 교육 및 자격 인증 프로그램도 제공한다.
- 미래 전망 진술 관련 면책 고지
본 보도자료에 포함된 역사적 정보 및 논의를 제외한 진술은 1995년 민간증권소송개혁법의 의미 내에서 미래예측 진술에 해당할 수 있습니다. 미래예측 진술은 회사의 미래 사업 및 재무 성과에 대한 현재 가정을 기반으로 합니다. 이러한 진술은 실제 결과가 실질적으로 다르게 나타날 수 있는 다수의 위험, 불확실성 및 기타 요인을 포함합니다. 본 보도자료의 모든 미래예측 진술은 작성된 날짜를 기준으로만 유효합니다. 법률에서 요구하는 경우를 제외하고 회사는 미래예측 진술을 갱신하거나 수정할 의무가 없습니다.
###
Red Hat, Red Hat Enterprise Linux, Red Hat 로고 및 OpenShift는 미국 및 기타 국가에서 Red Hat, Inc. 또는 그 자회사의 상표 또는 등록 상표입니다. Linux®는 미국 및 기타 국가에서 Linus Torvalds의 등록 상표입니다.