04 January 2023
[베슬AI 고객 사례] 서울대학교의 이야기를 통해 MLOps 플랫폼 VESSL의 효과를 확인해 보세요!
2019년, Facebook AI Research(FAIR)와 NYU Langone Health는 AI를 통해 MRI 스캔 속도를 최대 10배까지 향상시키기 위해 제1회 fastMRI 챌린지를 개최했습니다. 이 대회의 일환으로 NYU 랭곤 헬스는 완전히 익명화된 원시 데이터와 17,000개 이상의 MRI 이미지 데이터 세트를 공개하여 MRI 연구의 광범위한 머신러닝 커뮤니티에서 ML의 임상적 채택을 가속화했습니다.
서울대학교 공과대학이 2020 FAIR-NYU fastMRI 챌린지 우승자가 설립한 의료 AI 스타트업인 AIRS Medical과 함께 매년 캠퍼스 전체에서 주최하는 서울대학교(SNU) fastMRI 챌린지가 이 이니셔티브를 이어가고 있습니다. 이 대회는 매년 30개 이상의 분야에서 150개 이상의 팀이 모여 ML 가속 MRI 이미징의 최신 트렌드를 탐구하고 실제 임상 데이터와 챌린지 전용의 강력한 GPU 리소스로 최첨단 재구성 모델을 구축합니다.
하지만 머신 러닝 연구 경쟁을 위한 개발 환경을 구축하는 것은 복잡한 엔지니어링 프로세스입니다. 서울대학교의 경우, 150개 이상의 팀에게 캠퍼스 전체의 HPC와 대용량 이미지 데이터세트에 대한 쉬운 액세스를 제공해야 했을 뿐만 아니라 Kaggle과 유사한 노트북 환경도 제공해야 했습니다.
서울대학교 공과대학은 VESSL과 협력하여 필요한 연구 환경을 구축했습니다. 주최 측은 인프라를 구축하는 데 몇 주를 소비하는 대신 간단히 행사를 진행할 수 있었습니다. 대회 기간 중 언제든지 충분한 컴퓨팅 성능을 확보하고 대용량 데이터 세트에 즉시 액세스할 수 있었기 때문에 참가자들은 MRI 재구성 모델을 발전시키는 데 온전히 집중할 수 있었습니다.
서울대는 고성능 컴퓨팅 성능과 대용량 MRI 데이터 세트에 쉽게 액세스할 수 있는 연구 환경이 필요했습니다.
MRI 재구성은 GPU와 데이터 집약적인 작업입니다. 예를 들어, AIRS Medical의 2020 fastMRI 챌린지 우승 모델은 7일 동안 4개의 NVIDIA V100에서 2억 개 이상의 파라미터를 훈련했습니다. 서울대학교는 이를 150배로 확장하여 150개 이상의 팀이 각각 자체 모델을 훈련하고 최적화할 수 있는 환경을 구축하고자 했습니다.
공과대학은 (1) 제한된 수의 200개 이상의 미드 티어 RTX 3080 GPU를 공정하고 효율적으로 할당하고, (2) 100GB 이상의 MRI 데이터세트를 위한 오브젝트 스토리지를 설정하고 (3) 모든 훈련 메타데이터와 계보를 저장하여 재현성을 보장하기를 원했습니다.
서울대학교가 VESSL Run을 사용하기 전에는 GPU 클러스터의 특정 노드에 할당되어 최신 모델, 더 큰 데이터 세트, 더 많은 반복을 탐색하는 데 상당한 제약이 있었습니다. 또한 베어메탈 스토리지 시스템만으로는 노트북 서버나 교육 작업을 시작할 때마다 100GB의 데이터 세트를 다운로드해야 했습니다. 가장 중요한 문제는 일부 모델이 예상한 정확도로 재현되지 않아 주최 측에서 최종 모델을 제대로 평가할 수 없었다는 점입니다.
VESSL Run은 연구원들이 모델을 발전시키는 데 필요한 ML 인프라, 도구 및 워크플로우를 제공합니다. 서울대학교는 VESSL을 사용하여 단 몇 시간 만에 fastMRI 챌린지를 위한 확장성이 뛰어난 인프라를 구축했습니다. 작업은 캠퍼스 전체 데이터 센터에서 GPU 클러스터와 스토리지 시스템을 구성하는 것으로 시작되었습니다.
각 팀에는 노드 대신 제한된 GPU 시간이 할당되어 영구적인 노트북 서버 대신 컨테이너화된 작업을 실행하는 등 GPU를 보다 현명하게 사용하도록 장려했습니다. 이를 통해 서울대학교는 리소스 집약적인 교육 및 최적화 작업을 위한 유휴 노드를 확보할 수 있었습니다. 쿠버네티스 (Kubernetes) hostPath 볼륨에 대한 VESSL의 기본 지원 덕분에 팀은 더 이상 노트북 서버나 교육 작업을 실행할 때마다 100GB가 넘는 데이터 세트를 다운로드할 필요가 없었습니다. 또한 서울대학교는 실험 대시보드를 모든 모델의 성능 지표와 메타데이터를 기록하는 리더보드로 사용하여 모든 모델 제출물을 완벽하게 재현할 수 있게 되었습니다.
적절한 인프라와 툴을 갖춘 경쟁사들은 자연스럽게 모델 성능을 극대화하는 보다 효율적이고 확장 가능한 워크플로우를 채택했습니다:
- VESSL의 멀티 인스턴스 GPU(MIG) 지원을 통해 프랙셔널 GPU에서 기준 모델을 훈련
- VESSL의 작업 스케줄러를 사용하여 HPC에서 모델을 확장하고 하이퍼파라미터 최적화 및 분산 학습을 통해 모델 최적화
- 하이퍼파라미터, 런타임 환경, 버전이 지정된 데이터세트를 VESSL Run으로 자동으로 기록
연구원들은 고성능 컴퓨팅 성능과 대용량 데이터세트에 즉시 액세스할 수 있어 대기 시간을 절약하고 베어메탈에서는 달성할 수 없었던 HPC의 이점을 최대한 활용할 수 있었습니다. 간소화된 워크플로 덕분에 연구원들은 그 어느 때보다 쉽게 고성능 ML 모델을 훈련하는 동시에 연구원들의 시간을 확보할 수 있었습니다.
서울대학교 공과대학은 캠퍼스 전체에 VESSL을 도입하여 ML 연구 성과를 더욱 빠르게 달성했습니다.
서울대학교 공과대학은 fastMRI 챌린지의 성공에 힘입어 이제 대학원 연구와 학부 AI/ML 과정에 VESSL을 사용하고 있습니다. 학생들은 이제 VESSL을 사용하여 몇 초 만에 학교의 GPU 클러스터에 접근하고 대기 시간 없이 수 기가바이트 데이터 세트를 얻을 수 있습니다.
학교의 머신러닝 인프라에 쉽게 액세스할 수 있고 VESSL의 가이드 워크플로우를 통해 SOTA 모델 실험의 장벽이 낮아져 CS 배경 지식이 없는 학생들도 빠르게 AI 강화 연구와 애플리케이션을 시도할 수 있게 되었습니다. 이를 통해 연구자들은 MRI 스캔에 AI를 사용하는 것과 같이 이전에는 불가능했던 학제 간 가능성을 탐구할 수 있게 되었습니다.
이미 최신 머신러닝 연구에 매진하고 있는 연구자들은 VESSL을 통해 고성능 머신러닝 모델을 더 쉽게 제작할 수 있습니다. 연구자들은 VESSL을 통해 연구 환경을 설정하고, 수동 훈련 및 최적화 작업을 실행하고, 재현성을 보장하는 데 필요한 시간을 절약할 수 있습니다. 서울대학교의 여러 학과 연구자들은 VESSL Run을 사용하여 ML 연구 발전에 더 많은 시간을 할애하고 있습니다.
“AI가 공학 분야에 더욱 필수적인 요소가 되면서 학생과 연구자들이 대규모 머신러닝 실습에 필요한 도구와 인프라에 쉽게 액세스할 수 있도록 지원하는 것 또한 대학의 핵심 과제가 되고 있습니다. 캠퍼스 전체에서 VESSL을 사용함으로써 AI 연구와 교육을 발전시킬 수 있기를 바랍니다.” - 홍 교수, 서울대학교 공과대학장
Build, train, and deploy models faster at scale with fully managed infrastructure, tools, and workflows.