06 March 2026
Cluster storage는 GPU가 있는 클러스터 내부에서 여러 워크스페이스가 동시에 마운트하는 영구 팀 스토리지입니다. 데이터셋 중복 복사와 종료 시 유실을 줄이고, 고성능 처리량으로 학습 속도와 협업 생산성을 높여 운영 비용 최적화에도 도움을 드려요.

VESSL Cloud에서 모델을 학습해 본 분이라면 이런 경험, 한 번쯤 있으실 거예요. Workspace를 띄우고 200GB가 넘는 데이터셋을 다운로드해 몇 시간 동안 학습했는데, Workspace를 끄는 순간 데이터가 다 날아가 버린 경험이요. 혹은 팀원이 같은 데이터셋이 필요해서 자신의 Workspace에 또 다운로드하기도 해요. 똑같은 200GB 데이터가 두 벌 생기고, 아무 이유 없이 스토리지 비용도 두 배로 나가게 되죠.
이런 불편함을 해결하기 위해 Cluster storage를 만들었어요.
쉽게 말해 GPU 바로 옆에 있는 공유 드라이브예요. Kubernetes 클러스터에 연결된 고성능 영구 스토리지로, 우리 팀의 모든 Workspace에서 마운트할 수 있어요. 그것도 동시에요.
여기서 가장 중요한 건 "동시에"라는 점이에요. 기존 Workspace volume은 한 번에 하나의 Workspace에서만 쓸 수 있었지만, Cluster Storage는 여러 Workspace가 같은 스토리지에 동시에 읽고 쓸 수 있는 RWX(Read-Write-Many) 방식을 사용해요. 사무실에서 다 같이 쓰는 공유 네트워크 드라이브를 생각하면 이해하기 쉬워요.

이런 점이 불편했어요:

이렇게 바뀌었어요:
이름 그대로 클러스터 위에 있기 때문이에요. 컴퓨트 노드와 물리적으로 같은 곳에 있어서 속도가 아주 빠르죠. 일부러 이렇게 설계했어요.
Workspace에서 Cluster Storage의 데이터를 읽을 때, 인터넷망을 거치지 않고 클러스터 내부 네트워크로만 이동해요. 덕분에 로컬 디스크처럼 빠른 속도(~200 MB/s)를 내면서도 데이터를 영구적으로 공유할 수 있는 거예요.
물론 한 가지 제약은 있어요. 하나의 클러스터 안에서만 쓸 수 있다는 점이에요. 만약 다른 리전의 클러스터와 데이터를 공유해야 한다면, S3 기반의 Object Storage를 쓰시면 돼요. 빠르고 가까운 로컬 드라이브를 쓸지, 멀리서도 접근할 수 있는 클라우드 백업을 쓸지 선택하는 것과 같아요. 필요에 따라 두 가지를 함께 써도 좋고요.
Cluster Storage는 이미 수많은 곳에서 검증된 분산 파일시스템인 CephFS로 움직여요. 데이터가 디스크 하나에만 위태롭게 저장되는 게 아니에요.
replicas=3).세계 최대 규모의 클러스터들이 사용하는 엔터프라이즈급 스토리지 기술을, 누구나 클릭 몇 번으로 간단하게 마운트할 수 있도록 준비했어요.
데이터마다 쓰임새가 다르죠. 매일 반복해서 쓰는 학습 데이터셋과 지난달에 끝난 체크포인트 로그는 요구사항이 완전히 달라요. VESSL Cloud가 두 가지 스토리지 티어를 제공하는 이유예요.
| Warm Tier | Cold Tier | |
|---|---|---|
| 종류 | Cluster Storage | Object Storage (S3) |
| 백엔드 | CephFS on NVMe | Object Storage |
| 속도 | ~200 MB/s (빠름) | ~100 MB/s |
| 영속성 | Workspace 종료 후에도 보존됨 | Workspace 종료 후에도 보존됨 |
| 범위 | 클러스터 내부 | 모든 클러스터 |
| 적합한 용도 | 자주 쓰는 데이터셋, 코드, 모델, virtualenv | 체크포인트, 로그, 장기 보관 아티팩트 |
| 비용 | $ 0.20/GB/월 | 비교적 저렴함 (앱 내 가격 확인) |
네, 모든 Workspace에는 캐시나 임시 파일 등을 저장할 수 있는 공간이 기본으로 제공돼요. 로컬 NVMe를 써서 아주 빠르지만, Workspace를 끄면 전부 지워진다는 점을 꼭 기억해 주세요. 쉽게 다시 만들 수 있는 데이터를 저장할 때만 쓰는 게 좋아요.

| 기존 Workspace volume | Cluster storage | |
|---|---|---|
| 종료 시 데이터 | 사라짐 | 안전하게 보존됨 |
| 공유 방식 | 하나의 Workspace 만 (RWO) | 여러 Workspace 동시에 (RWX) |
| 마운트 경로 | `/root` 로 고정됨 | 원하는 대로 설정 가능 |
| 팀 협업 | 불가능 | 기본적으로 지원 |
혹시 기존 Workspace volume에 중요한 데이터가 남아있으신가요? support@vessl.ai로 편하게 알려주시면 안전하게 옮길 수 있도록 마이그레이션을 도와드릴게요.
저희는 CephFS에서 멈추지 않을 거예요. 멀티 노드 분산 학습이나 대규모 언어 모델 파인튜닝처럼 엄청난 I/O 성능이 필요한 작업을 위해, 플랫폼에 RDMA 수준의 스토리지를 준비하고 있어요.
AWS FSx for Lustre나 WEKA 같은 기술은 MB/s가 아니라 GB/s 단위의 엄청난 속도를 자랑해요. 대규모 학습의 패러다임을 바꿀 만한 속도죠. 이를 위한 기술적인 준비는 이미 마쳤고, 조만간 새로운 기능으로 선보일 예정이에요.
앞으로의 업데이트도 기대해 주세요!

Product Manager

Product Marketer
Build, train, and deploy models faster at scale with fully managed infrastructure, tools, and workflows.