데이터셋 복사, 날아간 작업 내역… 이제 안녕!

팀원들과 하나의 저장소를 함께 써보세요.

VESSL Cloud에서 모델을 학습해 본 분이라면 이런 경험, 한 번쯤 있으실 거예요. Workspace를 띄우고 200GB가 넘는 데이터셋을 다운로드해 몇 시간 동안 학습했는데, Workspace를 끄는 순간 데이터가 다 날아가 버린 경험이요. 혹은 팀원이 같은 데이터셋이 필요해서 자신의 Workspace에 또 다운로드하기도 해요. 똑같은 200GB 데이터가 두 벌 생기고, 아무 이유 없이 스토리지 비용도 두 배로 나가게 되죠.

이런 불편함을 해결하기 위해 Cluster storage를 만들었어요.

Cluster Storage가 무엇인가요?

쉽게 말해 GPU 바로 옆에 있는 공유 드라이브예요. Kubernetes 클러스터에 연결된 고성능 영구 스토리지로, 우리 팀의 모든 Workspace에서 마운트할 수 있어요. 그것도 동시에요.

여기서 가장 중요한 건 "동시에"라는 점이에요. 기존 Workspace volume은 한 번에 하나의 Workspace에서만 쓸 수 있었지만, Cluster Storage는 여러 Workspace가 같은 스토리지에 동시에 읽고 쓸 수 있는 RWX(Read-Write-Many) 방식을 사용해요. 사무실에서 다 같이 쓰는 공유 네트워크 드라이브를 생각하면 이해하기 쉬워요.

Before: 예전에는 이랬어요

이런 점이 불편했어요:

Workspace volume은 한 번에 하나의 Workspace만 쓸 수 있었어요 (RWO 방식).
Workspace를 끄면 데이터가 전부 사라졌어요.
S3 기반의 Shared volume은 클러스터를 넘나들며 쓸 수 있지만, 학습에 쓰기엔 속도가 느렸어요.
결국 팀원마다 같은 데이터셋을 중복으로 복사해서 써야 했어요.

After: Cluster storage는 이렇게 달라요

여러 워크스페이스가 하나의 Cluster Storage를 동시에 마운트하는 구조

이렇게 바뀌었어요:

여러 Workspace에서 같은 볼륨을 동시에 마운트할 수 있어요(RWX 방식).
Workspace를 모두 종료해도 데이터가 안전하게 유지돼요.
학습에 딱 맞게 처리 속도가 빨라요(EBS + CephFS 기준 ~200 MB/s).
개인이 아닌 '조직' 단위로 팀 스토리지를 공유할 수 있어요.

왜 "Cluster" Storage일까요?

이름 그대로 클러스터 위에 있기 때문이에요. 컴퓨트 노드와 물리적으로 같은 곳에 있어서 속도가 아주 빠르죠. 일부러 이렇게 설계했어요.

Workspace에서 Cluster Storage의 데이터를 읽을 때, 인터넷망을 거치지 않고 클러스터 내부 네트워크로만 이동해요. 덕분에 로컬 디스크처럼 빠른 속도(~200 MB/s)를 내면서도 데이터를 영구적으로 공유할 수 있는 거예요.

물론 한 가지 제약은 있어요. 하나의 클러스터 안에서만 쓸 수 있다는 점이에요. 만약 다른 리전의 클러스터와 데이터를 공유해야 한다면, S3 기반의 Object Storage를 쓰시면 돼요. 빠르고 가까운 로컬 드라이브를 쓸지, 멀리서도 접근할 수 있는 클라우드 백업을 쓸지 선택하는 것과 같아요. 필요에 따라 두 가지를 함께 써도 좋고요.

분산 스토리지로 설계부터 안전하게

Cluster Storage는 이미 수많은 곳에서 검증된 분산 파일시스템인 CephFS로 움직여요. 데이터가 디스크 하나에만 위태롭게 저장되는 게 아니에요.

메타데이터: 서로 다른 노드에 3번이나 복제해 둬요(replicas=3).
데이터: 노드 2개가 동시에 고장 나도 데이터를 완벽하게 복구할 수 있는 Erasure coding 방식으로 보호해요.
메타데이터 서버: 서버 하나가 멈춰도 예비 서버가 바로 작동하는 Active-Standby 구조라 언제든 안심하고 쓸 수 있어요.

세계 최대 규모의 클러스터들이 사용하는 엔터프라이즈급 스토리지 기술을, 누구나 클릭 몇 번으로 간단하게 마운트할 수 있도록 준비했어요.

데이터의 온도에 맞춘: Warm과 Cold 스토리지

데이터마다 쓰임새가 다르죠. 매일 반복해서 쓰는 학습 데이터셋과 지난달에 끝난 체크포인트 로그는 요구사항이 완전히 달라요. VESSL Cloud가 두 가지 스토리지 티어를 제공하는 이유예요.

	Warm Tier	Cold Tier
종류	Cluster Storage	Object Storage (S3)
백엔드	CephFS on NVMe	Object Storage
속도	~200 MB/s (빠름)	~100 MB/s
영속성	Workspace 종료 후에도 보존됨	Workspace 종료 후에도 보존됨
범위	클러스터 내부	모든 클러스터
적합한 용도	자주 쓰는 데이터셋, 코드, 모델, virtualenv	체크포인트, 로그, 장기 보관 아티팩트
비용	$ 0.20/GB/월	비교적 저렴함 (앱 내 가격 확인)

임시 저장 공간(Temporary storage)도 있나요?

네, 모든 Workspace에는 캐시나 임시 파일 등을 저장할 수 있는 공간이 기본으로 제공돼요. 로컬 NVMe를 써서 아주 빠르지만, Workspace를 끄면 전부 지워진다는 점을 꼭 기억해 주세요. 쉽게 다시 만들 수 있는 데이터를 저장할 때만 쓰는 게 좋아요.

기존 Workspace Volume과 무엇이 달라졌나요?

기존 Workspace Volume과 Cluster Storage를 비교하는 요약 그래픽

	기존 Workspace volume	Cluster storage
종료 시 데이터	사라짐	안전하게 보존됨
공유 방식	하나의 Workspace 만 (RWO)	여러 Workspace 동시에 (RWX)
마운트 경로	`/root` 로 고정됨	원하는 대로 설정 가능
팀 협업	불가능	기본적으로 지원

혹시 기존 Workspace volume에 중요한 데이터가 남아있으신가요? support@vessl.ai로 편하게 알려주시면 안전하게 옮길 수 있도록 마이그레이션을 도와드릴게요.

Future Works: 앞으로 더 빨라질 거예요

저희는 CephFS에서 멈추지 않을 거예요. 멀티 노드 분산 학습이나 대규모 언어 모델 파인튜닝처럼 엄청난 I/O 성능이 필요한 작업을 위해, 플랫폼에 RDMA 수준의 스토리지를 준비하고 있어요.

AWS FSx for Lustre나 WEKA 같은 기술은 MB/s가 아니라 GB/s 단위의 엄청난 속도를 자랑해요. 대규모 학습의 패러다임을 바꿀 만한 속도죠. 이를 위한 기술적인 준비는 이미 마쳤고, 조만간 새로운 기능으로 선보일 예정이에요.

앞으로의 업데이트도 기대해 주세요!

제품 업데이트

Cluster Storage: 끄고 켜도, 여러 명이 붙어도 끄떡없는 고성능 팀 스토리지

데이터셋 복사, 날아간 작업 내역… 이제 안녕!

팀원들과 하나의 저장소를 함께 써보세요.

Cluster Storage가 무엇인가요?

Before: 예전에는 이랬어요

After: Cluster storage는 이렇게 달라요

왜 "Cluster" Storage일까요?

분산 스토리지로 설계부터 안전하게

데이터의 온도에 맞춘: Warm과 Cold 스토리지

임시 저장 공간(Temporary storage)도 있나요?

기존 Workspace Volume과 무엇이 달라졌나요?

Future Works: 앞으로 더 빨라질 거예요

자주 묻는 질문 (FAQ)

Cluster Storage란 무엇인가요?

Cluster Storage와 기존 Workspace Volume의 차이점은 무엇인가요?

Cluster Storage의 데이터 안정성은 어떻게 보장되나요?

Warm Storage와 Cold Storage는 어떻게 다른가요?

Cluster Storage에서 GPU 학습 성능을 높이려면 어떻게 해야 하나요?

Intae Ryoo

Wayne Kim

Try VESSL today

MLOps for high-performance ML teams

RESOURCES

COMPANY

FOLLOW US