[2024-06-20 최신화]

개요

Untitled

도시과학빅데이터·AI연구원(이하 UBAI)은 사용자에게 고성능컴퓨팅(HPC) 자원을 제공합니다. 사용자는 Slurm을 통해 독점적인 자원을 할당받고 AI학습 및 추론, 연산, 시뮬레이션 등의 작업(Job)을 수행할 수 있습니다.

파티션

Slurm에서 파티션은 특정 자원 그룹을 정의하는 논리적 단위입니다. 사용자들이 작업을 제출할 때 특정 파티션을 지정하여 자원을 할당받을 수 있습니다. 파티션 목록은 아래와 같습니다.

파티션 목록

Partition # of Nodes # of Cores/node CPU GPU/node Memory/node Scratch Note
gpu1 13 48 Intel Xeon Gold 6240R RTX3090(4EA) 768GB 500GB
edu1 5 48 Intel Xeon Gold 6240R A10(4EA) 768GB 500GB
cpu1 30 48 Intel Xeon Gold 6240R - 768GB 500GB
hgx 1 48 Intel Xeon Gold 6248R A100(8EA) 1536GB 2TB 운영 임시 중단
gpu2 10 56 Intel Xeon Gold 6348R A10(8EA) 1024GB 500GB
gpu3 11 56 Intel Xeon Gold 6348R A10(4EA) 1024GB 500GB
gpu4 29 56 Intel Xeon Gold 6348R A6000(4EA) 1024GB 500GB
gpu5 6 64 Intel Xeon Platinum-8358 A6000(4EA) 1024GB 500GB

파티션 QoS

Partition MaxJobs MaxSubmit MaxWall
* 10 20 2-00:00:00

스토리지

우리 UBAI에서는 빅데이터를 처리하기 위한 최적의 공간을 다양하게 제공하고 있습니다.

Path Type Storage Pool Capacity Usage Note
**/home1
/home2
/home0** gpfs **IBM ESS3500 storage
(30.72TB NVMe SSD 24EA, Reed-Solomon 8+2p RAID)** 466TB 사용자 홈 디렉터리 이전 nfs 및 glusterfs 스토리지를 gpfs로 통합
/scratch local ssd 480GB SSD 1EA per node 480GB 연산을 위한 고속 임시 저장 장치
/enroot local ssd 2TB SSD 1EA per node 2TB enroot 컨테이너 저장 장치
- nfs 16TB HDD 12EA RAID6 146TB 사용자 홈 디렉터리 gpfs 이전 사용자 home1 스토리지
- nfs 16TB HDD 12EA RAID6 146TB 사용자 홈 디렉터리 gpfs 이전 사용자 home2 스토리지
- glusterfs 2*(3+1) Distributed-Disperse 688TB 대용량 데이터 저장 gpfs 이전 사용자 home0 스토리지

네트워크

우리 UBAI에서는 클러스터 간 네트워킹을 위해 다양한 목적의 네트워크가 구축되어 있습니다.

CIDR Link-Layer Bandwidth Usage Note
192.168.100.0/24 Ethernet 1Gbps PXE 부팅, 게이트웨이 네트워크
192.168.120.0/24 Ethernet 40Gbps 장애 복구용
192.168.140.0/24 Infiniband 200Gbps 내부 고속 네트워킹, RDMA