빠르게 성장하는 AI 산업
미국 현지 시간 8월 28일 주식 장이 마감한 후, NVIDIA가 발표한 실적에 따르면 지난 2분기 매출액은 300억 4천만 달러로 전년 동기 대비 122% 증가했으며 순이익은 166억 달러로 전년 동기 대비 168% 급증했다고 합니다. 최근 AI 관련으로 너무 과대평가되고 있는 것은 아닌가 하는 우려도 있었지만, NVIDIA의 실적 상승에 큰 영향을 미친 것은 AI 관련 데이터 센터 사업이었습니다. 무려 전체 매출에서 88%의 비중을 차지했지요. 최신 AI 가속기인 '블랙웰'의 출시가 지연되면서 NVIDIA 주가 자체는 정규 거래에서 2.1%, 시간외거래에서 7.79% 하락하긴 했지만, 예정대로 올해 4분기에 블랙웰이 출시될 경우 수십억 달러의 추가 매출 상승을 가져올 것으로 예상되고 있습니다.
이러한 데이터 센터에서는 AI에게 중요한 '데이터를 저장'하는 것이 필수이고, 생성형 AI가 도입되면서 데이터 양이 폭증하다 보니 대용량 HDD의 수요가 증가하게 되었습니다. 또한 미국 월스트리트저널이 인용한 부동산 서비스 제공업체 CBRE의 데이터 따르면, 북미 주요 데이터 센터 공실률이 사상 최저치인 2.8%를 기록했다고 합니다. 이렇게 데이터 센터 부족 현상이 심화됨에 따라, 과거에는 데이터 센터를 임대해서 활용하던 빅테크 기업들이 점차 자체 데이터 센터 구축에 나서고 있는 상태입니다. 현재 클라우드 기반의 데이터 센터는 약 90%의 데이터를 HDD에 저장하는 만큼, 현재 추세대로라면 앞으로 데이터 센터 구축에 따른 스토리지 즉 HDD의 수요가 더욱 증가할 것으로 전망되고 있습니다.
평소 AI 관련 소식에 관심이 있던 분이라면 흥미로운 내용이거나 혹은 이미 알고 있는 내용일 텐데요. 일반적인 소비자 기준에서 보면 기업의 수요에 대한 이야기는 그리 체감이 잘 안 되실 수도 있을 것입니다. 하지만 이제는 개인 사용자들도 손쉽게 AI 관련 프로그램을 사용할 수 있고 그 결과물을 활용할 수 있는 만큼, AI와 관련된 기업의 행보는 추후 개인 사용자에게도 반영될 가능성이 높을 것입니다.
Image Creator in Bing(DALL-E)로 생성한 이미지
데이터 센터는 왜 HDD를 쓰는걸까?
그렇다면 앞선 내용을 통해 한 가지 궁금한 점이 생길 텐데요. AI 관련으로 중요한 것은 데이터를 저장하는 것, 그에 필요한 것은 데이터 스토리지 즉 HDD입니다. 그런데 현재 스토리지 시장의 주력은 SSD인데도 굳이 HDD가 필요한 이유는 무엇일까요?
우선 SSD와 HDD의 차이를 간단히 짚어보면 크기, 무게, 성능에서는 SSD가 압도적으로 우수합니다. HDD는 상대적으로 물리적 충격에 약하고 SSD는 발열에 따른 스로틀링을 고려해야 하니 안정성 면에서는 각각 장단점이 있습니다. 수명과 데이터 보존력에 있어서는 HDD가 더 유리한데요. SSD의 셀당 수명이 짧은 점은 최근 문제시되지 않지만, 전원 차단이나 장시간의 과열 등으로 인한 컨트롤러 또는 전원부 고장으로 데이터 손실이 발생할 수 있고 50℃ 이상 고온이 장기간 유지되는 환경에서는 데이터가 자연적으로 손실될 가능성이 있습니다. 이러한 SSD의 수명, 안정성, 데이터 보존력 문제는 개인 사용자가 활용하기에는 큰 문제가 없겠지만 데이터를 안정적으로 저장하는 것이 필수인 AI 관련 데이터 센터에서는 치명적일 수밖에 없습니다. 물론 HDD도 배드 섹터가 발생하거나 3년, 길게는 6년 후에는 교체가 필요하겠지만 적어도 동일한 고온 환경에서 데이터가 갑자기 손실될 확률은 SSD보다 현저히 낮은 편입니다.
또한 용량 대비 가격대가 저렴한 것도 기업 입장에서는 충분한 메리트입니다. 그리고 AI를 활용하기 위해서는 대규모의 데이터셋을 사용하여 모델을 학습시켜야 하는데, 데이터셋은 기가바이트에서 테라바이트 단위의 용량을 사용하며 학습된 모델 또한 용량이 커질 수밖에 없습니다. 그리고 이러한 데이터 처리 과정에서 캐시 파일이나 임시 파일들이 생성되고 AI 모델의 중간 상태를 체크포인트로 저장하기도 하는데, 이 역시 대용량이다 보니 전부 메모리에 담아둘 수 없으므로 스토리지를 사용하게 됩니다. AI 관련 소프트웨어와 라이브러리의 용량도 고려해야 하고, 생성 과정의 로그 파일이나 최종 결과물도 저장해야 하니 고용량 스토리지는 사실상 필수입니다. AI 관련 작업 환경에서 SSD를 아예 사용하지 않는 것은 아니겠지만, 수요 면에서는 HDD가 자연스럽게 증가하는 것이지요.
AI 이미지 생성 프로그램 중 하나인 Stable Diffusion의 다운로드 직후 용량(좌측), 설치 완료 후 용량(우측)
점차 높아지는 스토리지 수요를 충족할 수 있는 WD HDD
물론 개인 사용자가 취미 삼아 가끔 AI를 활용하는 정도라면 상관없겠지만, 학습으로 AI 모델을 만들고자 하는 사용자, AI 생성 컨텐츠를 대량으로 만들고 보관하는 사용자, 과거부터 꾸준히 모아 온 이미지 또는 영상 데이터의 품질을 AI 기능으로 향상하고 보존하려는 사용자라면 높은 수준의 하드웨어 구성과 더불어 HDD를 무조건 마련해야 할 것입니다.
WD(웨스턴디지털)은 낸드 플래시도 제조하지만 HDD 분야에서는 세계 1,2위를 다투는 굴지의 기업으로, 현재까지 꾸준히 HDD 제품을 출시해 온 만큼 높은 신뢰도를 갖춘 제조사입니다. WD의 HDD 제품군 중에서도 특히 인기가 있는 것은 WD RED 시리즈로, 본래 개인용 NAS의 수요 증가에 따라 등장한 모델이지만 타 HDD 모델에 비해 장시간 연속 작동에 최적화되어 있으며 고부하를 오래 버티는 내구성을 갖추고 있어 첫 출시 후 10년 가까이 장수하고 있는 스테디셀러 시리즈입니다. 그래서 이번에는 'Western Digital WD RED Plus 5400/256M (WD40EFPX, 4TB)' 제품을 활용하여 개인 사용자 선에서 AI 관련 프로그램을 활용할 때 정말 고용량 HDD가 필요한지, SSD 대비 성능에 불리한 점은 없는지 등에 대해 간단히 살펴보고자 합니다.
'Topaz Video AI'는 비디오 업스케일링 및 품질 향상 소프트웨어로, AI 기술을 사용해 비디오의 해상도를 높이고 품질을 개선해 줍니다. 특히 저해상도, 노이즈가 많은, 혹은 오래된 비디오를 고해상도로 업스케일하거나 화질을 개선하고자 할 때 유용한 소프트웨어입니다. 업스케일링은 1080P, 4K, 8K 해상도까지도 가능하며 변환 과정에서 노이즈 및 블러 제거 기능을 제공하고 30FPS, 60FPS, 120FPS 등으로 프레임을 보간하거나 슬로우 모션을 생성할 수도 있습니다.
이 Topaz Video AI를 활용하여, 2008년 PS3 및 XBOX360으로 발매되었던 ARMORED CORE for Answer의 오프닝 영상을 업스케일링 하여 HDD의 활용도를 확인해보고자 합니다. 원본 영상은 56.2MB이며 길이는 3분 22초, 720p 해상도에 AVC1 코덱 및 29.917FPS로 인코딩 되어 있으며 이를 4K 60FPS로 업스케일링한 후 여러 면에서 결과물을 비교해 보았습니다.
Topaz Video AI에서 설정한 세팅 값은 아래와 같습니다.
VIDEO 세팅
- AI 향상 모델: Artemis - Denoise 및 Sharpen 특화
- 프레임 보간 모델: Chronos
- 이외 전부 기본 세팅값
OUTPUT 세팅
- Image Sequence TIFF, 8-bit
- AV1 인코더 : Target Bitrate 24Mb/s
- H264 인코더 : 'High' Profile, 'Dynamic' Bitrate, 'High' Quality Level
- H265 인코더 : 'Main' Profile, 'Dynamic' Bitrate, 'High' Quality Level
- ProRes 인코더 : '422 HQ' Profile
- AUDIO 기본 세팅값, 용량이 더 늘어나는 '실시간 프리뷰 포함' 옵션 끔
이에 따른 결과물 중 1개와 원본 영상을 비교용으로 업로드하였으니 참고하시기 바랍니다.
* 원본 영상 : 56.2MB / 720p / 29.917FPS / AVC1
* 업스케일링 영상 : 591MB / 4K / 60FPS / AV1, Target Bitrate 24Mb/s
그럼 Topaz Video AI로 동영상을 업스케일링했을 때 원본 영상 대비 용량은 얼마나 늘어났으며, 스토리지에 따른 작업 속도의 차이는 얼마나 날까요?
앞서 언급한 바와 같이 원본 영상은 56.2MB였는데요. 이를 AV1 인코더로 변환하면 591MB, 10배 이상으로 용량이 증가했습니다. 하지만 이는 다른 인코더에 비해 제일 적게 증가한 것으로 H265 인코더의 경우 3.7GB, 67배 이상 용량이 증가했고 H264 인코더는 4.86GB, 88배 이상 용량이 증가했습니다. 가장 큰 용량 증가를 보인 ProRes 인코더는 무려 47.9GB, 872배 이상 용량이 증가한 것을 확인할 수 있습니다.
동영상이라는 포맷 자체가 원래 용량을 크게 차지하는 데다 업스케일링까지 적용되면 상당한 수준의 저장공간이 필요한 것을 알 수 있는데요. 해상도가 낮았던 과거 영상을 향상하고자 하는 사용자라면 보관 용도만으로도 고용량의 HDD가 반드시 필요하겠습니다.
흔히 확장자라고도 불리는 동영상 컨테이너에 따른 용량 차이는 있을까요? 확인해 본 결과, 동일 세팅 기준으로 컨테이너가 달라도 그 차이는 0.5~0.8% 수준을 보여 일반적으로는 크게 신경 쓸 수준이 아닌 것으로 판단됩니다.
그러면 29.917FPS였던 원본 영상의 프레임을 60FPS으로 보간했을 때는 어떨까요? 동일 세팅으로 업스케일링했을 때 프레임 보간이 적용되지 않은 결과물은 2.03GB의 용량이었으며, 프레임 보간이 적용된 결과물은 3.70GB의 용량이었습니다. 프레임 보간에 따라 용량이 1.8배 가량 증가하는 것을 알 수 있으며, 인코딩 시간도 약 2배 가량 오래 걸리는 것을 확인할 수 있었습니다.
업스케일링 시 SSD에서 작업하는 것과 HDD에서 작업하는 것은 어느 정도 차이가 날까요? 동일한 파일을 동일한 세팅으로 스토리지만 바꿔 업스케일링을 해본 결과, 작업 시간 차이는 48초 정도로 백분율로 따지면 약 2.5%의 차이가 난다고 보면 되겠습니다. 기본적으로 업스케일링 작업에서 디스크의 쓰기 속도보다는 GPU 가속이 큰 비중을 차지하는 만큼 스토리지에 따른 작업 시간 차이는 그리 크지 않은 것으로 판단됩니다.
HDD에 동영상 파일을 두고 업스케일링을 하더라도 작업 시간에 거의 손해를 보지 않는 반면 작업 결과물은 고용량으로 빠르게 쌓이는 만큼, AI 업스케일링 작업을 주로 한다면 속도보다 용량에서 더 큰 이점을 가진 HDD를 사용하는 것이 좋겠습니다.
'Topaz Gigapixel'은 이미지 업스케일링 소프트웨어로, AI을 사용하여 이미지를 확대하면서도 디테일과 선명도를 유지하거나 향상하는 데 중점을 둡니다. 특히 저해상도 이미지를 고해상도로 확대하고 싶을 때 유용하며, 이미지의 품질을 크게 개선할 수 있습니다. AI 기반 업스케일링은 최대 600%까지 가능하며, 제공되는 6개의 AI 모델은 각각 다른 방식으로 이미지 요소를 분석하고 재구성하기 때문에 원본 이미지에 알맞은 AI 모델을 선택하여 최상의 결과물을 얻을 수 있습니다. 업스케일링 과정에서 가능한 디테일 복원, 노이즈 감소 및 샤프닝, 얼굴 디테일 향상, 질감 및 가장자리 보존 등 사용자가 슬라이더로 레벨을 정할 수 있는 세부 설정을 제공합니다.
이미지 업스케일링에 활용된 원본 사진은 900x541 해상도에 456KB 용량을 가진 WEBP 파일입니다. 바로 위 사진은 업로드를 위해 JPG로 변환한 것으로, 실제 원본과는 다른 313KB 용량의 파일입니다. 업스케일링 테스트는 원본 WEBP 파일로 진행한 점 참고하시기 바랍니다.
위 사진은 Topaz Gigapixel의 'Low Res' AI 모델로 x6 업스케일링을 적용한 JPG 결과물(5400x3246, 후보정 없음)입니다. 용량은 2.87MB이며 사진을 클릭하면 크게 보기가 가능합니다.
원본 이미지를 6배 업스케일링하여 이미지를 생성해 본 결과 JPG 파일은 2.87MB, PNG 파일은 18.5MB로 확인되었습니다. JPG의 경우 약 6.5배, PNG의 경우 약 41.5배 가량 용량이 증가하였는데요. 앞서 살펴본 동영상 파일에 비하면 괜찮다고 느낄 수도 있겠지만, 일반적으로 이미지 업스케일링은 다수의 이미지를 일괄로 변환하는 경우가 많고 추후에도 업스케일링을 계속 진행하게 되면 누적되는 용량을 결코 무시할 수 없을 것입니다.
또한 이미지 업스케일링 작업 시간은 RTX 4080 SUPER 기준 1초 이하로, 굳이 잴 필요가 없을 정도로 빠른 데다 SSD와 HDD 간의 차이가 거의 없기 때문에 누적되는 결과물 저장 공간을 고려한다면 HDD가 더 높은 메리트를 제공하겠습니다.
'Stable Diffusion'은 텍스트를 입력하면 해당 텍스트를 바탕으로 이미지를 생성하는 AI 모델입니다. OpenAI인 DALL-E나 Google's Imagen과 유사한 기능을 제공하지만, 오픈소스로 제공되고 일반적인 PC에서 로컬로 실행된다는 점에서 특히 인기를 끌고 있습니다. 'Automatic1111'은 Stable Diffusion를 웹 기반 인터페이스(Edge나 Chrome 같은 웹 브라우저)로 보여주는 프로그램으로, Stable Diffusion의 기능을 쉽게 접근하고 확장할 수 있는 다양한 옵션과 기능을 제공하여 사용자가 텍스트 프롬프트를 기반으로 이미지를 생성할 수 있도록 도와줍니다. 이 프로그램들은 다운로드로 쉽고 설치도 간편하여 AI 이미지 생성에 관심이 있는 사용자가 쉽게 다가갈 수 있는 높은 접근성을 제공합니다.
GitHub에서 쉽게 다운로드할 수 있는 Stable Diffusion의 용량은 압축 파일 기준 50.2MB로 크게 부담되지 않는 크기입니다. 다만 압축을 풀고 처음 실행하게 되면 기본 AI 모델과 같은 필수 파일을 자동으로 다운로드하는데, 이 과정이 완료되면 9.35GB로 나름 적지 않은 용량을 갖추게 됩니다. 저장장치에 OS 외에 별달리 설치한 것도 없고 Stable Diffusion만 사용한다 하더라도 추후 생성될 이미지 결과물의 저장 공간도 고려해야 하는 만큼, 일반적으로 여러 프로그램이 설치되어 있는 PC 환경이라면 Stable Diffusion을 활용하기 위해 기본적으로 고용량 HDD가 필요할 것입니다.
게다가 Stable Diffusion을 활용하기 위해서는 AI 모델도 필요한데요. 기본 설치되는 모델도 3.97GB로 무거운 편이지만 커뮤니티 등지에서 구할 수 있는 '학습된 AI 모델' 파일이라면 기본적으로 1~2GB이며 5~6GB를 넘는 파일도 흔한 편입니다. 상대적으로 용량은 적지만 추가적인 스타일 적용을 위해 여러 개를 사용해야 할 수도 있는 Lora 파일의 용량도 무시할 수 없지요. 따라서 Stable Diffusion 기본 9.35GB에 +@로 저장 공간이 어느 정도까지 사용될지 가늠할 수 없는 것이 AI 이미지 생성 작업이라 할 수 있습니다.
AI 이미지 생성으로 만들어진 결과물은 1024x1536의 PNG 파일 기준으로 장당 1.5MB 전후, 자동 생성되는 grid 파일은 JPG와 PNG 두 유형으로 만들어지는데 2048x3072 기준 JPG는 1MB 이하, PNG는 7~8MB 가량의 용량을 차지합니다.
1024x1536 해상도로 60장의 이미지를 생성했을 때, 이미지와 grid 파일을 모두 합쳐 193MB의 용량인 것을 확인할 수 있습니다. 이 역시도 작아 보일 수 있지만, 일반적으로 AI 이미지 생성 작업을 한다고 하면 원하는 이미지 1장을 뽑아내기 위해 수백수천 번의 이미지 생성을 거치기도 하며, 생성된 이미지 중에서 100% 마음에 들지는 않지만 이후의 생성 작업에서 활용하기 위해 남겨두는 경우도 있으므로 결과물 저장 공간에도 신경을 써야 합니다. 물론 고용량 HDD를 AI 이미지 생성 작업에 활용한다면 어지간해서는 용량에 신경 쓸 필요가 없겠지요.
Stable Diffusion을 SSD와 HDD에 각각 설치한 뒤 아래와 같은 동일 세팅을 사용하여 이미지 생성 시간을 비교해보았습니다.
- Model: DucHaiten-Pony-XL
- Lora: Leggings [Pony/SD1.5]
- Sampling method: DPM++ 3M SDE
- Schedule type: Exponential
- Sampling steps: 40
- Width x Height: 1024 x 1536
- Batch count: 4
- Batch size: 1
- CFG scale: 13
스토리지 간 이미지 생성 시간은 SSD와 HDD에 상관없이 동일하게 측정되었습니다. Stable Diffusion도 Topaz와 마찬가지로 GPU 성능이 작업 속도에 큰 영향을 미치며, 스토리지의 쓰기 속도는 거의 영향을 주지 않는 것을 알 수 있습니다. 앞서 Stable Diffusion이 생각보다 저장 공간을 크게 차지하는 것을 확인한 만큼, AI 이미지 생성 작업에 있어 고용량 HDD는 유리한 부분이 많다고 할 수 있습니다.
...이대로 끝내기는 좀 아쉬우니까 비교적 잘 그려진 이미지 몇 장 더 보고 갑시다.
지금까지 AI를 활용한 여러 프로그램들을 사용하여 HDD의 활용 가능성에 대해 알아보았습니다. 간단하게 요약하자면, 동영상과 이미지에 상관없이 업스케일링을 적용하면 용량이 대폭 증가하는 만큼 고용량 HDD가 필수이며, AI 이미지 생성에 있어서도 AI 모델과 데이터 보존 면에서 고용량 HDD가 더 이점을 제공합니다. 게다가 대부분의 작업 시간은 GPU 성능에 큰 영향을 받으며 HDD의 쓰기 속도에 발목을 잡히는 모습은 보이지 않았기에, SSD 대비 상대적으로 느린 HDD를 사용하더라도 체감할 만한 손실은 발생하지 않았습니다.
AI 관련이 아니더라도 기본적으로 HDD는 고용량, 비용, 상대적 수명, 데이터 저장에 관한 안정성 측면에서 SSD에 비해 이점을 갖추고 있어 스토리지 시장에서 여전히 밀리지 않는 모습을 보였습니다. 그런데 AI 산업이 커지면서 HDD가 갖춘 이점이 줄기는커녕 더 극대화된 셈입니다. 앞서 언급했듯 빅테크 기업들이 자체적으로 데이터 센터를 구축하면서 HDD 수요가 증가한 것이 그 증거라 할 수 있지요. 이는 기업 수준의 이야기일 수도 있지만, 현재도 개인 사용자가 AI를 상당히 활용하고 있는 시대인 만큼 시간이 지날수록 개인 사용자의 HDD 수요 역시 더 늘어날 것으로 예상됩니다.
만약 AI 관련 작업을 주로 하거나 준비 중에 있다면, 타 HDD 모델에 비해 장시간 연속 작동에 최적화되어 있고 고부하를 오래 버티는 내구성을 갖춘 'Western Digital WD RED Plus 5400/256M (WD40EFPX, 4TB)' 제품을 고려해 보는 것은 어떨까요?
저작권자ⓒ 쿨엔조이 https://coolenjoy.net/ , 무단전재 및 재배포 금지