다나와 AI 벤치마크 랩에 오신 여러분은 환영합니다!
AI 벤치마크 랩에서는 각각의 PC가 지닌 AI 관련 성능을 종합점수로 확인해 볼 수 있습니다.
성능 데이터 추출에는, 모바일 및 PC 환경에서 폭넓게 활용하는 긱벤치(Geekbench) AI와 3D MARK로 유명한 UL 솔루션의 프로키온(Procyon) AI 프로그램을 이용합니다.
국내 어디에서도 찾아 볼 수 없는 특별한 AI 콘텐츠, 지금 만나 보세요.
|
MSI Titan 18 HX AI |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
오늘의 벤치마크 대상은 MSI 타이탄 18 HX AI A2XWJG-U9 (7,998,000원/SSD 4TB)이다. 이 제품은 MSI의 최상위급 프리미엄 노트북 라인업 중 하나로, 하이엔드 AI 연산 및 고사양 작업에 최적화된 성능을 제공한다. 인텔의 최신 코어 울트라9 285HX(S2) 프로세서를 탑재하고 있으며, 최대 5.5GHz의 고클럭으로 동작한다. 또한 내장된 NPU는 13TOPS의 성능을 발휘해 AI 기반 응용 프로그램 구동에서도 우수한 효율을 기대할 수 있다.
그래픽은 고성능 외장 GPU RTX5090을 탑재해 3D 작업, 영상 편집, 실시간 렌더링 등 전문 창작 환경에 적합하다. 4TB NVMe SSD는 대용량 작업 파일도 여유롭게 저장할 수 있는 수준이며, 업계 최고 수준의 저장 성능을 자랑한다. 디스플레이는 18인치 UHD+ 해상도(3840x2400)의 Mini LED 패널로, 최대 밝기 1000nit와 120Hz 주사율을 지원하여 정확한 색 표현과 부드러운 화면 전환을 동시에 제공한다.
운영체제는 윈도우11 프로가 기본 탑재되며, 무게는 약 3.6kg으로 다소 무겁지만, 그만큼 강력한 하드웨어와 쿨링 시스템을 갖춘 것이 특징이다. 전문가용 AI 개발, 4K 이상 콘텐츠 편집, 고해상도 모델링 작업 등 최고 수준의 연산 환경을 필요로 하는 사용자를 위한 하이엔드 노트북으로, 성능 중심의 모바일 워크스테이션을 찾는 이들에게 적합하다.
|
MSI Titan 18 HX AI |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
긱벤치 AI는 NPU, CPU, GPU 등 각 프로세서가 AI 작업에서 얼마나 효율적으로 작동하는지 파악하기 위해 OpenVINO와 ONNX를 사용한다. OpenVINO(Open Visual Inference and Neural network Optimization)는 Intel에서 개발한 AI 모델 최적화 및 추론을 가속화하는 오픈소스 툴킷이며, ONNX(Open Neural Network Exchange)는 AI 모델의 프레임워크 간 호환성을 제공하는 개방형 표준 형식을 말한다.
정밀도 |
데이터 형식 |
속도 |
정확도 |
특징 |
㉠ Quantized |
INT8 (8비트 정수) |
가장 빠름 |
낮음 |
속도 최적화, 모바일 AI |
㉡ Half |
FP16 (16비트 부동소수점) |
중간 |
중간 |
속도-정확도 균형 |
㉢ Single |
FP32 (32비트 부동소수점) |
가장 느림 |
가장 높음 |
정밀 연산, AI 훈련 |
OpenVINO와 ONNX는 정밀도에 따라 다시 3가지로 나뉘는데 각 정밀도는 AI 모델의 성능, 연산 속도, 메모리 사용량 등에 영향을 미친다. AI의 추론 속도를 보기 위해서는 ㉠Quantized(INT8)를, AI 훈련 정확도를 보기 위해 ㉡Single(FP32) 또는 ㉢Half(FP16)를 테스트하는 것.
◎ CPU Score
CPU Score |
Quantized (INT8) |
Half (FP16) |
Single (FP32) |
OpenVINO |
- |
- |
- |
ONNX |
10438 |
2384 |
6877 |
MSI 타이탄 18 HX AI A2XWJG-U9에 탑재된 인텔 코어 울트라9 285HX 프로세서의 AI 연산 성능은 ONNX Runtime 환경에서 측정되었으며, 정밀도별로 다음과 같은 결과가 나타났다.
가장 높은 점수를 기록한 항목은 Quantized(INT8) 연산으로, ONNX에서 10,438점을 기록했다. 이는 초저정밀도 추론 환경에서 CPU 기반의 처리 효율이 매우 뛰어남을 보여주는 결과로, 대량의 경량 AI 모델을 빠르게 실행해야 하는 상황에서 강점을 지닌다.
Half Precision(FP16) 연산에서는 2,384점, Single Precision(FP32) 연산에서는 6,877점을 각각 기록했다. FP32 연산의 성능이 비교적 높게 측정된 것은 이 CPU가 고정밀 계산에서도 충분한 연산력을 제공함을 의미한다.
다만 OpenVINO 백엔드의 점수는 이번 측정에서 확보되지 않아 두 백엔드 간 직접 비교는 어렵지만, ONNX 기준으로만 보더라도 해당 CPU는 고정밀 AI 연산과 저정밀 추론을 모두 소화할 수 있는 강력한 성능을 보이고 있다. 특히 INT8 영역에서는 하이엔드 AI 노트북 중에서도 상위권에 위치할 수 있는 수준이다.
◎ DirectML Score
DirectML은 GPU 가속 딥러닝을 지원하는 API다. 이를 이용하면 이미지 분류, 객체 탐지, 스타일 전환 등 AI 작업의 다양한 처리 성능을 평가할 수 있다. 점수가 높을수록 해당 하드웨어가 DirectML을 통해 AI 작업을 더 빠르고 효율적으로 처리할 수 있음을 의미한다.
DirectML Score |
Quantized (INT8) |
Half (FP16) |
Single (FP32) |
ONNX |
24728 |
54642 |
31876 |
ONNX + DirectML 환경을 통한 AI 연산 성능 테스트 결과, 세 가지 정밀도별로 모두 인상적인 수치를 기록했다. 가장 두드러진 항목은 Half Precision(FP16) 연산으로, 무려 54,642점을 기록했다. 이는 DirectML의 GPU 가속 처리 최적화와 함께 MSI 타이탄에 탑재된 고성능 외장 GPU의 병렬 처리 능력이 극대화된 결과로, 이미지 생성, AI 비전 모델, 고속 자연어 처리 등 FP16 기반 워크로드에서 강력한 성능을 발휘할 수 있음을 시사한다.
Quantized(INT8) 연산 점수는 24,728점으로 측정됐다. 이는 전력 효율과 성능을 동시에 고려한 경량화 AI 모델 환경에서도 우수한 대응력을 보여주는 수치이며, Edge-AI 또는 실시간 반응형 시스템 환경에서도 안정적인 AI 추론을 기대할 수 있다.
Single Precision(FP32) 연산 점수는 31,876점으로, 고정밀 과학 계산 및 복잡한 모델 추론에도 넉넉한 연산 자원을 제공한다. 특히 학습보다는 실시간 추론 중심의 AI 업무에서 충분한 성능을 보장하며, 안정성과 신뢰성이 요구되는 고정밀 작업에서도 유용하다.
MSI 타이탄 18 HX는 모든 정밀도 구간에서 뛰어난 성능을 기록하며, 전문가용 AI 워크로드를 위한 GPU 기반 연산 플랫폼으로서 손색없는 모습을 보여준다. 특히 FP16 기반의 폭발적인 처리 성능은 해당 모델을 AI 개발자나 크리에이터, 고성능 실시간 추론 작업에 특화된 노트북으로 자리매김하게 한다.
∴ Conclusion
현재 테스트에서는 NPU 및 OpenVINO GPU 점수는 확인불가 상태이지만, 위와 같은 수치만 보더라도 MSI 타이탄 18 HX는 다양한 연산 자원을 통해 AI 추론의 정밀도, 속도, 확장성 측면 모두에서 매우 강력한 성능을 보여주는 ‘AI 하이엔드 노트북’의 표본이라 평가할 수 있다. 특히 DirectML + ONNX의 조합에서 보인 압도적인 그래픽 연산 점수는 크리에이터, AI 엔지니어, 리서처들에게 최적의 선택이 될 수 있음을 보여준다.
|
MSI Titan 18 HX AI |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
프로키온 AI 벤치마크는 NPU, CPU, GPU 등 다양한 프로세서가 AI 작업에서 얼마나 효율적으로 작동하는지를 평가하기 위해 사용한다. 텍스트 생성, 이미지 생성, 컴퓨터 비전 등 다양한 AI 작업의 성능을 비교할 수 있도록 설계되어 하드웨어별 AI 성능 차이를 분석하고, 실사용 환경에서의 최적화 가능성을 평가할 수 있다.
◎ Computer Vision Benchmark - AI Open Vino
Computer Vision Benchmark는 GPU와 CPU의 Float16, Float32, Integer 정밀도별 AI 연산 성능을 비교한 결과로 MobileNet V3, ResNet 50, Inception V4, DeepLab V3, YOLO V3, REAL-ESRGAN 모델을 대상으로 각각의 연산 속도를 측정했으며, 종합 점수를 통해 전반적인 성능을 평가할 수 있다.
MobileNet V3 : 모바일 및 임베디드 장치에서 이미지 분류 및 객체 탐지에 사용
ResNet 50: 딥러닝에 사용되는 50개 층의 심층 신경망 모델, 이미지 분류 및 객체탐지에 사용
Inception V4 : Google이 개발한 CNN 모델, 이미지 인식 및 분류에 사용
DeepLab V3 : 이미지의 의미론적 분할(Semantic Segmentation)에 특화된 CNN 모델
* CNN : 이미지 및 영상 데이터 처리에 특화된 딥러닝 모델
YOLO V3 : 자율 주행, 감시 시스템 등에 사용
REAL-ESRGAN : 이미지 업스케일링, 사진 및 영상 복원, 게임 그래픽 향상, AI 아트 등에 사용
AI 연산 성능 벤치마크 결과에 따르면, CPU와 NPU 기반의 다양한 정밀도 환경에서 추론 속도 및 종합 점수에 뚜렷한 차이가 나타났다. 특히 NPU Integer 환경은 737점이라는 최고 종합 점수를 기록하며, 전체 테스트에서 가장 우수한 AI 추론 성능을 보여주었다. 각 모델별 추론 속도는 ResNet 50: 1.43ms, Inception V4: 4.31ms, YOLO V3: 7.62ms, REAL-ESRGAN3: 239.23ms 등으로, 고해상도 이미지 복원부터 객체 탐지까지 실시간 처리에 최적화된 구조임을 입증했다.
* 정밀도 표현과 값은 긱벤치 AI와 다르지만 항목은 동일하다. Quantized(INT8)=Integer, Single(FP32)=Float32, Half(FP16)=Float16
NPU Float16 또한 399점으로 높은 성능을 기록했다. MobileNet V3: 0.66ms, ResNet 50: 2.69ms, Inception V4: 8.52ms, YOLO V3: 16ms 등의 결과는 전력 효율성과 연산 속도의 균형을 잘 갖춘 결과이며, 실시간 응답성과 안정성이 동시에 요구되는 환경에 적합하다. 반면 CPU Integer 환경은 493점으로 세 번째로 높은 성능을 보였다. ResNet 50: 2.86ms, YOLO V3: 18.77ms, REAL-ESRGAN3: 629.75ms 등으로 확인되며, CPU만으로도 기본적인 AI 응용 처리가 가능함을 보여준다.
NPU Integer > CPU Integer > NPU Float16 > CPU Float16 = CPU Float32
▲ AI 연산 성능 순
하지만 CPU Float16 및 Float32는 각각 219점으로, 상대적으로 낮은 성능을 기록했다. YOLO V3 기준 약 43~44ms, REAL-ESRGAN3는 1435ms 이상의 시간이 소요되며, 고성능 AI 모델에는 한계가 분명했다.
◎ Computer Vision Benchmark - Win ML
WinML 백엔드는 DirectML을 기반으로 하여, Windows 디바이스에 최적화된 하드웨어 가속 성능을 확인할 수 있다는 점에서, 실제 AI 워크로드를 평가하고 하드웨어 선택을 검토하는 데 유용한 지표로 활용된다.
GPU와 CPU의 정밀도별 AI 추론 성능 차이가 뚜렷하게 드러났다. 가장 뛰어난 성능을 기록한 항목은 GPU Float16 환경으로, 종합 점수는 무려 1786점이다. 특히 REAL-ESRGAN3: 47.06ms, YOLO V3: 3.6ms, DeepLab V3: 10.87ms 등, 고해상도 이미지 복원과 실시간 객체 탐지 같은 고난이도 워크로드에서 매우 빠른 추론 속도를 보이며, 성능과 속도의 균형 측면에서 가장 최적화된 정밀도 포맷으로 평가된다.
GPU Float32는 1044점으로 뒤를 이었으며, 전반적인 처리 속도 또한 안정적이다. Inception V4: 3ms, YOLO V3: 5.51ms, REAL-ESRGAN3: 87.61ms로, 범용적인 AI 모델을 돌리는 데 무리가 없고, 다양한 추론 환경에서 적절한 성능을 제공하는 정밀도다.
GPU Integer는 521점으로 상대적으로 낮은 점수를 기록했으나, YOLO V3: 43.46ms, REAL-ESRGAN3: 141.37ms로 여전히 실사용 가능한 수준의 속도를 보여준다. 다만 부동소수점 연산에 최적화된 AI 모델에 비해선 효율성이 다소 떨어지는 것으로 분석된다.
CPU 환경에서는 Float32와 Integer가 각각 177점을 기록했으며, MobileNet V3(1.07ms vs 0.87ms), YOLO V3(46.51ms vs 34.03ms) 등에서 근소한 차이를 보였다. 하지만 전반적으로 복잡한 모델에서는 GPU 대비 현저히 긴 처리 시간이 나타났다.
GPU Float16 > GPU Float32 > GPU Integer > CPU Integer = CPU Float32 > CPU Float16
▲ AI 연산 성능 순
가장 낮은 성능은 CPU Float16으로, 종합 점수는 56점에 불과하다. 특히 REAL-ESRGAN3: 3550.67ms, YOLO V3: 132.78ms 등의 수치는 고사양 연산 환경에서는 실질적인 활용이 어려운 수준이다.
∴ Conclusion
AI 연산 성능 분석 결과, OpenVINO와 WinML 두 추론 엔진 간의 성능 차이는 명확하게 나타났다. 특히 OpenVINO는 NPU 및 CPU Integer 정밀도 환경에서 독보적인 최적화 효과를 보여주었다.
먼저 NPU Integer 환경에서 OpenVINO는 737점을 기록하며, 전체 벤치마크 중 가장 높은 성능을 보였다. NPU Float16 또한 399점으로, WinML에서는 지원하지 않는 영역임에도 고성능 연산을 안정적으로 처리할 수 있음을 입증했다.
CPU Integer 환경에서도 OpenVINO는 493점을 기록해, 동일 조건의 WinML(177점)보다 약 2.8배 높은 성능을 보였다. CPU Float32/Float16에서도 OpenVINO는 각각 219점으로, WinML(177점, 56점) 대비 성능 우위를 유지했다. 이는 CPU 기반 환경에서도 OpenVINO가 보다 정밀한 연산 최적화를 이뤄냈음을 뜻한다.
▲ OpenVINO > WinML (모든 정밀도·장치 유형에서 평균 성능 우세)
반면 GPU 연산은 WinML 전용 결과로만 제공되었으며, Float16에서 1786점, Float32에서 1044점, Integer에서 521점을 기록했다. 해당 점수는 GPU 병렬 연산을 적극 활용한 결과로, WinML이 GPU 환경에선 비교적 강점을 보인다고 해석할 수 있다. 하지만 OpenVINO가 GPU 영역 점수를 제공하지 않아 양자 비교는 제한적이다.
◎ NVIDIA TensorRT
MSI 타이탄 18 HX AI A2XWJG-U9에 탑재된 NVIDIA GPU의 TensorRT 기반 AI 추론 성능은 고정밀부터 경량 추론까지 다양한 정밀도 설정에서 탁월한 성능을 입증했다. 가장 높은 종합 점수를 기록한 정밀도는 INT8로 YOLO V3, ESRGAN3 등 고난이도 모델에서도 빠른 처리 속도를 보여주며, 고속·경량 AI 추론에 최적화된 성능을 보여준다.
FP16은 속도와 정확성의 균형을 이루는 포맷으로, 고속 이미지 생성 및 실시간 AI 애플리케이션에서 매우 효율적이다. 가장 보수적인 정밀도인 FP32 환경은 다른 정밀도에 비해 상대적으로 낮은 점수를 기록했다. 정밀한 추론이 필요한 과학·의료용 AI 작업 등에서는 여전히 중요한 역할을 수행할 수 있으나, 실시간 응답성 측면에서는 다소 불리하다.
◎ Image Generation Benchmark
Image Generation Benchmark는 이미지 인식 및 분석 성능을 측정하는 테스트로, 객체 탐지, 이미지 분류, 스타일 변환 등 다양한 시각적 AI 작업에서 하드웨어 및 소프트웨어의 처리 속도와 효율성을 평가한다. 이를 통해 특정 기기가 컴퓨터 비전 작업을 얼마나 잘 수행할 수 있는지 확인할 수 있다.
모델 및 정밀도 |
총점 (최대) |
생성 속도 (s/1장) |
이미지 수 |
엔진 |
SD 1.5 INT8 |
40097 |
0.779 |
8 |
TensorRT |
SD 1.5 FP16 |
3503 |
1.784 |
16 |
TensorRT |
SD 1.5 FP16 |
2766 |
2.259 |
16 |
ONNXRuntime-DirectML |
SDXL FP16 |
2430 |
15.429 |
16 |
ONNXRuntime-DirectML |
SD 1.5 INT8 + TensorRT
TensorRT 기반의 INT8 정밀도 환경은 압도적인 생성 속도와 점수를 기록했다. 양자화된 Stable Diffusion 1.5 모델은 GPU 메모리와 연산 자원을 최소화하면서도 최대의 생성 효율을 보여준다. 특히 실시간 이미지 생성이나 대량 배치 작업에 이상적인 조합으로 평가된다.
SD 1.5 FP16 + TensorRT
FP16 정밀도를 유지하면서도 TensorRT 엔진의 최적화를 통해 빠른 속도와 준수한 점수를 확보했다. 품질과 속도 모두를 중시하는 사용자에게 균형 잡힌 선택지로, 콘텐츠 생성과 AI 이미지 워크플로우에 적합하다.
SD 1.5 FP16 + ONNXRuntime-DirectML
동일한 FP16 정밀도이지만 ONNXRuntime 기반에서는 점수와 속도 모두 다소 저조한 결과를 보였다. 이는 DirectML 백엔진의 최적화 한계 때문으로 해석되며, 실시간 처리에는 다소 아쉬움이 있는 구성이다.
SDXL FP16 + ONNXRuntime-DirectML
고해상도 및 디테일 강화에 특화된 Stable Diffusion XL 모델은 이미지 품질이 매우 뛰어나지만, 속도 측면에서는 큰 손해가 발생한다. 특히 FP16 정밀도와 DirectML 조합은 다소 비효율적이며, 실시간이 아닌 품질 중심의 작업에서 고려할 구성이다.
TensorRT + INT8 조합은 생성 속도와 성능 모두에서 최고 수준을 기록하며, 실시간 AI 이미지 생성 시스템을 구현하려는 사용자에게 최상의 선택지다. FP16 + TensorRT는 품질 손실 없이 빠른 결과를 얻을 수 있어, 고품질 실무용에도 충분히 대응 가능하다. 반면 ONNXRuntime-DirectML 기반 조합은 속도와 점수 모두에서 열세하며, Windows 환경의 범용성은 있으나 실시간·대량 생성 환경에는 비추천된다. SDXL 모델은 품질 중심의 특화 목적이라면 고려해볼 수 있으나, 연산 시간이 길기 때문에 워크플로우 여유가 있는 작업에만 적합하다.
◎ Text Generation Benchmark - ONNX
Text Generation Benchmark는 자연어 처리를 이용한 텍스트 생성 성능을 측정하는 테스트로, 언어 모델이 주어진 입력을 기반으로 문장을 생성하는 속도와 품질을 평가한다. 이는 챗봇, 자동 번역, 요약 생성 등 다양한 언어 기반 AI 응용 분야에서 중요한 지표가 된다.
토큰 : AI 모델이 텍스트를 처리하는 기본 단위로, 자연어 처리(NLP)에서 텍스트를 작은 조각으로 나누어 모델이 이해하고 생성할 수 있도록 하는 역할을 한다.
Mistral은 전체적으로 가장 높은 점수를 기록하며, 처리 성능과 응답성의 균형이 뛰어난 모델로 평가된다. 첫 토큰 응답은 다소 느리지만, 생성 속도가 빨라 실제 텍스트 생성에서는 효율적이며, Phi는 모든 처리 속도 항목에서 우수한 성능을 보여준 모델이다. 특히 첫 토큰 생성이 매우 빠르며, 토큰 생성 속도도 가장 높아, 실시간 대화형 AI나 빠른 응답이 중요한 서비스에 적합하다.
Llama3는 Mistral 및 Phi에 비해 약간 낮은 점수를 보였지만, 응답성은 양호하고 생성 속도도 실용적인 수준이다. 안정적인 모델로, 범용 AI 생성 작업에 활용 가능하다. 마지막으로 Llama2는 전체적으로 가장 낮은 생성 성능을 기록했다. 품질 자체는 우수할 수 있으나, 반응 속도와 처리 시간 면에서는 실시간 용도에 부적합하며, 속도보다는 품질이 중요한 오프라인 AI 생성 환경에 적합하다.
Phi > Mistral > Llama3 > Llama2
▲ ONNX Runtime 기반 AI 연산 성능 순위
MSI 타이탄 18 HX에서 ONNX Runtime을 활용할 경우, Phi 모델이 가장 빠르고 응답성이 뛰어난 생성형 AI 모델로 분석되며, Mistral은 종합 성능에서 가장 우수한 모델로 판단된다. Llama3는 실용성과 안정성을 갖춘 균형형 모델이며, Llama2는 높은 품질 대신 성능적 제약이 있는 구성이므로 용도에 따라 선택이 필요하다. ONNX 최적화와 함께 활용 시, 실시간 텍스트 생성 및 챗봇 운영에 매우 적합한 조합이 될 수 있다.
AI Benchmark LAB
by danawa
기획, 글 / 다나와 홍석표 hongdev@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com