다나와 AI 벤치마크 랩에 오신 여러분은 환영합니다!
AI 벤치마크 랩에서는 각각의 PC가 지닌 AI 관련 성능을 종합점수로 확인해 볼 수 있습니다.
성능 데이터 추출에는, 모바일 및 PC 환경에서 폭넓게 활용하는 긱벤치(Geekbench) AI와 3D MARK로 유명한 UL 솔루션의 프로키온(Procyon) AI 프로그램을 이용합니다.
국내 어디에서도 찾아 볼 수 없는 특별한 AI 콘텐츠, 지금 만나 보세요.
|
MSI 벡터 16 HX AI A2XWHG-U9 QHD+ |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
차세대 하이엔드 게이밍과 AI 작업을 모두 아우르는 MSI 벡터 16 HX AI A2XWHG-U9 QHD+ (2,819,000원)는 인텔 코어 울트라 9 275HX 프로세서와 RTX 5070 Ti GPU를 기반으로 설계된 16인치 고성능 노트북이다. 특히 13 TOPS의 AI NPU와 992 TOPS의 GPU를 탑재해 Copilot, Stable Diffusion, ONNX 기반 모델 등 AI 활용 환경에서도 강력한 연산 능력을 제공하며, “AI와 게임, 둘 다 놓치지 않는 하이브리드 노트북”이라는 확실한 존재감을 드러낸다.
디스플레이는 2560x1600 QHD+ 해상도에 240Hz 주사율, 500nit 밝기라는 상위 스펙을 갖춰 고주사율 게임부터 전문가용 콘텐츠 작업까지 두루 대응한다. 16GB 교체형 램과 1TB NVMe SSD 구성은 빠른 로딩 속도와 쾌적한 멀티태스킹을 가능하게 하며, 여유로운 듀얼 SSD 슬롯 구성도 향후 확장성을 보장한다. 90Wh의 대용량 배터리와 USB-PD 충전 호환은 외부 환경에서도 안정적인 사용을 지원한다.
무게는 2.7kg으로 다소 묵직하지만, 성능 중심 게이밍·AI 노트북이라는 점을 고려하면 충분히 납득되는 수준. RTX 5070 Ti는 TGP 140W급으로 동작해 고사양 게임부터 영상 편집, AI 기반 이미지 생성까지 커버 가능하며, 울트라9의 고클럭 CPU와 조합되어 동급 최강 수준의 퍼포먼스를 제공한다. 가히 게이밍도, AI도 놓칠 수 없는 사용자를 위한 진정한 퍼포먼스 머신이라고 부를 수 있겠다.
|
MSI 벡터 16 HX AI A2XWHG-U9 QHD+ |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
긱벤치 AI는 NPU, CPU, GPU 등 각 프로세서가 AI 작업에서 얼마나 효율적으로 작동하는지 파악하기 위해 OpenVINO와 ONNX를 사용한다. OpenVINO(Open Visual Inference and Neural network Optimization)는 Intel에서 개발한 AI 모델 최적화 및 추론을 가속화하는 오픈소스 툴킷이며, ONNX(Open Neural Network Exchange)는 AI 모델의 프레임워크 간 호환성을 제공하는 개방형 표준 형식을 말한다.
정밀도 |
데이터 형식 |
속도 |
정확도 |
특징 |
㉠ Quantized |
INT8 (8비트 정수) |
가장 빠름 |
낮음 |
속도 최적화, 모바일 AI |
㉡ Half |
FP16 (16비트 부동소수점) |
중간 |
중간 |
속도-정확도 균형 |
㉢ Single |
FP32 (32비트 부동소수점) |
가장 느림 |
가장 높음 |
정밀 연산, AI 훈련 |
OpenVINO와 ONNX는 정밀도에 따라 다시 3가지로 나뉘는데 각 정밀도는 AI 모델의 성능, 연산 속도, 메모리 사용량 등에 영향을 미친다. AI의 추론 속도를 보기 위해서는 ㉠Quantized(INT8)를, AI 훈련 정확도를 보기 위해 ㉡Single(FP32) 또는 ㉢Half(FP16)를 테스트하는 것.
◎ CPU Score
CPU Score |
Quantized (INT8) |
Half (FP16) |
Single (FP32) |
OpenVINO |
- |
- |
- |
ONNX |
7898 |
1822 |
4837 |
MSI 벡터 16 HX AI A2XWHG-U9는 ONNX Runtime 환경에서 AI 연산 성능을 집중 측정한 결과, INT8 양자화 모델에서 7898점, FP16 모델에서 1822점, FP32 모델에서 4837점을 기록했다. 특히 INT8 환경에서는 경쟁 제품 대비 약 1.6배 이상 높은 점수를 기록해 AI inference 기반 콘텐츠 제작, 문서 요약, 음성 인식, 이미지 생성과 같은 Copilot 기반 작업에서도 탁월한 사용자 경험을 제공할 수 있다는 의미다.
◎ DirectML Score
DirectML은 GPU 가속 딥러닝을 지원하는 API다. 이를 이용하면 이미지 분류, 객체 탐지, 스타일 전환 등 AI 작업의 다양한 처리 성능을 평가할 수 있다. 점수가 높을수록 해당 하드웨어가 DirectML을 통해 AI 작업을 더 빠르고 효율적으로 처리할 수 있음을 의미한다.
DirectML Score |
Quantized (INT8) |
Half (FP16) |
Single (FP32) |
ONNX |
17328 |
38811 |
21939 |
인텔 코어 울트라9 275HX 프로세서와 RTX 5070 Ti GPU를 탑재한 MSI 벡터 16 HX AI A2XWHG-U9는 DirectML 기반 ONNX 연산에서 강력한 AI 처리 성능을 보여준다. 연산 정밀도별 테스트 결과는 이 시스템의 GPU 연산 능력을 구체적으로 보여준다.
Half Precision (FP16) 연산에서는 38,811점을 기록했다. 이는 고속 병렬처리 환경에서 최적화된 연산 성능을 반영하는 수치로, 텍스트 생성, AI 이미지 편집, 실시간 음성 합성 등 FP16 기반 워크로드에 최적화된 성능을 입증한다. Quantized (INT8) 연산 성능은 17,328점으로 측정되었다. INT8은 연산 부하를 줄이는 대신 효율성과 속도에 초점을 맞춘 경량화 모델로, 해당 점수는 실시간 처리나 전력 효율이 중요한 인퍼런스 환경에서 우수한 결과로 평가된다.
Single Precision (FP32) 연산에서는 21,939점을 기록하며, 복잡하고 고정밀한 연산에도 안정적인 처리 능력을 보여준다. FP32 기반 모델은 특히 복잡한 신경망, 대규모 시계열 예측, 고해상도 비전 모델 등에서 활용도가 높다. 총평하자면, GPU 중심의 AI 연산 성능에서도 최신 그래픽 가속 구조를 반영해 다양한 정밀도 환경에서 모두 안정적이고 뛰어난 결과를 제공한다. AI 편집툴, Copilot+, Stable Diffusion, LLM 추론 등 범용 AI 활용을 위한 고성능 플랫폼으로서의 가치가 충분히 입증된 결과다.
∴ Conclusion
MSI 벡터 16 HX AI A2XWHG-U9 QHD+의 Geekbench AI 벤치마크 결과를 종합해보면, 인텔 코어 울트라9 275HX 기반의 CPU 연산에서는 ONNX Runtime 기준 Quantized(INT8)에서 7,898점, Half(FP16)에서 1,822점, Single(FP32)에서 4,837점을 기록했다. 이는 CPU 중심의 AI 추론에서 정밀도에 따라 성능 차이가 뚜렷하게 나타나는 구조를 보여준다.
한편, GPU 기반 연산에서는 RTX 5070 Ti + DirectML 환경이 압도적인 결과를 기록했다. 특히 FP16 연산에서는 38,811점, FP32는 21,939점, INT8은 17,328점으로, 동일 테스트에 사용된 AMD 880M GPU 대비 최소 2~3배 이상의 격차를 보이며 현격한 성능 우위를 입증했다.
결론적으로, MSI 벡터 16 HX AI는 CPU-NPU 기반 연산뿐 아니라 GPU 기반 AI 워크로드에서도 크리에이티브 제작·추론 중심 작업에 최적화된 퍼포먼스 머신임을 실측 데이터로 입증했다.
|
MSI 벡터 16 HX AI A2XWHG-U9 QHD+ |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
프로키온 AI 벤치마크는 NPU, CPU, GPU 등 다양한 프로세서가 AI 작업에서 얼마나 효율적으로 작동하는지를 평가하기 위해 사용한다. 텍스트 생성, 이미지 생성, 컴퓨터 비전 등 다양한 AI 작업의 성능을 비교할 수 있도록 설계되어 하드웨어별 AI 성능 차이를 분석하고, 실사용 환경에서의 최적화 가능성을 평가할 수 있다.
◎ Computer Vision Benchmark - Win ML
WinML 백엔드는 DirectML을 기반으로 하여, Windows 디바이스에 최적화된 하드웨어 가속 성능을 확인할 수 있다는 점에서, 실제 AI 워크로드를 평가하고 하드웨어 선택을 검토하는 데 유용한 지표로 활용된다.
MobileNet V3 : 모바일 및 임베디드 장치에서 이미지 분류 및 객체 탐지에 사용
ResNet 50: 딥러닝에 사용되는 50개 층의 심층 신경망 모델, 이미지 분류 및 객체탐지에 사용
Inception V4 : Google이 개발한 CNN 모델, 이미지 인식 및 분류에 사용
DeepLab V3 : 이미지의 의미론적 분할(Semantic Segmentation)에 특화된 CNN 모델
* CNN : 이미지 및 영상 데이터 처리에 특화된 딥러닝 모델
YOLO V3 : 자율 주행, 감시 시스템 등에 사용
REAL-ESRGAN : 이미지 업스케일링, 사진 및 영상 복원, 게임 그래픽 향상, AI 아트 등에 사용
MSI 벡터 16 HX AI A2XWHG-U9 QHD+ (SSD 1TB)는 WinML 기반 AI 벤치마크 테스트에서도 CPU·GPU 각 연산 유닛에 따른 성능 차이가 뚜렷하게 나타났다. 특히 정밀도(Float32, Float16, Integer)에 따른 대응력에서 고성능 연산 장치의 강점이 확인되었다.
GPU 연산에서는 Float16 정밀도에서 1,173점, Float32는 707점, Integer 연산은 350점을 기록하며, RTX 5070 Ti의 병렬처리 능력이 실제 AI 추론 환경에서 강력한 성능으로 이어짐을 입증했다. 특히 Float16 연산은 실시간 이미지 분류나 영상 최적화 작업에서 매우 빠른 응답성을 보여주는 영역으로, 해당 점수는 DeepLab, YOLO, ESRGAN 같은 AI 모델 실행에 최적화된 결과로 해석된다.
CPU 성능은 Integer 정밀도에서 140점, Float32 122점, Float16 48점으로 측정되었으며, 이는 저부하 추론이나 온디바이스 최적화 작업에서 일정 수준 대응 가능함을 보여준다. 다만 복잡한 AI 모델 실행에는 상대적으로 제한된 성능을 보였다.
GPU Float16 > GPU Float32 > GPU Integer > CPU Integer > CPU Float32 > CPU Float16
▲ AI 연산 성능 순
∴ Conclusion
MSI 벡터 16 HX AI A2XWHG-U9 QHD+ (SSD 1TB)는 WinML과 AITensorRT 양 환경에서 모두 뛰어난 AI 연산 성능을 입증했다. GPU는 특히 FP16 기반 연산에서 WinML 1,173점, AITensorRT 2,451점을 기록하며 가장 실용적인 추론 플랫폼으로 부상했다. FP32 정밀도 역시 707점(WinML), 1,132점(AITensorRT)로, 고정밀 연산에서도 안정적인 성능을 확보했다. Integer 연산에서는 AITensorRT 기준 2,807점으로, 양자화 모델 처리에서도 매우 우수한 결과를 보였다.
반면 CPU는 Float32(122점), Float16(48점), Integer(140점)으로, 전반적으로 보조 연산용 또는 저부하 환경에 적합한 수준에 머물러 고속 추론 환경에서의 실질적 한계를 보여준다.
◎ Image Generation Benchmark
Image Generation Benchmark는 이미지 인식 및 분석 성능을 측정하는 테스트로, 객체 탐지, 이미지 분류, 스타일 변환 등 다양한 시각적 AI 작업에서 하드웨어 및 소프트웨어의 처리 속도와 효율성을 평가한다. 이를 통해 특정 기기가 컴퓨터 비전 작업을 얼마나 잘 수행할 수 있는지 확인할 수 있다.
모델 및 정밀도 |
총점 (최대) |
생성 속도 (s/1장) |
이미지 수 |
엔진 |
SD 1.5 INT8 |
25565 |
1.222 |
8 |
TensorRT |
SD 1.5 FP16 |
2155 |
2.899 |
16 |
TensorRT |
SD 1.5 FP16 |
1713 |
3.648 |
16 |
ONNXRuntime- DirectML AMD |
SDXL FP16 |
1020 |
36.74 |
16 |
ONNXRuntime- DirectML Olive |
SDXL FP16 |
1249 |
30.02 |
16 |
ONNXRuntime- DirectML AMD |
Stable Diffusion 1.5 및 SDXL 모델을 기반으로 한 이미지 생성 AI 벤치마크에서도 명확한 성능 차이를 보여주었다. 테스트는 ONNX Runtime-DirectML 및 TensorRT 기반으로 수행되었으며, 정밀도(정수 INT8 / 부동소수점 FP16)에 따른 처리 성능과 이미지 생성 속도를 함께 측정했다.
먼저 SD 1.5 INT8 모델은 TensorRT 기반에서 25,565점의 최고 점수를 기록했으며, 이미지 한 장 생성에 소요되는 시간은 단 1.222초로 가장 빠른 생성 속도를 보여줬다. 경량화된 양자화 모델과 TensorRT의 최적화가 결합되어 실시간 생성형 AI 활용에 최적의 조합으로 평가된다.
반면 동일한 SD 1.5 FP16 모델은 TensorRT 기반: 2,155점 / 2.899초, DirectML 기반: 1,713점 / 3.648초로, INT8 대비 속도는 느리지만 보다 자연스러운 품질과 호환성 측면에서의 우위를 제공한다.
SDXL FP16 모델의 경우 DirectML AMD 엔진에서 1,249점 / 30.02초, DirectML Olive 환경에서는 1,020점 / 36.74초로 측정되었으며, 모델의 복잡성과 해상도 요구가 높은 만큼 실행 시간은 길어졌지만, 이미지 품질과 표현력은 SD 1.5보다 향상된 결과를 낼 수 있다.
요약하면, 속도와 경량화가 중요한 환경에서는 SD 1.5 INT8 + TensorRT 조합이 최적이고, 이미지 품질과 호환성을 중시한다면 FP16 + DirectML 또는 TensorRT 조합이 실용적이다. SDXL은 성능보다 퀄리티 중심의 연산 워크로드에 적합하며, 배치 렌더링 기반의 생성형 AI 작업에 활용될 수 있다.
◎ Text Generation Benchmark
ONNX Runtime 기반의 Text Generation Benchmark에서 다양한 AI 언어 모델(Phi, Mistral, Llama3, Llama2)의 실시간 추론 성능을 비교 측정한 결과, 모델별 성능 차이가 뚜렷하게 나타났다.
가장 우수한 결과를 보인 Phi 모델은 종합 점수 2,871점, 첫 토큰 생성 시간 0.382초, 초당 생성 토큰 123.047개, 총 실행 시간 24.731초로, 성능과 응답성 모두에서 균형 잡힌 결과를 나타냈다. 특히 LLM 추론에서 중요한 첫 토큰 응답속도와 처리량 측면에서 모든 모델 중 최상위를 기록했다.
그 뒤를 이은 Mistral 모델은 종합 점수 2,735점, 초당 토큰 91.499개, 총 실행 시간 33.517초로 나타났으며, 대용량 추론에서도 효율성을 보여주었다. Llama3 모델은 2,444점, Llama2 모델은 1,849점으로 측정됐으며, 특히 Llama2는 첫 토큰 생성에 1.494초, 총 실행 시간 84.844초로 가장 느린 응답성을 보였다. 이는 고성능 모델일수록 메모리와 처리시간이 증가하는 구조적 한계를 반영한다.
AI Benchmark LAB
by danawa
기획, 글 / 다나와 홍석표 hongdev@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com