다나와 AI 벤치마크 랩에 오신 여러분은 환영합니다!
AI 벤치마크 랩에서는 각각의 PC가 지닌 AI 관련 성능을 종합점수로 확인해 볼 수 있습니다.
성능 데이터 추출에는, 모바일 및 PC 환경에서 폭넓게 활용하는 긱벤치(Geekbench) AI와 3D MARK로 유명한 UL 솔루션의 프로키온(Procyon) AI 프로그램을 이용합니다.
국내 어디에서도 찾아 볼 수 없는 특별한 AI 콘텐츠, 지금 만나 보세요.
|
MSI Vector A18 HX A9WIG |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
차세대 고성능 게이밍과 AI 창작을 위한 궁극의 노트북, MSI 레이더 A18 HX A9WJG-R9 7,119,280원 (UHD+ Mini LED / 2TB SSD)는 AMD 라이젠9 9955HX3D와 RTX5090의 압도적 조합을 통해 "하드코어 작업에 최적화된 진짜 플래그십은 이런 모습이다”라는 존재감을 드러낸다.
45.72cm(18인치) 대화면에 적용된 3840x2400 해상도 Mini LED 디스플레이는 120Hz 주사율과 1000nit 밝기를 지원해, 게임은 물론 AI 영상 편집, 콘텐츠 제작 등 전문 작업에서도 디테일과 몰입감을 동시에 선사한다.
3.6kg 무게에 99.9Wh 배터리를 품은 이 제품은 성능 중심의 데스크 리플레이서(Desktop Replacement)로 정의할 수 있다. 64GB 램과 2TB NVMe SSD, 그리고 2개의 저장 슬롯은 하드코어 유저의 눈높이도 거뜬히 충족하며, USB-PD와 DC 동시 지원 전원 설계는 사용 환경의 유연성을 더한다.
주목할 점은 최신 AMD Zen5 기반 라이젠9 9955HX3D 프로세서다. 3D V-Cache 기술과 함께 최대 5.4GHz까지 치솟는 클럭은 실시간 AI 연산, 고해상도 게임, 복수 앱 동시작업 등에서 극강의 응답성을 제공한다. 여기에 RTX5090 175W TGP 외장 그래픽까지 탑재되면서, 생성형 AI 모델을 GPU로 구동하거나, 초고해상도 작업에도 막힘없는 퍼포먼스를 발휘한다. GPU TOPS는 1824TOPS에 달한다.
|
MSI Vector A18 HX A9WIG |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
긱벤치 AI는 NPU, CPU, GPU 등 각 프로세서가 AI 작업에서 얼마나 효율적으로 작동하는지 파악하기 위해 OpenVINO와 ONNX를 사용한다. OpenVINO(Open Visual Inference and Neural network Optimization)는 Intel에서 개발한 AI 모델 최적화 및 추론을 가속화하는 오픈소스 툴킷이며, ONNX(Open Neural Network Exchange)는 AI 모델의 프레임워크 간 호환성을 제공하는 개방형 표준 형식을 말한다.
정밀도 |
데이터 형식 |
속도 |
정확도 |
특징 |
㉠ Quantized |
INT8 (8비트 정수) |
가장 빠름 |
낮음 |
속도 최적화, 모바일 AI |
㉡ Half |
FP16 (16비트 부동소수점) |
중간 |
중간 |
속도-정확도 균형 |
㉢ Single |
FP32 (32비트 부동소수점) |
가장 느림 |
가장 높음 |
정밀 연산, AI 훈련 |
OpenVINO와 ONNX는 정밀도에 따라 다시 3가지로 나뉘는데 각 정밀도는 AI 모델의 성능, 연산 속도, 메모리 사용량 등에 영향을 미친다. AI의 추론 속도를 보기 위해서는 ㉠Quantized(INT8)를, AI 훈련 정확도를 보기 위해 ㉡Single(FP32) 또는 ㉢Half(FP16)를 테스트하는 것.
◎ CPU Score
CPU Score |
Quantized (INT8) |
Half (FP16) |
Single (FP32) |
OpenVINO |
- |
- |
- |
ONNX |
10358 |
2264 |
6002 |
ONNX Runtime 백엔드에서 추론 정밀도별 테스트 결과, ONNX는 Quantized(INT8)연산에서 10,358점을 기록하며, 사실상 독보적인 처리 성능을 보여주었다. 이는 INT8 기반의 경량 AI 추론에 최적화된 구조를 갖추고 있음을 시사한다.
Half Precision(FP16)의 경우 ONNX는 2,264점을 기록했으며, 이 수치는 고정밀 추론보다는 속도와 리소스를 절감하는 중간지점에서 ONNX가 일정 수준의 최적화를 구현했음을 보여준다. Single Precision(FP32)에서는 6,002점으로 고정밀 연산 영역에서도 일정 수준의 안정적 성능을 유지하고 있음을 확인할 수 있다.
◎ DirectML Score
DirectML은 GPU 가속 딥러닝을 지원하는 API다. 이를 이용하면 이미지 분류, 객체 탐지, 스타일 전환 등 AI 작업의 다양한 처리 성능을 평가할 수 있다. 점수가 높을수록 해당 하드웨어가 DirectML을 통해 AI 작업을 더 빠르고 효율적으로 처리할 수 있음을 의미한다.
DirectML Score |
Quantized (INT8) |
Half (FP16) |
Single (FP32) |
AMD ONNX |
1577 |
2100 |
1934 |
RTX5090 ONNX |
22020 |
50741 |
28412 |
RTX 5090 GPU와 AMD Radeon GPU를 ONNX 환경에서 동일한 조건으로 테스트한 결과, RTX 5090이 전 연산 정밀도에서 압도적인 우위를 보이며 하이엔드 GPU의 AI 처리 능력을 명확히 입증했다.
우선, Half Precision(FP16) 연산에서는 RTX 5090이 50,741점을 기록해 AMD의 2,100점을 무려 24배 이상 상회했다. 이는 대규모 텍스트 생성, 비전 트랜스포머, 멀티모달 모델 등에서 요구되는 연산 밀도를 훌륭히 소화할 수 있는 수준으로, 고성능 AI 노트북에 적합한 성능이다.
Quantized(INT8) 연산에서도 RTX 5090은 22,020점으로 AMD의 1,577점을 크게 앞섰다. 전력 대비 성능이 중시되는 영역임에도 불구하고, 하드웨어 가속기의 효율적인 INT8 최적화가 잘 작동하고 있는 것으로 해석된다.
Single Precision(FP32) 부동소수점 연산에서는 RTX 5090이 28,412점, AMD는 1,934점을 기록했다. FP32는 가장 정밀한 연산 방식인 만큼 AI 그래픽 생성, 고해상도 딥러닝 연산 등에서 중요한데, 이 차이는 실시간 워크로드 대응력에서 RTX 5090이 훨씬 더 유리하다는 점을 보여준다.
종합적으로 RTX 5090 기반의 ONNX 추론 성능은 현세대 고성능 AI 노트북 GPU 중에서도 최상급 수준으로 판단되며, AMD Radeon GPU는 보급형 혹은 경량 AI 작업에 적합한 수준임을 보여준다. 이는 노트북 선택 시 AI 연산 성능이 중요한 사용자에게 있어 분명한 기준점을 제시해준다.
∴ Conclusion
MSI Vector A18 HX A9WIG의 Geekbench AI 테스트 결과를 종합하면, GPU 기반 연산에서는 RTX 5090 Laptop GPU가 ONNX + DirectML 조합을 통해 압도적인 성능을 보였다. FP16 연산에서는 50,741점, FP32에서는 28,412점, Quantized(INT8)에서도 22,020점을 기록해 모든 부동소수점 정밀도에서 두 자릿수 차이 이상의 격차를 보여 대규모 AI 모델 추론, 고해상도 이미지 생성, 비디오 처리 등의 연산에 탁월한 역량을 갖추었음을 보여준다.
|
MSI Vector A18 HX A9WIG |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
프로키온 AI 벤치마크는 NPU, CPU, GPU 등 다양한 프로세서가 AI 작업에서 얼마나 효율적으로 작동하는지를 평가하기 위해 사용한다. 텍스트 생성, 이미지 생성, 컴퓨터 비전 등 다양한 AI 작업의 성능을 비교할 수 있도록 설계되어 하드웨어별 AI 성능 차이를 분석하고, 실사용 환경에서의 최적화 가능성을 평가할 수 있다.
◎ Computer Vision Benchmark
WinML 백엔드는 DirectML을 기반으로 하여, Windows 디바이스에 최적화된 하드웨어 가속 성능을 확인할 수 있다는 점에서, 실제 AI 워크로드를 평가하고 하드웨어 선택을 검토하는 데 유용한 지표로 활용된다.
MobileNet V3 : 모바일 및 임베디드 장치에서 이미지 분류 및 객체 탐지에 사용
ResNet 50: 딥러닝에 사용되는 50개 층의 심층 신경망 모델, 이미지 분류 및 객체탐지에 사용
Inception V4 : Google이 개발한 CNN 모델, 이미지 인식 및 분류에 사용
DeepLab V3 : 이미지의 의미론적 분할(Semantic Segmentation)에 특화된 CNN 모델
* CNN : 이미지 및 영상 데이터 처리에 특화된 딥러닝 모델
YOLO V3 : 자율 주행, 감시 시스템 등에 사용
REAL-ESRGAN : 이미지 업스케일링, 사진 및 영상 복원, 게임 그래픽 향상, AI 아트 등에 사용
Win ML - NVIDIA GeForce RTX 5090
MSI Vector A18 HX A9WIG에 탑재된 NVIDIA GeForce RTX 5090 GPU 기반에서 진행된 WinML AI 연산 벤치마크 결과, 연산 장치(CPU, GPU) 및 정밀도(Float32, Float16, Integer)에 따라 성능 편차가 뚜렷하게 드러났다.
가장 높은 점수는 GPU + Float16 정밀도 조합에서 기록되었으며, 총점 1,840점으로 측정됐다. RTX 5090의 부동소수점 16비트 연산 최적화 구조가 주요 비전 AI 모델(MobileNet V3: 0.38ms / ResNet 50: 0.61ms / YOLO V3: 3.3ms)에서 빠르고 안정적인 추론 성능을 보여줬다.
그 뒤를 이어 GPU Float32는 948점, GPU Integer는 489점을 기록했다. GPU Integer는 일부 경량 모델에서는 빠른 속도를 보였지만, 복잡한 모델에서는 처리 시간이 급격히 증가하면서 효율이 상대적으로 낮았다. 예컨대 REAL-ESRGAN3 모델의 처리 시간은 215.42ms로 확인되었다.
CPU 연산에서는 Integer 정밀도가 240점으로 가장 높았으며, Float32는 192점, Float16은 77점에 머물렀다. CPU Integer는 MobileNet V3 기준 0.75ms로 매우 빠른 속도를 보였지만, 복잡한 모델에서는 한계가 명확했다. REAL-ESRGAN3는 4,184.5ms로 측정되어 처리 시간에서 큰 차이를 보였다. 이번 테스트에서 NPU는 장치 미지원 상태로 측정값이 확인되지 않았다.
결론적으로, WinML + RTX 5090 조합은 GPU 중심 AI 연산에서 매우 강력한 성능을 발휘했으며, 특히 Float16 정밀도 환경에서 최적의 효율을 기록했다. 반면, CPU나 Integer 기반 연산은 저부하 또는 경량화된 AI 응용에 적합한 수준으로 해석된다.
GPU Float16 > GPU Float32 > GPU Integer > CPU Integer > CPU Float32 > CPU Float16
▲ AI 연산 성능 순
AI TensorRT
MSI Vector A18 HX A9WIG에 탑재된 NVIDIA GeForce RTX 5080 GPU는 AITensorRT 기반 AI 벤치마크에서 가장 높은 점수는 GPU Integer 정밀도에서 기록되었으며, 총점 3,990점으로 측정되었다. MobileNet V3(0.16ms), YOLO V3(1.29ms), REAL-ESRGAN3(42.31ms) 등 대부분의 AI 모델에서 압도적인 속도와 정밀도를 모두 확보해, 양자화 모델 최적화에 있어 AITensorRT가 가진 강점을 여실히 보여줬다.
그 뒤를 잇는 GPU Float16 환경에서도 3,416점을 기록하며 부동소수점 기반 AI 모델에서 매우 우수한 처리 효율을 보였다. 실제 YOLO V3(1.6ms)나 Inception V4(0.9ms)와 같은 실시간 딥러닝 모델에서의 연산 속도는 콘텐츠 생성, 이미지 변환, 객체 탐지 작업에 최적의 조건을 제공했다.
Float32 연산에서도 총점 1,389점으로 고정밀 추론 환경을 무난히 소화해냈다. REAL-ESRGAN3(173.46ms)처럼 고해상도 업스케일링 작업에서는 다소 시간이 소요되지만, 전반적인 처리 안정성과 예측 가능성은 여전히 높게 평가된다.
결론적으로 AITensorRT 기반의 RTX 5080은 모든 정밀도 환경에서 높은 수준의 AI 성능을 일관되게 보여줬으며, 특히 정밀도 대비 처리속도의 균형이 가장 잘 잡힌 플랫폼으로 평가된다. 실시간 생성형 AI, 비전 인식, 초해상도 복원까지 다양한 영역에서 폭넓은 활용 가능성을 입증한 결과였다.
∴ Conclusion
MSI Vector A18 HX A9WIG에서 수행한 AI 연산 성능 비교 결과, WinML과 AITensorRT 백엔드 간의 처리 성능 차이가 뚜렷하게 나타났다. 특히 GPU 기반 추론에서는 AITensorRT가 전반적으로 WinML을 압도했다.
먼저 GPU Integer 정밀도 환경에서는 AITensorRT가 무려 3,990점을 기록해, WinML의 489점 대비 8배 이상의 성능 차이를 보였다. GPU Float16 역시 AITensorRT 3,416점 vs WinML 1,840점으로 큰 격차를 나타냈으며, Float32의 경우에도 1,389점 vs 948점으로 AITensorRT가 앞섰다. 이는 NVIDIA의 AI 가속화 기술이 양자화 모델뿐만 아니라 부동소수점 연산 전반에서 최적화되어 있음을 입증하는 수치다.
반면 CPU에서는 AITensorRT 점수가 측정되지 않았으며, 모든 정밀도(Float32: 192점, Float16: 77점, Integer: 240점)에서 WinML만이 작동 가능한 것으로 보인다. 이번 테스트에서 NPU 점수는 제공되지 않았으나, GPU 기반 AITensorRT의 연산 성능이 워낙 강력하게 드러난 만큼, 고속 추론, 비전 모델 실행, AI 생성 처리 등에서는 AITensorRT + GPU 아키텍처가 실질적인 해답이 될 수 있음을 시사한다.
◎ Image Generation Benchmark
Image Generation Benchmark는 이미지 인식 및 분석 성능을 측정하는 테스트로, 객체 탐지, 이미지 분류, 스타일 변환 등 다양한 시각적 AI 작업에서 하드웨어 및 소프트웨어의 처리 속도와 효율성을 평가한다. 이를 통해 특정 기기가 컴퓨터 비전 작업을 얼마나 잘 수행할 수 있는지 확인할 수 있다.
모델 및 정밀도 |
총점 (최대) |
생성 속도 (s/1장) |
이미지 수 |
엔진 |
SD 1.5 INT8 |
27197 |
1.149 |
8 |
TensorRT |
SD 1.5 FP16 |
2376 |
2.63 |
16 |
TensorRT |
SD 1.5 FP16 |
1901 |
3.286 |
16 |
ONNXRuntime-DirectML AMD |
SDXL FP16 |
1641 |
22.849 |
16 |
ONNXRuntime-DirectML AMD |
SDXL FP16 |
1467 |
25.554 |
16 |
ONNXRuntime-DirectML Olive |
MSI Vector A18 HX A9WIG에서 Stable Diffusion(SD) 및 SDXL 모델을 대상으로 한 이미지 생성 벤치마크 테스트 결과, 연산 정밀도 및 추론 엔진에 따라 성능 차이가 명확하게 나타났다.
가장 높은 점수를 기록한 조합은 SD 1.5 INT8 + TensorRT 엔진으로, 총점 27,197점, 생성 속도 1.149초/1장으로 확인되었다. 다만 이 조합은 8장의 이미지 생성 기준으로 평가되었으며, 경량화 INT8 추론에서 압도적인 성능을 보여준 구성이다.
다음으로는 SD 1.5 FP16 + TensorRT가 총점 2,376점, 생성 속도 2.63초로 안정적인 성능을 보였고, 동일한 SD 1.5 FP16 모델을 ONNX Runtime - DirectML (AMD) 환경에서 실행한 결과는 총점 1,901점, 생성 속도 3.286초로 측정되었다. 이로써 FP16 환경에서는 TensorRT 대비 ONNX DirectML이 다소 낮은 성능을 보이지만, 호환성과 범용성 측면에선 유리할 수 있다.
SDXL FP16 모델은 상대적으로 느린 속도를 보였다. ONNX DirectML(AMD) 환경에서는 22.849초/1장, DirectML Olive에서는 25.554초/1장으로, 두 경우 모두 FP16 고정밀 연산에서 다소 무거운 처리 시간을 필요로 했다. 총점은 각각 1,641점, 1,467점으로 측정되었으며, 고해상도 세대 모델인 SDXL의 복잡성이 반영된 결과다.
이번 결과는 MSI Vector A18 HX A9WIG이 고성능 GPU와 함께 다양한 추론 백엔드 및 모델 구조에 따라 유연하게 대응 가능한 시스템임을 보여준다. 특히 TensorRT 기반 INT8 추론 환경에서는 압도적인 속도를 제공하며, FP16과 DirectML 환경에서도 적절한 생성 품질과 속도의 균형을 유지하는 모습이 인상적이다.
◎ Text Generation Benchmark - ONNX
ONNX Runtime 환경에서 실행된 텍스트 생성 벤치마크 결과, 총 4개의 대표 모델(Phi, Mistral, Llama3, Llama2)에 대한 실제 성능 지표를 확보하였다. 이번 테스트는 종합 점수 외에도 첫 토큰 생성 시간, 초당 토큰 생성 속도, 총 실행 시간 등을 포함해 실시간 추론에 필요한 다양한 요소를 종합적으로 측정했다.
가장 뛰어난 성능을 보인 모델은 Phi로, 종합 점수 3421점, 첫 토큰 생성 시간 0.286초, 초당 생성 토큰 수 130.559, 총 실행 시간은 22.91초로 기록되었다. 전반적인 반응성과 처리 효율 모두에서 가장 우수한 결과를 보여주었으며, 경량화된 구조 특성상 하드웨어 의존도가 낮은 것도 장점으로 작용했다.
Mistral은 종합 점수 3260점, 초당 생성 속도 96.544 t/s, 총 실행 시간 30.95초로, 전체적으로 Phi에 이어 준수한 성능을 기록했다. 첫 토큰 생성 시간은 0.414초로, 실시간 응답성에서도 균형 잡힌 퍼포먼스를 보였다. Llama3는 종합 점수 2924점, 초당 생성 속도 82.191 t/s, 총 실행 시간 35.97초로 측정되었으며, 첫 토큰 생성 시간은 0.390초로 비교적 빠른 편이었지만 전체 처리 시간은 다소 길었다.
반면 Llama2는 총 실행 시간이 62.15초로 가장 길고, 초당 생성 속도도 47.067 t/s에 머물렀다. 종합 점수는 3076점, 첫 토큰 생성 시간은 0.673초로 전체 테스트 모델 중 가장 느린 응답성과 처리 속도를 보였다. 다만 안정성 측면에서는 기본기를 갖춘 구조로 판단된다.
이번 결과는 모델 구조에 따른 처리 효율의 차이를 명확히 보여주며, Phi와 같은 경량 고속 구조의 모델이 실시간 AI 서비스에 적합한 반면, Llama 계열은 대용량 연산 처리에 강점을 두고 설계된 모델로 해석할 수 있다.
AI Benchmark LAB
by danawa
기획, 글 / 다나와 홍석표 hongdev@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com