다나와 AI 벤치마크 랩에 오신 여러분은 환영합니다!
AI 벤치마크 랩에서는 각각의 PC가 지닌 AI 관련 성능을 종합점수로 확인해 볼 수 있습니다.
성능 데이터 추출에는, 모바일 및 PC 환경에서 폭넓게 활용하는 긱벤치(Geekbench) AI와 3D MARK로 유명한 UL 솔루션의 프로키온(Procyon) AI 프로그램을 이용합니다.
국내 어디에서도 찾아 볼 수 없는 특별한 AI 콘텐츠, 지금 만나 보세요.
|
MSI 소드 GF76 HX B14WFK-i7 QHD |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
MSI 소드 GF76 HX B14WFK-i7 QHD (1,719,140원)는 인텔 14세대 i7-14650HX 프로세서와 RTX 5060 GPU를 탑재한 17.3인치 고성능 게이밍 노트북으로, 2.7kg의 무게와 75Wh 대용량 배터리를 갖춘 것이 특징이다. 압도적인 화면 크기와 스펙 구성은 “대화면·고주사율 게이밍은 여전히 데스크톱 못지않다”는 메시지를 던진다.
디스플레이는 2560x1440 QHD 해상도, 240Hz 주사율, 300nit 밝기의 IPS 패널로 구성돼 FPS 게임부터 영상 편집까지 부드럽고 선명한 화면 경험을 제공한다. 램은 16GB이며 사용자 업그레이드가 가능한 구조로 되어 있으며, 512GB SSD는 쾌적한 로딩 속도와 기본적인 저장공간을 제공한다.
핵심은 역시 인텔 i7-14650HX CPU와 RTX 5060 GPU (GPU TOPS 572 TOPS)조합이다. 최대 5.2GHz 클럭의 고성능 멀티코어 CPU와 115W TGP의 RTX 5060은 3D 그래픽 작업은 물론, 최신 게임의 QHD급 설정에서도 안정적인 성능을 기대하게 한다. USB-PD와 전용 DC 어댑터를 모두 지원해 유연한 전원 활용도 가능하다. 무게와 크기를 감안하면 데스크톱 대체용으로도 손색이 없으며, 휴대보단 퍼포먼스를 우선시하는 유저에게 제격이다.
|
MSI 소드 GF76 HX B14WFK-i7 QHD |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
긱벤치 AI는 NPU, CPU, GPU 등 각 프로세서가 AI 작업에서 얼마나 효율적으로 작동하는지 파악하기 위해 OpenVINO와 ONNX를 사용한다. OpenVINO(Open Visual Inference and Neural network Optimization)는 Intel에서 개발한 AI 모델 최적화 및 추론을 가속화하는 오픈소스 툴킷이며, ONNX(Open Neural Network Exchange)는 AI 모델의 프레임워크 간 호환성을 제공하는 개방형 표준 형식을 말한다.
정밀도 |
데이터 형식 |
속도 |
정확도 |
특징 |
㉠ Quantized |
INT8 (8비트 정수) |
가장 빠름 |
낮음 |
속도 최적화, 모바일 AI |
㉡ Half |
FP16 (16비트 부동소수점) |
중간 |
중간 |
속도-정확도 균형 |
㉢ Single |
FP32 (32비트 부동소수점) |
가장 느림 |
가장 높음 |
정밀 연산, AI 훈련 |
OpenVINO와 ONNX는 정밀도에 따라 다시 3가지로 나뉘는데 각 정밀도는 AI 모델의 성능, 연산 속도, 메모리 사용량 등에 영향을 미친다. AI의 추론 속도를 보기 위해서는 ㉠Quantized(INT8)를, AI 훈련 정확도를 보기 위해 ㉡Single(FP32) 또는 ㉢Half(FP16)를 테스트하는 것.
◎ CPU Score
CPU Score |
Quantized (INT8) |
Half (FP16) |
Single (FP32) |
OpenVINO |
12425 |
5457 |
5500 |
ONNX |
6287 |
1335 |
3850 |
OpenVINO Toolkit과 ONNX Runtime 환경에서 동일 모델을 다양한 정밀도(INT8, FP16, FP32)로 추론한 결과, CPU 기반 AI 연산에서 OpenVINO가 전반적으로 ONNX를 크게 앞서는 모습을 보였다. 특히 Quantized(INT8) 환경에서는 OpenVINO가 12,425점을 기록하며 ONNX의 6,287점 대비 약 97.7% 높은 성능을 나타냈다. 이는 경량화된 AI 모델을 활용하는 엣지 컴퓨팅이나 실시간 응답이 중요한 환경에서 OpenVINO의 최적화가 얼마나 효과적인지를 잘 보여준다.
Half Precision(FP16) 테스트에서도 OpenVINO는 5,457점으로 ONNX(1,335점)에 비해 약 4배 이상의 성능 차이를 보였다. 부동소수점 연산 효율에서도 OpenVINO의 CPU 최적화가 뚜렷하게 작동하는 셈이다. Single Precision(FP32) 연산에서도 OpenVINO는 5,500점, ONNX는 3,850점을 기록하며 약 42.9%의 성능 격차를 유지했다. 이를 통해 정밀한 연산이 요구되는 고해상도 AI 워크로드에서도 OpenVINO가 안정적인 우위를 점하고 있음을 확인할 수 있다.
◎ DirectML Score
DirectML은 GPU 가속 딥러닝을 지원하는 API다. 이를 이용하면 이미지 분류, 객체 탐지, 스타일 전환 등 AI 작업의 다양한 처리 성능을 평가할 수 있다. 점수가 높을수록 해당 하드웨어가 DirectML을 통해 AI 작업을 더 빠르고 효율적으로 처리할 수 있음을 의미한다.
DirectML Score |
Quantized (INT8) |
Half (FP16) |
Single (FP32) |
ONNX |
13765 |
33644 |
17725 |
인텔 코어 i7-14650HX 프로세서와 RTX 5060 GPU를 기반으로, ONNX + DirectML 환경에서의 AI 연산 정밀도별 성능을 살펴보면 이 기기의 연산 구조적 강점을 확인할 수 있다. Half Precision(FP16) 연산에서는 33,644점을 기록하며, 부동소수점 연산 처리에서 뛰어난 병렬 처리 효율을 입증했다. 이는 이미지 생성, 영상 변환, 음성 합성 등 FP16 기반 워크로드에서 안정적인 처리 속도를 기대하게 한다.
Quantized(INT8) 연산에서는 13,765점을 기록해, 전력 대비 성능이 중요한 엣지 디바이스나 실시간 AI 응답 환경에서 충분한 경쟁력을 보여준다. 모델 경량화와 최적화가 적용된 AI 애플리케이션에 특히 적합한 수치다. Single Precision(FP32) 성능은 17,725점으로, 복잡하고 정밀한 AI 연산 환경에서도 준수한 처리 능력을 발휘한다. 이를 통해 고해상도 이미지 분석, 과학 연산, 대규모 데이터 기반 AI 추론 작업 등에도 안정적으로 대응 가능한 성능을 확보했다고 볼 수 있다.
◎ GPU
GPU |
Quantized (INT8) |
Half (FP16) |
Single (FP32) |
OpenVINO |
3229 |
2123 |
1456 |
외장 GPU 기반 환경에서도 OpenVINO 툴킷은 효율적인 AI 추론 성능을 발휘하며, 특히 경량화된 모델 처리에서 뚜렷한 강점을 보였다.
OpenVINO GPU 테스트에서 Quantized(INT8) 연산은 3,229점을 기록해 저전력·고효율 AI 워크로드에서 안정적인 처리 성능을 보여줬다. Half Precision(FP16)에서는 2,123점, Single Precision(FP32)에서는 1,456점을 기록하며, 부동소수점 연산 환경에서도 일관된 성능을 유지했다.
이러한 결과는 고가의 하이엔드 GPU가 아닌, 중급 성능의 외장 그래픽 환경에서도 OpenVINO 최적화를 통해 충분한 AI 연산 능력을 확보할 수 있음을 입증한다.
∴ Conclusion
MSI 소드 GF76 HX B14WFK-i7 QHD의 AI 벤치마크 결과를 종합하면, CPU 기반 AI 추론에서는 OpenVINO가 ONNX 대비 모든 정밀도(INT8, FP16, FP32)에서 확실한 우위를 보였다. 특히 Quantized(INT8) 연산에서 10,696점을 기록하며 ONNX(6,898점)보다 월등히 높은 성능을 보여, 경량 모델 처리에 최적화된 백엔드임을 입증했다.
GPU 연산 부문에서는 OpenVINO가 FP16(2,123점)과 FP32(1,456점)에서 안정적인 결과를 보였으나, 절대 성능에서는 ONNX + DirectML 환경이 두각을 나타냈다. DirectML에서는 FP16이 5,853점, FP32가 4,484점으로 측정돼, 부동소수점 연산 중심의 워크로드에서 더 효율적인 처리 성능을 발휘했다. 이처럼 연산 백엔드와 정밀도 조합에 따라 성능 편차가 뚜렷하게 드러났으며, OpenVINO는 CPU 최적화, ONNX + DirectML은 GPU FP16/FP32 연산에 강점을 가진 구성이란 점이 명확하게 확인됐다.
|
MSI 소드 GF76 HX B14WFK-i7 QHD |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
프로키온 AI 벤치마크는 NPU, CPU, GPU 등 다양한 프로세서가 AI 작업에서 얼마나 효율적으로 작동하는지를 평가하기 위해 사용한다. 텍스트 생성, 이미지 생성, 컴퓨터 비전 등 다양한 AI 작업의 성능을 비교할 수 있도록 설계되어 하드웨어별 AI 성능 차이를 분석하고, 실사용 환경에서의 최적화 가능성을 평가할 수 있다.
◎ Computer Vision Benchmark - Win ML
WinML 백엔드는 DirectML을 기반으로 하여, Windows 디바이스에 최적화된 하드웨어 가속 성능을 확인할 수 있다는 점에서, 실제 AI 워크로드를 평가하고 하드웨어 선택을 검토하는 데 유용한 지표로 활용된다.
MobileNet V3 : 모바일 및 임베디드 장치에서 이미지 분류 및 객체 탐지에 사용
ResNet 50: 딥러닝에 사용되는 50개 층의 심층 신경망 모델, 이미지 분류 및 객체탐지에 사용
Inception V4 : Google이 개발한 CNN 모델, 이미지 인식 및 분류에 사용
DeepLab V3 : 이미지의 의미론적 분할(Semantic Segmentation)에 특화된 CNN 모델
* CNN : 이미지 및 영상 데이터 처리에 특화된 딥러닝 모델
YOLO V3 : 자율 주행, 감시 시스템 등에 사용
REAL-ESRGAN : 이미지 업스케일링, 사진 및 영상 복원, 게임 그래픽 향상, AI 아트 등에 사용
WinML 기반 AI 벤치마크 결과를 보면, CPU·GPU 각각의 연산 장치와 정밀도(Float32, Float16, Integer)에 따라 성능 편차가 뚜렷하게 나타난다.
GPU 환경에서는 Float16 정밀도가 1,169점으로 가장 높은 성능을 기록했으며, 뒤이어 GPU Float32가 608점으로 측정됐다. GPU Integer는 145점에 그쳐, 범용 GPU에서 양자화 모델 처리 효율이 제한적임을 보여준다.
CPU에서는 Integer 정밀도가 146점으로 가장 높았고, Float32가 128점, Float16이 42점으로 뒤를 이었다. CPU 연산이 전반적으로 제한적이지만, 경량 모델 처리나 저부하 환경에서는 충분히 활용 가능한 수준임을 알 수 있다.
GPU Float16 > GPU Float32 > CPU Integer > CPU Float32 > GPU Integer > CPU Float16
▲ AI 연산 성능 순
◎ Computer Vision Benchmark - AI OpenVino
OpenVINO 기반 AI 벤치마크 결과, CPU와 GPU 각각에서 정밀도별 뚜렷한 성능 특성을 보여주며, 실제 AI 응용 환경에서의 대응력을 입증했다.
CPU 연산에서는 Integer 정밀도가 335점으로 가장 높은 점수를 기록했고, Float32와 Float16은 동일하게 125점을 기록했다. YOLO V3, REAL-ESRGAN3 등 복잡한 모델 테스트에서도 CPU Integer는 상대적으로 빠른 응답 시간을 보이며 경량 AI 모델 처리에 유리함을 드러냈다.
GPU 환경에서는 Integer 정밀도가 116점으로 부동소수점 대비 우위를 보였으며, Float16이 71점, Float32가 42점으로 뒤를 이었다. 특히 ESRGAN3 업스케일링 작업에서는 GPU Integer가 2,621ms로 CPU보다 효율적인 처리 속도를 제공했고, Inception V4, DeepLab V3 등 다양한 모델에서도 일관된 성능 향상을 확인할 수 있었다.
CPU Integer > CPU Float32 = CPU Float16 > GPU Integer > GPU Float16 > GPU Float32
▲ AI 연산 성능 순
AI TensorRT
AITensorRT 벤치마크에서는 모든 정밀도 환경에서 안정적인 성능을 발휘했으며, 특히 Integer 정밀도에서 최고의 효율을 보여줬다. GPU Integer 환경에서는 총점 2,936점을 기록, MobileNet V3(0.18ms), ResNet 50(0.34ms), Inception V4(0.98ms), REAL-ESRGAN3(67.84ms) 등 주요 AI 모델에서 빠른 처리 속도를 구현했다. 이는 양자화 모델 기반의 저전력·고효율 AI 작업에 최적화된 성능을 입증한 결과다.
그 뒤를 이은 GPU Float16 정밀도에서는 2,380점을 기록하며, 부동소수점 기반 실시간 추론에서도 강력한 성능을 보였다. Inception V4(1.3ms), YOLO V3(2.44ms), REAL-ESRGAN3(76.04ms) 등에서 우수한 응답 속도를 보여, 비전 AI, 객체 인식, 영상 분석 등 다양한 워크로드에 적합함을 확인할 수 있다.
마지막으로 GPU Float32 정밀도에서는 1,008점을 기록, 연산량이 많은 고정밀 AI 모델에서도 안정적인 처리 성능을 유지했다. DeepLab V3(5.07ms), YOLO V3(6.65ms) 등 고정밀 환경에서의 일관된 성능은 생성형 AI와 이미지 처리 작업에서의 활용 가능성을 높여준다. 종합적으로 RTX 5060의 AITensorRT 성능은 Integer 기반 효율성 + Float16/Float32 범용성을 고르게 갖춘 솔루션으로, 실시간 반응성과 에너지 효율을 동시에 확보한 AI 플랫폼으로 평가된다.
∴ Conclusion
AI 성능 종합 데이터를 보면, GPU 부문에서는 AITensorRT 기반 Integer 연산이 2,936점으로 전체 최고 성능을 기록했으며, 뒤이어 Float16이 2,380점, Float32가 1,008점을 차지했다. 이는 고정밀 연산부터 경량화 모델 처리까지 폭넓게 대응 가능한 GPU 최적화 구조를 보여준다.
OpenVINO 환경에서는 GPU Integer가 316점, Float16이 176점으로 강세를 보였으며, CPU Integer 또한 110점으로 양자화 모델 처리에서 안정적인 성능을 입증했다. 반면 WinML에서는 GPU Float16(87점)과 Float32(76점)이 상대적으로 균형 잡힌 결과를 냈지만, CPU Float16은 20점으로 가장 낮아 고속 연산보다는 보조 처리 역할에 적합한 수준이다.
종합적으로, 이 시스템은 GPU 중심의 AI 워크로드에서 강력한 성능을 발휘하며, OpenVINO를 활용한 Integer 최적화와 AITensorRT 기반 부동소수점·양자화 연산 모두에서 우수한 대응력을 갖춘 것이 특징이다.
◎ Image Generation Benchmark
Image Generation Benchmark는 이미지 인식 및 분석 성능을 측정하는 테스트로, 객체 탐지, 이미지 분류, 스타일 변환 등 다양한 시각적 AI 작업에서 하드웨어 및 소프트웨어의 처리 속도와 효율성을 평가한다. 이를 통해 특정 기기가 컴퓨터 비전 작업을 얼마나 잘 수행할 수 있는지 확인할 수 있다.
모델 및 정밀도 |
총점 (최대) |
생성 속도 (s/1장) |
이미지 수 |
엔진 |
SD 1.5 FP16 |
1438 |
4.345 |
16 |
TensorRT |
SD 1.5 FP16 |
1149 |
5.4367 |
16 |
ONNXRuntime-DirectML AMD |
SD 1.5 FP16 |
1049 |
5.957 |
16 |
ONNXRuntime-DirectML Olive |
SDXL FP16 |
714 |
52.484 |
16 |
TensorRT |
SD 1.5 INT8 |
232 |
134.338 |
8 |
OpenVINO |
SDXL FP16 |
12 |
2898.902 |
16 |
OpenVINO |
SD 1.5 FP16 모델에서 TensorRT 엔진이 가장 높은 성능을 보였다. 총점은 1,438점, 이미지 한 장 생성 속도는 평균 4.345초로, 16장 이미지를 안정적으로 처리했다. 이는 FP16 부동소수점 연산 최적화가 잘 이루어진 환경에서의 대표적인 성능 지표라 할 수 있다.
뒤이어 ONNX Runtime-DirectML AMD 환경에서는 총점 1,149점, 평균 5.4367초의 생성 속도를 기록했으며, DirectML Olive 환경은 총점 1,049점, 평균 5.957초로 측정됐다. 두 환경 모두 16장 이미지 생성에서 안정적인 결과를 보여, GPU 드라이버 및 런타임 최적화 정도에 따라 차이가 있음을 확인할 수 있었다.
반면, SDXL FP16 모델은 TensorRT에서도 총점 714점, 평균 52.484초로 SD 1.5 대비 처리 속도가 크게 느려졌다. 특히 OpenVINO 기반 SD 1.5 INT8 모델은 총점 232점, 평균 134.338초로 다소 제한적인 성능을 보였으며, SDXL FP16(OpenVINO)은 총점 12점, 평균 2,898.902초로 사실상 실사용이 어려운 수준이었다.
결론적으로, 본 시스템에서 Stable Diffusion 작업을 최적화하려면 SD 1.5 FP16 + TensorRT 조합이 가장 적합하며, 최신 모델인 SDXL보다는 구버전 모델에서 안정적·빠른 추론 성능을 기대할 수 있다.
◎ Text Generation Benchmark - ONNX
ONNX Runtime 환경에서 수행된 Text Generation Benchmark 결과, MSI 소드 GF76 HX B14WFK-i7 QHD는 네 가지 대표 모델(Phi, Mistral, Llama3, Llama2)에서 성능 편차가 뚜렷하게 나타났다.
Phi 모델은 종합 점수 2,303점으로 가장 높은 성능을 기록했으며, 첫 토큰 생성 시간이 0.401초, 초당 83.029 토큰을 생성해 35.707초 만에 전체 처리를 완료했다. Mistral 모델은 2,211점으로 뒤를 이었고, 첫 토큰 생성 시간 0.613초, 초당 65.808 토큰 처리 속도를 보였다.
Llama3는 1,426점, 첫 토큰 생성 시간 0.888초, 초당 44.489 토큰 처리 속도로 중간 수준의 성능을 보였으며, Llama2는 165점에 그쳐 초당 10.979 토큰, 671.617초의 긴 총 실행 시간을 기록해 실시간 응답성에서 크게 뒤처졌다.
결과적으로, 본 기기는 경량·중형 LLM 모델(Phi, Mistral) 환경에서 매우 우수한 처리 효율을 보이며, 대형 모델(Llama3 이상)에서도 안정적인 성능을 유지하지만, 초거대 모델(Llama2급 파라미터)에서는 병목 현상이 발생할 수 있음을 보여준다.
◎ Text Generation Benchmark - OpenVINO
OpenVINO 환경에서 수행된 Text Generation Benchmark 결과, MSI 소드 GF76 HX B14WFK-i7 QHD는 경량·중형 언어 모델에서 안정적인 추론 성능을 보였다.
Phi 모델이 종합 점수 103점으로 가장 높은 성능을 기록했으며, 첫 토큰 생성 시간은 20.861초, 초당 8.594 토큰을 생성해 총 460.43초 만에 전체 처리를 완료했다. Mistral 모델은 78점으로 뒤를 이었으며, 첫 토큰 생성 시간 35.908초, 초당 4.815 토큰 처리 속도를 보였다.
Llama3 모델은 76점, 첫 토큰 생성 시간 31.745초, 초당 4.514 토큰 처리 속도로 Mistral과 유사한 성능을 나타냈다. 반면 Llama2는 테스트 결과가 기록되지 않아, 대형 파라미터 모델에 대한 OpenVINO 최적화 지원이 제한적임을 시사한다.
종합적으로, 본 기기는 OpenVINO 환경에서 Phi 모델과 같은 경량 LLM에서 최적화된 성능을 발휘하며, 실시간 응답성이 다소 요구되는 환경에서도 충분히 대응 가능한 수준임을 입증했다.
AI Benchmark LAB
by danawa
기획, 글 / 다나와 홍석표 hongdev@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com