다나와 AI 벤치마크 랩에 오신 여러분은 환영합니다! AI 벤치마크 랩에서는 각각의 PC가 지닌 AI 관련 성능을 종합점수로 확인해 볼 수 있습니다.
성능 데이터 추출에는, 모바일 및 PC 환경에서 폭넓게 활용하는 긱벤치(Geekbench) AI와 3D MARK로 유명한 UL 솔루션의 프로키온(Procyon) AI 프로그램을 이용합니다. 국내 어디에서도 찾아 볼 수 없는 특별한 AI 콘텐츠, 지금 만나 보세요.
|
NT965XHW-A71AR |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
오늘의 벤치마크 대상은 삼성전자 갤럭시북5 프로H NT965XHW-A71AR(2,083,000원/SSD 256GB)이다. 갤럭시북은 삼성의 하이엔드 노트북 라인업으로, 성능 중심의 작업과 멀티태스킹에 최적화된 제품이다. CPU는 인텔 코어 울트라7 255H(5.1GHz)로, 고성능 작업에서도 안정적인 퍼포먼스를 제공하며, NPU는 13TOPS 성능을 갖춰 일상적인 AI 기능 활용에도 대응할 수 있다. 그래픽은 인텔 Arc Graphics 140T 내장 GPU(8코어)를 탑재해, 영상 편집이나 고해상도 작업에도 어느 정도 대응이 가능하다. 램은 32GB LPDDR5x 온보드 구성으로 넉넉하며, 저장장치는 기본 NVMe SSD 256GB가 탑재되어 있다. 디스플레이는 16인치 D-AMOLED 2X 패널로, 2880x1800(WQXGA+) 해상도와 120Hz 주사율, 400nit 밝기를 지원해 뛰어난 화질과 부드러운 화면 전환을 제공한다. 배터리는 76.1Wh로 최대 21시간 사용이 가능하며, 65W USB-PD 충전을 지원해 휴대성과 사용 편의성 모두 우수하다.
|
NT965XHW-A71AR |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
* 키보드에 Copilot 전용 키가 적용됐다.
긱벤치 AI는 NPU, CPU, GPU 등 각 프로세서가 AI 작업에서 얼마나 효율적으로 작동하는지 파악하기 위해 OpenVINO와 ONNX를 사용한다. OpenVINO(Open Visual Inference and Neural network Optimization)는 Intel에서 개발한 AI 모델 최적화 및 추론을 가속화하는 오픈소스 툴킷이며, ONNX(Open Neural Network Exchange)는 AI 모델의 프레임워크 간 호환성을 제공하는 개방형 표준 형식을 말한다.
정밀도 |
데이터 형식 |
속도 |
정확도 |
특징 |
㉠ Quantized |
INT8 (8비트 정수) |
가장 빠름 |
낮음 |
속도 최적화, 모바일 AI |
㉡ Half |
FP16 (16비트 부동소수점) |
중간 |
중간 |
속도-정확도 균형 |
㉢ Single |
FP32 (32비트 부동소수점) |
가장 느림 |
가장 높음 |
정밀 연산, AI 훈련 |
OpenVINO와 ONNX는 정밀도에 따라 다시 3가지로 나뉘는데 각 정밀도는 AI 모델의 성능, 연산 속도, 메모리 사용량 등에 영향을 미친다. AI의 추론 속도를 보기 위해서는 ㉠Quantized(INT8)를, AI 훈련 정확도를 보기 위해 ㉡Single(FP32) 또는 ㉢Half(FP16)를 테스트하는 것.
◎ CPU Score
CPU Score |
Quantized (INT8) |
Half (FP16) |
Single (FP32) |
OpenVINO |
6825 |
1966 |
2985 |
ONNX |
5112 |
1271 |
2567 |
테스트 결과 OpenVINO 백엔드에서 전반적으로 우수한 AI 추론 성능을 보였다. 특히 Quantized (INT8) 연산에서 OpenVINO가 6825점을 기록하며, ONNX의 5112점보다 약 33.5% 더 높은 점수를 기록했다. 이는 OpenVINO가 양자화 모델 최적화에서 강점을 가진다는 것을 입증하는 수치다.
FP16(Half Precision) 연산에서도 OpenVINO는 1966점으로, ONNX의 1271점 대비 54.7% 높은 결과를 보였다. 이는 부동소수점 연산 최적화에서도 OpenVINO가 우수하다는 것을 보여준다. 반면 Single Precision(FP32)에서는 ONNX가 2567점, OpenVINO가 2985점을 기록해, 이번 테스트에서는 OpenVINO가 세 정밀도 모두에서 앞섰다.
◎ DirectML Score
DirectML은 GPU 가속 딥러닝을 지원하는 API다. 이를 이용하면 이미지 분류, 객체 탐지, 스타일 전환 등 AI 작업의 다양한 처리 성능을 평가할 수 있다. 점수가 높을수록 해당 하드웨어가 DirectML을 통해 AI 작업을 더 빠르고 효율적으로 처리할 수 있음을 의미한다.
DirectML Score |
Quantized (INT8) |
Half (FP16) |
Single (FP32) |
ONNX | 4804 | 13135 | 7149 |
Intel Arc 140V GPU를 기반으로 ONNX + DirectML 환경에서 벤치마크를 진행한 결과, Half Precision (FP16) 점수는 13,135점으로 매우 높은 수준을 기록했다. 이는 AI 연산 정밀도를 유지하면서도 연산 속도를 극대화한 결과로, 해당 GPU가 FP16 연산에 최적화된 구조를 갖추고 있음을 보여준다. 반면, Single Precision (FP32) 점수는 7,149점으로 중상급 수준에 해당하며, 복잡한 모델이나 고정밀 연산을 수행하기에도 충분한 성능을 확보하고 있다.
하지만 Quantized (INT8) 연산에서는 4,804점으로 상대적으로 낮은 점수를 보였다. 이는 동일 GPU가 INT8 추론에 최적화되지 않았거나, 연산 파이프라인에서 효율을 충분히 끌어내지 못했을 가능성을 시사한다. 양자화 모델의 효율은 낮았지만, 전반적인 AI 활용 측면에서는 무난한 결과로 평가된다.
◎ GPU Score
GPU Score는 그래픽 카드의 AI 성능을 확인할 수 있는 지표다. 이번 테스트에 사용된 노트북은 내장 GPU(Intel Arc 140V)를 탑재하고 있으며, OpenVINO 백엔드를 통해 테스트가 수행됐다. 이 GPU는 일반적으로 고성능 AI 연산에 특화되어 있지 않지만, 최근 내장 그래픽도 INT8 양자화 연산에 최적화된 경향을 보인다.
GPU OpenVINO 테스트에서, Quantized(INT8) 연산이 총점 26076점으로 가장 높은 점수를 기록했다. 이는 정수 기반 양자화 모델에서 매우 뛰어난 효율을 보여주는 결과로, 이 하드웨어가 INT8 추론에 최적화되어 있음을 입증한다.
GPU Score | Quantized (INT8) | Half (FP16) | Single (FP32) |
OpenVINO | 26076 | 22833 | 8804 |
반면, Single Precision (FP32) 점수는 8804점, Half Precision (FP16)은 22833점으로 기록되었는데, FP16이 FP32 대비 약 2.6배 높은 점수를 보였다. 이는 Arc 140V GPU가 부동소수점 연산보다는 FP16 기반의 고속 병렬 연산에 강점을 갖고 있음을 시사한다. 특히 FP16 연산에서 Pose Estimation(124,696점), Style Transfer(149,671점) 등 일부 고부하 AI 워크로드에서 높은 점수를 기록하며, 고성능을 요하는 생성형 AI 작업에도 충분한 잠재력을 보여줬다.
◎ NPU Score
해당 테스트는 OpenVINO 백엔드 + NPU (Intel AI Boost) 환경에서 진행되었으며, NPU가 장착된 최신 플랫폼의 AI 연산 성능을 보여준다.
이번 테스트 결과, Intel AI Boost (NPU)는 양자화 기반 추론(INT8)에서 매우 뛰어난 성능을 보였다. Quantized Score는 29,995점으로, 이는 해당 테스트에서 가장 높은 점수이며, Pose Estimation(181,124점), Style Transfer(275,137점) 등 고부하 작업에서도 뛰어난 효율을 입증했다. 이 결과는 NPU가 정수 기반 연산에 최적화된 구조임을 잘 보여준다.
NPU Score | Quantized (INT8) | Half (FP16) | Single (FP32) |
OpenVINO | 29995 | 19773 | 2743 |
반면, Single Precision(FP32) 연산에서는 2,743점으로 가장 낮은 점수를 기록했으며, Half Precision(FP16)도 19,773점으로 중간 수준에 머물렀다. 이는 NPU가 고정밀 부동소수점 연산보다는 경량화된 양자화 모델에 훨씬 더 특화되어 있음을 나타낸다.
∴ Conclusion
NPU는 CPU나 GPU 대비 전력 소비가 적고 발열이 낮으며, AI 추론에 특화된 명령어 처리가 가능해, 모바일 및 노트북 환경에서 뛰어난 전력 효율과 반응성을 제공할 수 있다. 특히 요즘과 같이 배터리 기반 작업이 늘어나는 환경에서, INT8 기반 추론 위주 AI 서비스에는 최적의 선택지로 평가된다.
|
NT965XHW-A71AR | |
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
프로키온 AI 벤치마크는 NPU, CPU, GPU 등 다양한 프로세서가 AI 작업에서 얼마나 효율적으로 작동하는지를 평가하기 위해 사용한다. 텍스트 생성, 이미지 생성, 컴퓨터 비전 등 다양한 AI 작업의 성능을 비교할 수 있도록 설계되어 하드웨어별 AI 성능 차이를 분석하고, 실사용 환경에서의 최적화 가능성을 평가할 수 있다.
◎ Computer Vision Benchmark - AI Open Vino
Computer Vision Benchmark는 GPU와 CPU의 Float16, Float32, Integer 정밀도별 AI 연산 성능을 비교한 결과로 MobileNet V3, ResNet 50, Inception V4, DeepLab V3, YOLO V3, REAL-ESRGAN 모델을 대상으로 각각의 연산 속도를 측정했으며, 종합 점수를 통해 전반적인 성능을 평가할 수 있다.
MobileNet V3 : 모바일 및 임베디드 장치에서 이미지 분류 및 객체 탐지에 사용
ResNet 50: 딥러닝에 사용되는 50개 층의 심층 신경망 모델, 이미지 분류 및 객체탐지에 사용
Inception V4 : Google이 개발한 CNN 모델, 이미지 인식 및 분류에 사용
DeepLab V3 : 이미지의 의미론적 분할(Semantic Segmentation)에 특화된 CNN 모델
* CNN : 이미지 및 영상 데이터 처리에 특화된 딥러닝 모델
YOLO V3 : 자율 주행, 감시 시스템 등에 사용
REAL-ESRGAN : 이미지 업스케일링, 사진 및 영상 복원, 게임 그래픽 향상, AI 아트 등에 사용
GPU, NPU, CPU의 Float16, Float32, Integer 정밀도별 AI 연산 성능을 비교한 결과, NPU Integer는 종합 점수 1,450점으로 전체 벤치마크 중 가장 높은 성능을 기록했다. 복잡한 이미지 복원 작업인 REAL-ESRGAN에서도 116.41ms의 가장 빠른 처리 속도를 보였고, YOLO V3(3.60ms), DeepLab V3(4.02ms)처럼 높은 연산량을 요구하는 모델에서도 안정적으로 빠른 처리 시간을 기록하며, AI 추론에 최적화된 하드웨어임을 증명했다.
NPU Float16도 종합 점수 812점으로 높은 효율을 보였다. REAL-ESRGAN(257.94ms)을 포함한 고난도 작업 전반에서 GPU Float16과 유사한 성능을 내면서도, 전력 효율 측면에서는 더욱 유리한 선택지로 평가된다. 특히 MobileNet V3(0.63ms)나 ResNet 50(1.57ms) 등 중소형 모델에서 빠른 처리 속도를 보여, 배터리 기반 환경에서의 활용 가능성을 높인다.
* 정밀도 표현과 값은 긱벤치 AI와 다르지만 항목은 동일하다. Quantized(INT8)=Integer, Single(FP32)=Float32, Half(FP16)=Float16
GPU Float16은 전체적으로 매우 균형 잡힌 성능을 보였다. 종합 점수 731점을 기록했으며, REAL-ESRGAN(262.02ms), YOLO V3(7.48ms) 등에서 안정적이며 빠른 추론 성능을 보였다. 특히 이미지 분할, 객체 탐지처럼 복합 연산이 많은 작업에서의 속도가 인상적이다. 연산 효율과 품질을 고르게 유지하고자 할 때 적절한 정밀도 포맷이다. GPU Integer 정밀도는 1,149점으로 높은 점수를 기록했다. 복잡한 작업인 REAL-ESRGAN(137.36ms)에서도 좋은 결과를 보이며, YOLO V3(3.87ms), Inception V4(3.30ms) 등에서 강력한 처리 성능을 발휘했다. AI 가속에 최적화된 GPU 연산 구조 덕분에, 효율과 안정성 모두 확보한 모습이다.
NPU Integer > GPU Integer > NPU Float16 > GPU Float16 > CPU Float32 > CPU Float16
▲ AI 연산 성능 순
CPU Float32는 종합 점수 6566점대로, 경량 모델인 MobileNet V3(1.631.65ms)에서는 나쁘지 않은 성능을 보였지만, 복잡한 작업에서는 성능 저하가 두드러졌다. REAL-ESRGAN에서는 6600ms 이상의 처리 시간이 걸려 실시간 추론에는 적합하지 않다. CPU Float16은 가장 낮은 성능을 기록했다. 전체적으로 모든 모델에서 긴 처리 시간을 보였고, AI 연산에 대한 최적화가 부족한 것으로 해석된다. 반면, CPU Integer는 MobileNet V3에서 1.33ms라는 빠른 처리 속도를 보여 단순한 모델에는 효과적이지만, 종합 점수는 73점에 그치며 REAL-ESRGAN(10,038.46ms)처럼 고부하 작업에서는 매우 느린 속도를 보였다.
◎ Computer Vision Benchmark - Win ML
WinML 백엔드는 DirectML을 기반으로 하여, Windows 디바이스에 최적화된 하드웨어 가속 성능을 확인할 수 있다는 점에서, 실제 AI 워크로드를 평가하고 하드웨어 선택을 검토하는 데 유용한 지표로 활용된다.
GPU와 CPU의 Float16, Float32, Integer 정밀도별 AI 추론 성능을 비교한 결과, GPU Float16이 종합 점수 503점으로 가장 뛰어난 성능을 기록했다. 특히 복잡한 이미지 복원 작업인 REAL-ESRGAN에서도 381.47ms의 빠른 처리 속도를 보여, 영상 AI나 고해상도 이미지 분야에서 강력한 성능을 입증했다. YOLO V3(8.58ms), DeepLab V3(19.04ms)처럼 고연산이 필요한 모델에서도 안정적으로 빠른 성능을 유지하며, GPU 환경에서 최적화된 정밀도 포맷으로 평가된다.
GPU Float32는 종합 점수 229점으로 중간 수준의 성능을 기록했다. 전반적으로 안정적인 결과를 보이며, DeepLab V3(27.38ms), YOLO V3(36.00ms) 등에서 실사용 가능한 속도를 확보했다. 반면, GPU Integer는 점수 62점으로 다소 낮은 결과를 보였으며, 특히 DeepLab V3(569.52ms), YOLO V3(91.62ms)에서 처리 속도가 떨어져 고해상도 모델 연산에는 부적합한 것으로 확인된다.
GPU Float16 > GPU Float32 > CPU Integer > CPU Float32 > GPU Integer > CPU Float16
▲ AI 연산 성능 순
CPU 환경에서는 Integer 정밀도가 가장 양호한 성능을 보였다. 종합 점수 103점을 기록하며, MobileNet V3(1.33ms), ResNet 50(8.71ms) 등 중소형 모델에서는 효율적인 처리가 가능했다. 하지만 복잡한 모델에서는 REAL-ESRGAN이 6547.05ms, YOLO V3가 71.21ms로 시간이 오래 걸려, 한계가 명확히 드러났다. CPU Float32는 종합 점수 57점으로 전반적으로 안정적인 수준의 성능을 보였지만, Inception V4(75.61ms), DeepLab V3(76.91ms), REAL-ESRGAN(7626.62ms)에서는 성능 저하가 뚜렷했다. 반면 CPU Float16은 모든 항목에서 가장 낮은 성능(총점 30점)을 기록하며, 추론 속도는 MobileNet V3에서도 8.65ms로 낮지 않았고, REAL-ESRGAN의 경우 9644.43ms로 매우 느려 AI 연산용으로는 부적합했다.
∴ Conclusion
OpenVINO는 전반적으로 높은 성능을 보여주며, 특히 GPU Integer와 GPU Float16에서 큰 차이를 기록했다. 반면,WinML은 CPU 환경에서는 비슷한 수준이나, GPU Integer에서 점수가 급격히 낮아지는 모습을 보인다.
◎ Image Generation Benchmark
Image Generation Benchmark는 이미지 인식 및 분석 성능을 측정하는 테스트로, 객체 탐지, 이미지 분류, 스타일 변환 등 다양한 시각적 AI 작업에서 하드웨어 및 소프트웨어의 처리 속도와 효율성을 평가한다. 이를 통해 특정 기기가 컴퓨터 비전 작업을 얼마나 잘 수행할 수 있는지 확인할 수 있다.
모델 및 정밀도 |
총점 (최대) |
생성 속도 (s/1장) |
이미지 수 | 엔진 | 비고 |
SD 1.5 INT8 |
2953 |
10.579 |
8 | OpenVINO | 초고속, 경량화 모델 |
SDXL FP16 | 283 | 132.14 | 16 | OpenVINO | 고해상도 생성, 속도는 느림 |
SD 1.5 FP16 | 279 | 22.377 | 16 | OpenVINO | 중간 수준 성능 |
SD 1.5 FP16 | 196 | 31.771 | 16 | ONNXRuntime-DirectML | 낮은 점수, 느린 속도 |
SD 1.5 INT8 + OpenVINO
총점 2,953점으로 가장 높은 점수를 기록했으며, 이미지 1장을 10.579초 만에 생성해 속도와 효율 모두 최고였다. INT8은 경량화된 양자화 모델로, 성능 저하 없이 빠른 처리 속도를 제공해 실용성과 휴대성 측면에서도 매우 유리하다.
SDXL FP16 + OpenVINO
최신 고해상도 생성 모델인 SDXL은 1024 해상도의 고품질 이미지를 출력할 수 있어 시각적 완성도가 높다. 하지만 이미지 1장당 생성 시간이 132.140초에 달해 속도 면에서는 큰 약점을 보였다. 점수는 283점으로, 품질은 우수하나 실시간 성능은 부족한 편이다.
SD 1.5 FP16 + OpenVINO
SD 1.5 모델을 FP16 정밀도로 OpenVINO 엔진에서 실행한 결과, 1장당 22.377초의 중간 수준 속도를 기록했으며, 총점은 279점으로 무난한 수준이다. 고화질과 속도 간 균형을 원할 때 적합한 선택이다.
SD 1.5 FP16 + ONNXRuntime-DirectML
동일한 모델이지만 OpenVINO 대신 ONNXRuntime 엔진을 사용할 경우, 총점은 196점으로 떨어졌고 생성 시간도 31.771초로 더 느렸다. 이처럼 같은 모델이라도 AI 엔진 선택에 따라 성능 차이가 크게 나타날 수 있음을 보여준다.
◎ Text Generation Benchmark - OpenVINO
Text Generation Benchmark는 자연어 처리를 이용한 텍스트 생성 성능을 측정하는 테스트로, 언어 모델이 주어진 입력을 기반으로 문장을 생성하는 속도와 품질을 평가한다. 이는 챗봇, 자동 번역, 요약 생성 등 다양한 언어 기반 AI 응용 분야에서 중요한 지표가 된다.
토큰 : AI 모델이 텍스트를 처리하는 기본 단위로, 자연어 처리(NLP)에서 텍스트를 작은 조각으로 나누어 모델이 이해하고 생성할 수 있도록 하는 역할을 한다.
생성 성능을 OpenVINO 환경에서 평가한 결과, Phi 모델이 총점 766점으로 가장 높은 성능을 기록했다. 특히 첫 토큰 생성 시간이 1.256초로 가장 짧았고, 초당 28.773개의 토큰을 생성해 빠른 처리 속도와 우수한 응답성을 보여줬다. 전체 실행 시간 역시 103.464초로 매우 안정적인 결과를 보이며, 벤치마크 전 항목에서 우위를 차지했다.
Phi > Mistral > Llama3 >> (측정불가) Llama2
▲ AI 연산 성능 순
Mistral과 Llama3 모델은 각각 656점, 603점을 기록하며 중상급 성능을 나타냈다. Mistral은 초당 17.545 토큰, Llama3는 15.665 토큰을 생성했고, 첫 토큰 생성 시간은 각각 1.856초, 1.752초로 비교적 빠른 편이었다. 특히 Llama3는 첫 토큰 생성 속도에서는 Mistral보다 앞섰으며, 전체적인 속도와 반응성에서 균형 잡힌 성능을 보여준다. 반면 Llama2는 OpenVINO 환경에서 측정을 실패해 비교 대상에서 제외되었다.
◎ Text Generation Benchmark - ONNX
Phi, Mistral, Llama3, Llama2 모델의 텍스트 생성 성능을 ONNXRuntime 환경에서 평가한 결과, Phi 모델이 종합 점수 436점으로 가장 우수한 성능을 보였다. 첫 토큰 생성 시간은 3.897초로 다소 느린 편이었지만, 초당 28.860 토큰을 생성하며 높은 처리 속도를 유지했다. 총 실행 시간도 120.924초로 안정적인 수준을 기록하며, 전반적으로 높은 추론 효율을 보여주었다.
Phi > Llama3 > Mistral >> (측정불가) Llama2
▲ AI 연산 성능 순
Llama3는 429점을 기록하며 뒤를 이었으며, 첫 토큰 생성 시간은 3.678초로 Phi보다 빠른 응답성을 보였다. 초당 생성 토큰 수는 16.652로 중상 수준이었고, 총 실행 시간은 188.413초로 다소 길었다. Mistral은 407점으로 Llama3와 유사한 성능군에 속하며, 초당 19.800 토큰을 생성했다. 단, 첫 토큰 생성 시간이 5.453초로 세 모델 중 가장 느린 응답 속도를 보였다. 한편, Llama2는 ONNXRuntime에서 점수 0점을 기록했고, 토큰 생성 시간 및 처리 속도도 측정되지 않았다.
ONNXRuntime은 범용성과 GPU 연산 지원 측면에서는 장점이 있지만, 전체적인 속도 및 응답성에서는 OpenVINO 대비 다소 아쉬운 모습을 보였다. 이는 백엔드 엔진 선택에 따라 텍스트 생성 성능이 크게 달라질 수 있음을 시사한다.
AI Benchmark LAB
by danawa
기획, 글 / 다나와 홍석표 hongdev@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com