다나와 AI 벤치마크 랩에 오신 여러분은 환영합니다!
AI 벤치마크 랩에서는 각각의 PC가 지닌 AI 관련 성능을 종합점수로 확인해 볼 수 있습니다.
성능 데이터 추출에는, 모바일 및 PC 환경에서 폭넓게 활용하는 긱벤치(Geekbench) AI와 3D MARK로 유명한 UL 솔루션의 프로키온(Procyon) AI 프로그램을 이용합니다.
국내 어디에서도 찾아 볼 수 없는 특별한 AI 콘텐츠, 지금 만나 보세요.
|
NT940XHA-K51AG |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
오늘의 벤치마크 대상은 삼성전자 갤럭시북5 프로 NT940XHA-K51A(1,548,980원/SSD 256GB, 1,649,990원/SSD 512GB)다. 삼성의 프리미엄 노트북 라인업으로, 휴대성과 성능을 모두 갖춘 제품이다. CPU는 인텔 코어 울트라5 226V 8코어(4P+4E)를 탑재해 전력 효율은 물론, 일상적인 멀티태스킹 작업에 적합한 성능을 제공한다. 그래픽은 인텔 Arc Graphics 130V 내장 그래픽으로, 영상 시청이나 간단한 그래픽 작업에 무난하다. 저장장치는 NVMe SSD 256GB가 기본이며, 추가 M.2 슬롯을 통해 저장 공간 확장이 가능하다. 배터리는 63Wh로 최대 21시간 사용이 가능해 외부 활동이 많은 사용자에게 이상적이며, 65W USB-PD 어댑터를 통해 빠른 충전도 지원한다.
|
NT940XHA-K51AG |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
긱벤치 AI는 NPU, CPU, GPU 등 각 프로세서가 AI 작업에서 얼마나 효율적으로 작동하는지 파악하기 위해 OpenVINO와 ONNX를 사용한다. OpenVINO(Open Visual Inference and Neural network Optimization)는 Intel에서 개발한 AI 모델 최적화 및 추론을 가속화하는 오픈소스 툴킷이며, ONNX(Open Neural Network Exchange)는 AI 모델의 프레임워크 간 호환성을 제공하는 개방형 표준 형식을 말한다.
정밀도 |
데이터 형식 |
속도 |
정확도 |
특징 |
㉠ Quantized |
INT8 (8비트 정수) |
가장 빠름 |
낮음 |
속도 최적화, 모바일 AI |
㉡ Half |
FP16 (16비트 부동소수점) |
중간 |
중간 |
속도-정확도 균형 |
㉢ Single |
FP32 (32비트 부동소수점) |
가장 느림 |
가장 높음 |
정밀 연산, AI 훈련 |
OpenVINO와 ONNX는 정밀도에 따라 다시 3가지로 나뉘는데 각 정밀도는 AI 모델의 성능, 연산 속도, 메모리 사용량 등에 영향을 미친다. AI의 추론 속도를 보기 위해서는 ㉠Quantized(INT8)를, AI 훈련 정확도를 보기 위해 ㉡Single(FP32) 또는 ㉢Half(FP16)를 테스트하는 것.
◎ CPU Score
CPU Score |
Quantized |
Half |
Single |
OpenVINO |
5560 |
1225 |
1945 |
ONNX |
4061 |
1075 |
2157 |
테스트 결과 Samsung Galaxy Book 5 Pro NT940XHA-K51A는 ONNX보다 OpenVINO 백엔드에서 전반적으로 우수한 AI 추론 성능을 보였다. 특히 Quantized (INT8) 연산에서 OpenVINO가 5560점을 기록하며 가장 높은 점수를 보여줬고, 이는 ONNX의 동일 항목 점수인 4061점보다 약 37% 높은 수치다.
FP16(Half Precision)에서는 ONNX가 1075점, OpenVINO는 1225점으로, 차이는 크지 않지만 여전히 OpenVINO가 앞서는 결과다. Single Precision에서는 ONNX가 2157점, OpenVINO가 1945점으로 ONNX가 근소하게 우세하다. 이러한 결과는 OpenVINO가 INT8과 FP16 최적화에 강점이 있음을 보여주며, 특히 AI 추론을 빠르게 처리하려는 환경에서는 OpenVINO 백엔드의 활용이 유리할 수 있음을 시사한다.
◎ DirectML Score
DirectML은 GPU 가속 딥러닝을 지원하는 API다. 이를 이용하면 이미지 분류, 객체 탐지, 스타일 전환 등 AI 작업의 다양한 처리 성능을 평가할 수 있다. 점수가 높을수록 해당 하드웨어가 DirectML을 통해 AI 작업을 더 빠르고 효율적으로 처리할 수 있음을 의미한다.
DirectML Score |
Quantized |
Half (FP16) |
Single (FP32) |
ONNX | 4168 | 11835 | 6109 |
이번 테스트에 사용된 노트북의 DirectML 기반 ONNX 백엔드로 벤치마크 결과 Single Precision(FP32) 점수는 6109점, Half Precision(FP16) 점수는 11835점으로 비교적 높은 수치를 기록했다. 이는 연산 정밀도를 유지하면서도 속도 향상을 이룬 결과로, FP16 연산에 최적화된 GPU 성능을 보여준 것으로 해석할 수 있다. 반면, Quantized(INT8) 연산에서는 4168점으로 상대적으로 낮은 점수를 보였다. 이는 해당 GPU가 INT8 기반 연산에서 성능을 충분히 끌어올리지 못했다는 의미로, 하드웨어가 전반적인 AI 연산에는 대응하지만 양자화 추론에는 최적화되어 있지 않을 가능성을 보여준다.
참고로, 50TOPS급 ASUS 비보북 S 14 M5406WA-QD165의 DirectML 점수는 Single 7654, Half 11226, Quantized 5777를 기록했다.
◎ GPU Score
GPU Score는 그래픽 카드의 AI 성능을 확인할 수 있는 지표다. 이번 테스트에 사용된 노트북은 내장 GPU(Intel Arc 130V)를 탑재하고 있으며, OpenVINO 백엔드를 통해 테스트가 수행됐다. 이 GPU는 일반적으로 고성능 AI 연산에 특화되어 있지 않지만, 최근 내장 그래픽도 INT8 양자화 연산에 최적화된 경향을 보인다.
GPU Score | Quantized (INT8) |
Half (FP16) |
Single (FP32) |
OpenVINO | 25993 | 22781 | 8695 |
실제 결과를 보면 Quantized(INT8) 연산에서는 25,993점으로 가장 높은 점수를 기록해, 정수 기반의 추론 연산에서는 좋은 효율을 보였다. 반면 Single Precision(FP32) 점수는 8,695점으로 다소 낮았고, 이는 부동소수점 연산에서의 상대적인 성능 한계를 보여준다. 이 결과는 GPU가 FP32와 FP16 기반의 고정밀 연산보다는, 양자화 기반의 경량 추론에 더 적합하다는 점을 시사한다. 따라서 AI 워크로드가 INT8 기반으로 구성된다면, 해당 하드웨어로도 충분히 실용적인 성능을 기대할 수 있다.
참고로, 40TOPS급 AI 성능을 가진 ASUS 젠북 S 14 UX5406SA-PV071W는 OpenVINO 기준 Quantized 23,142점, Half 20,363점, Single 8,022점으로 유사한 성능을 기록했다.
◎ NPU Score
해당 테스트는 OpenVINO 백엔드 + NPU (Intel AI Boost) 환경에서 진행되었으며, NPU가 장착된 최신 플랫폼의 AI 연산 성능을 보여준다.
NPU Score | Quantized (INT8) |
Half (FP16) |
Single (FP32) |
OpenVINO | 17639 | 13317 | 2409 |
테스트 결과 NPU는 양자화 기반 추론 작업에 최적화되어 있음을 보여주었다. 반면, FP32 연산의 경우 2,409점으로 가장 낮은 성능을 보여 고정밀 부동소수점 연산에는 다소 제한이 있음을 의미한다. AI 추론에 최적화된 NPU 구조는 적은 전력 소비로 높은 연산량을 처리해야 하는 모바일/노트북 환경에서 매우 유리한 특성이다.
|
NT940XHA-K51AG | |
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
프로키온 AI 벤치마크는 NPU, CPU, GPU 등 다양한 프로세서가 AI 작업에서 얼마나 효율적으로 작동하는지를 평가하기 위해 사용한다. 텍스트 생성, 이미지 생성, 컴퓨터 비전 등 다양한 AI 작업의 성능을 비교할 수 있도록 설계되어 하드웨어별 AI 성능 차이를 분석하고, 실사용 환경에서의 최적화 가능성을 평가할 수 있다.
◎ Computer Vision Benchmark
위 그래프는 GPU와 CPU의 Float16, Float32, Integer 정밀도별 AI 연산 성능을 비교한 결과로 MobileNet V3, ResNet 50, Inception V4, DeepLab V3, YOLO V3, REAL-ESRGAN 모델을 대상으로 각각의 연산 속도를 측정했으며, 종합 점수를 통해 전반적인 성능을 평가할 수 있다.
MobileNet V3 : 모바일 및 임베디드 장치에서 이미지 분류 및 객체 탐지에 사용
ResNet 50: 딥러닝에 사용되는 50개 층의 심층 신경망 모델, 이미지 분류 및 객체탐지에 사용
Inception V4 : Google이 개발한 CNN 모델, 이미지 인식 및 분류에 사용
DeepLab V3 : 이미지의 의미론적 분할(Semantic Segmentation)에 특화된 CNN 모델
* CNN : 이미지 및 영상 데이터 처리에 특화된 딥러닝 모델
YOLO V3 : 자율 주행, 감시 시스템 등에 사용
REAL-ESRGAN : 이미지 업스케일링, 사진 및 영상 복원, 게임 그래픽 향상, AI 아트 등에 사용
* 정밀도 표현과 값은 긱벤치 AI와 다르지만 항목은 동일하다. Quantized(INT8)=Integer, Single(FP32)=Float32, Half(FP16)=Float16
GPU와 CPU의 Float16, Float32, Integer 정밀도별 AI 연산 성능을 비교한 결과, GPU Float16은 전반적으로 가장 뛰어난 성능을 보였다. 특히 복잡한 이미지 복원 작업인 REAL-ESRGAN에서도 798.06ms로 매우 효율적인 처리 속도를 나타냈다. YOLO V3와 DeepLab V3처럼 높은 연산량을 요구하는 모델에서도 뛰어난 속도를 기록하며, AI 추론에 최적화된 정밀도 포맷임을 보여준다.
CPU Float32는 전반적으로 균형 잡힌 성능을 보였으며, MobileNet V3와 같은 경량 모델에서 우수한 처리 시간을 보여줬다(2.03ms). 하지만 복잡한 작업에서는 GPU 대비 확연한 차이를 보이며 성능 저하가 관찰되었다. GPU Integer 정밀도는 일부 모델에서 비효율적인 결과를 나타냈다. 특히 YOLO V3에서는 데이터가 없거나 처리 실패로 보이며, DeepLab V3에서도 비교적 긴 처리 시간(350ms)을 보이는 등 안정성이 떨어지는 모습이다.
CPU Float16은 전반적으로 낮은 성능을 기록하며, Inception V4부터 REAL-ESRGAN까지 대부분의 복잡한 작업에서 가장 긴 처리 시간을 기록했다. 이는 CPU에서 Float16 연산이 최적화되어 있지 않음을 의미한다. 한편, CPU Integer는 MobileNet V3에서 1.33ms로 가장 빠른 처리 성능을 기록했으며, 전체 종합점수도 73점으로 가장 높다. 이는 단순한 연산 구조에서는 효율적인 결과를 낼 수 있음을 보여주지만, REAL-ESRGAN처럼 고해상도 생성 작업에는 부적합한 성능(10038.46ms)을 보여준다.
◎ Image Generation Benchmark
Image Generation Benchmark는 이미지 인식 및 분석 성능을 측정하는 테스트로, 객체 탐지, 이미지 분류, 스타일 변환 등 다양한 시각적 AI 작업에서 하드웨어 및 소프트웨어의 처리 속도와 효율성을 평가한다. 이를 통해 특정 기기가 컴퓨터 비전 작업을 얼마나 잘 수행할 수 있는지 확인할 수 있다.
모델 및 정밀도 | 총점 (최대) | 생성 속도 (s/1장) | 이미지 수 | 엔진 | 비고 |
SD 1.5 INT8 | 1379 | 22.651 | 8 | OpenVINO | 초고속, 경량화 모델 |
SDXL FP16 | 155 | 240.446 | 16 | OpenVINO | 고해상도 생성, 속도는 느림 |
SD 1.5 FP16 | 117 | 53.197 | 16 | OpenVINO | 중간 수준 성능 |
SD 1.5 FP16 | 87 | 71.245 | 16 | ONNXRuntime-DirectML | 낮은 점수, 느린 속도 |
SD 1.5 INT8 + OpenVINO - 총점 1379점으로 가장 높은 점수를 기록했으며, 이미지 1장을 22.651초 만에 생성해 속도와 성능 모두 최고였다. INT8은 경량화된 모델로, 성능 저하 없이 빠른 처리 속도를 제공해 실용성과 효율이 뛰어나다.
SDXL FP16 + OpenVINO - 최신 모델인 SDXL은 고해상도 이미지를 생성할 수 있어 품질이 뛰어나다. 하지만 1장을 생성하는 데 240.446초가 걸릴 정도로 속도가 느렸다.
SD 1.5 FP16 + OpenVINO - SD 1.5 모델을 FP16 정밀도로 실행한 결과, 53.197초/장이라는 중간 수준의 속도를 보였고, 점수도 117점으로 무난했다.
SD 1.5 FP16 + ONNXRuntime-DirectML - 동일한 모델이지만 OpenVINO 대신 ONNXRuntime 엔진을 사용했을 때는 점수가 87점으로 떨어졌고, 속도도 더 느려졌다(71.245초/장). 이처럼 같은 모델이라도 AI 엔진에 따라 성능 차이가 크게 난다는 것을 보여준다.
◎ Text Generation Benchmark
Text Generation Benchmark는 자연어 처리를 이용한 텍스트 생성 성능을 측정하는 테스트로, 언어 모델이 주어진 입력을 기반으로 문장을 생성하는 속도와 품질을 평가한다. 이는 챗봇, 자동 번역, 요약 생성 등 다양한 언어 기반 AI 응용 분야에서 중요한 지표가 된다.
토큰 : AI 모델이 텍스트를 처리하는 기본 단위로, 자연어 처리(NLP)에서 텍스트를 작은 조각으로 나누어 모델이 이해하고 생성할 수 있도록 하는 역할을 한다.
Phi, Mistral, Llama3, Llama2 모델의 AI 텍스트 생성 성능을 평가한 결과, Phi 모델이 500점으로 가장 높은 성능을 기록했다. 이 모델은 첫 토큰 생성 시간이 2.074초로 가장 짧았으며, 초당 20.243개의 토큰을 생성해 빠른 처리 속도를 보여주었다. 전체 실행 시간 역시 156.787초로, 다른 모델보다 현저히 짧았다.
Mistral과 Llama3는 각각 396점, 368점을 기록하며 유사한 수준의 성능을 나타냈다. 두 모델 모두 Phi보다는 느렸지만, 여전히 준수한 생성 속도와 안정적인 결과를 보여줬다. 특히 Llama3는 첫 토큰 생성 시간이 짧은 편(2.997초)으로, 응답성 면에서 경쟁력이 있었다. Llama2는 테스트 결과가 측정되지 않아 성능 비교에서 제외되었다. 이는 모델 호환성 또는 하드웨어 설정 이슈로 인해 결과가 출력되지 않은 것으로 보인다.
AI Benchmark LAB
by danawa
기획, 글 / 다나와 홍석표 hongdev@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com