다나와 AI 벤치마크 랩에 오신 여러분은 환영합니다!
AI 벤치마크 랩에서는 각각의 PC가 지닌 AI 관련 성능을 종합점수로 확인해 볼 수 있습니다.
성능 데이터 추출에는, 모바일 및 PC 환경에서 폭넓게 활용하는 긱벤치(Geekbench) AI와 3D MARK로 유명한 UL 솔루션의 프로키온(Procyon) AI 프로그램을 이용합니다.
국내 어디에서도 찾아 볼 수 없는 특별한 AI 콘텐츠, 지금 만나 보세요.
|
HP 오멘 16-am0120TX |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
HP 오멘 16-am0120TX (2,255,000원)는 인텔의 최신 코어 i7-14650HX 프로세서와 RTX 5070 외장 그래픽을 탑재한 16인치 하이엔드 노트북으로, 하드코어 게임부터 고성능 그래픽 작업까지 아우르는 ‘전천후 게이밍 머신’이라는 존재감을 드러낸다. GPU TOPS는 572 TOPS로 확인된다.
디스플레이는 2560x1600 WQXGA 해상도에 240Hz 고주사율, 500nit 밝기를 지원해 화면 몰입감과 부드러운 플레이 모두를 만족시킨다. 16GB 램(업그레이드 가능)과 512GB NVMe SSD 구성, 여유로운 저장 슬롯 2개까지 더해져 사용자 확장성 또한 뛰어나다. 2.35kg 무게와 83Wh 대용량 배터리는 휴대성과 지속성 사이에서 균형을 이룬다.
주목할 점은 i7-14650HX 프로세서와 RTX 5070 GPU의 조합으로 DLSS 3.5, 프레임 생성(Frame Generation), 실시간 레이 트레이싱 등의 기술이 게임 그래픽 경험을 한 차원 끌어올린다. 115W TGP 구성은 열 설계 전력 측면에서도 넉넉하며, 듀얼 전원 입력(DC + USB-PD)도 탑재해 다양한 상황에 대응 가능하다. ‘진짜 게이밍 노트북’이란 무엇인지 보여주는 HP 오멘 시리즈의 정점이라 할 만하다.
|
HP 오멘 16-am0120TX |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
긱벤치 AI는 NPU, CPU, GPU 등 각 프로세서가 AI 작업에서 얼마나 효율적으로 작동하는지 파악하기 위해 OpenVINO와 ONNX를 사용한다. OpenVINO(Open Visual Inference and Neural network Optimization)는 Intel에서 개발한 AI 모델 최적화 및 추론을 가속화하는 오픈소스 툴킷이며, ONNX(Open Neural Network Exchange)는 AI 모델의 프레임워크 간 호환성을 제공하는 개방형 표준 형식을 말한다.
정밀도 |
데이터 형식 |
속도 |
정확도 |
특징 |
㉠ Quantized |
INT8 (8비트 정수) |
가장 빠름 |
낮음 |
속도 최적화, 모바일 AI |
㉡ Half |
FP16 (16비트 부동소수점) |
중간 |
중간 |
속도-정확도 균형 |
㉢ Single |
FP32 (32비트 부동소수점) |
가장 느림 |
가장 높음 |
정밀 연산, AI 훈련 |
OpenVINO와 ONNX는 정밀도에 따라 다시 3가지로 나뉘는데 각 정밀도는 AI 모델의 성능, 연산 속도, 메모리 사용량 등에 영향을 미친다. AI의 추론 속도를 보기 위해서는 ㉠Quantized(INT8)를, AI 훈련 정확도를 보기 위해 ㉡Single(FP32) 또는 ㉢Half(FP16)를 테스트하는 것.
◎ CPU Score
CPU Score |
Quantized (INT8) |
Half (FP16) |
Single (FP32) |
OpenVINO |
13450 |
5598 |
5757 |
ONNX |
5658 |
1178 |
3473 |
테스트 결과, OpenVINO는 모든 정밀도(Quantized INT8, Half FP16, Single FP32) 항목에서 ONNX Runtime을 능가하는 성능을 보였다. 특히 INT8 정밀도 기준인 Quantized 환경에서 OpenVINO는 13,450점을 기록하며, ONNX의 5,658점을 크게 앞섰다. 이는 약 2.38배 높은 성능으로, AI 모델이 엣지 디바이스나 경량화 연산 환경에서 더욱 빠르게 추론될 수 있음을 의미한다.
FP16 환경에서도 OpenVINO는 5,598점, ONNX는 1,178점으로 약 4.75배 차이를 기록하며, 부동소수점 기반의 AI 연산에서도 OpenVINO가 우위를 점했다. FP32 정밀도 기준인 Single 연산에서는 OpenVINO 5,757점, ONNX는 3,473점으로 상대적인 차이는 줄었지만, 여전히 OpenVINO의 최적화가 일관되게 작동하고 있음을 보여준다.
◎ DirectML Score
DirectML은 GPU 가속 딥러닝을 지원하는 API다. 이를 이용하면 이미지 분류, 객체 탐지, 스타일 전환 등 AI 작업의 다양한 처리 성능을 평가할 수 있다. 점수가 높을수록 해당 하드웨어가 DirectML을 통해 AI 작업을 더 빠르고 효율적으로 처리할 수 있음을 의미한다.
DirectML Score |
Quantized (INT8) |
Half (FP16) |
Single (FP32) |
ONNX |
15410 |
37676 |
19710 |
HP 오멘 16-am0120TX는 RTX 5070 GPU를 탑재한 하이엔드 게이밍 노트북이지만, AI 추론 연산 성능에 있어서도 강력한 면모를 보인다. ONNX Runtime과 DirectML 백엔드를 통해 수행된 테스트에서는 부동소수점과 양자화 연산 전 영역에서 균형 잡힌 퍼포먼스를 입증했다.
가장 높은 수치를 기록한 항목은 Half Precision(FP16) 연산으로, 37,676점을 기록했다. 이는 텍스트 생성, 음성 합성, 실시간 영상 분석 등 GPU 병렬 연산 최적화가 중요한 AI 워크로드에서 HP 오멘이 탁월한 처리 효율을 보여준다는 증거다. RTX 5070의 강력한 FP16 처리 성능이 실시간 처리 속도를 극대화하고 있는 것으로 분석된다.
Single Precision(FP32) 항목에서도 19,710점으로 측정돼, 복잡하고 정밀한 AI 모델 추론에서도 안정적인 프레임 유지와 추론 품질을 확보할 수 있다. 이는 이미지 변환, 고해상도 분석, 대규모 AI 응용에도 충분히 대응 가능한 수치다.
또한, Quantized(INT8) 연산 점수는 15,410점으로 나타났다. 전력 효율이 중요한 모바일 추론 환경까지 고려했을 때도, 이 기기의 GPU는 전천후 대응이 가능한 수준임을 보여준다. 특히 DirectML 기반의 ONNX Runtime은 윈도우 생태계에 최적화된 AI 가속 솔루션으로, 실사용 환경에서의 연산 성능과 안정성을 동시에 확보하고 있다.
◎ GPU
GPU |
Quantized (INT8) |
Half (FP16) |
Single (FP32) |
OpenVINO |
3298 |
2101 |
1455 |
외장 GPU 환경에서도 OpenVINO 툴킷은 효율적인 AI 연산 성능을 발휘하며, 특히 경량화된 모델 처리에 있어 뚜렷한 강점을 드러냈다. 벤치마크 결과에 따르면, Quantized(INT8) 연산에서 3,298점을 기록했다. 이 수치는 전력 효율과 속도가 동시에 요구되는 엣지 환경이나 실시간 영상 분석 등의 업무에서 OpenVINO가 높은 안정성을 제공한다는 것을 보여준다.
Half Precision(FP16) 연산은 2,101점, Single Precision(FP32)에서는 1,455점을 기록하며, 전반적인 부동소수점 연산 환경에서도 일관된 성능을 유지했다. 이는 텍스트 생성, 이미지 변환, 음성 합성과 같은 다양한 AI 워크로드를 GPU 기반에서 무리 없이 수행할 수 있는 기반을 마련해주는 수치다.
∴ Conclusion
HP 오멘 16-am0120TX의 Geekbench AI 테스트 결과는 CPU와 GPU, 그리고 각각의 연산 백엔드(OpenVINO, ONNX + DirectML)에 따라 극명한 성능 차이를 보여준다. 특히 연산 정밀도(INT8, FP16, FP32)에 따른 특성과 백엔드 최적화의 상관관계를 명확히 드러낸 것이 이번 결과의 핵심이다.
CPU 연산 기준으로는 OpenVINO가 전 구간에서 ONNX Runtime 대비 높은 성능을 기록했다. Quantized(INT8) 연산에서는 13,450점, FP16과 FP32에서는 각각 5,598점과 5,757점을 달성해 전반적으로 안정적인 처리 성능을 보였다. 반면 ONNX는 같은 항목에서 각각 5,658점, 1,178점, 3,473점으로 OpenVINO 대비 다소 낮은 수치를 기록했다. 이로써 OpenVINO는 여전히 CPU 기반 AI 처리에 최적화된 백엔드임이 입증되었다.
GPU 연산에서는 상황이 반전된다. ONNX Runtime이 DirectML을 통한 GPU 가속에서 특히 FP16 연산에서 무려 37,676점, FP32는 19,710점을 기록하며 OpenVINO GPU 결과(각각 2,101점, 1,455점)를 압도했다. Quantized(INT8) 항목 역시 ONNX가 15,410점으로, OpenVINO GPU 기준 3,298점 대비 우위에 있었다. 이는 ONNX + DirectML 조합이 GPU 부동소수점 연산 중심의 AI 워크로드에 최적화되어 있음을 보여주는 결과다.
|
HP 오멘 16-am0120TX |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
프로키온 AI 벤치마크는 NPU, CPU, GPU 등 다양한 프로세서가 AI 작업에서 얼마나 효율적으로 작동하는지를 평가하기 위해 사용한다. 텍스트 생성, 이미지 생성, 컴퓨터 비전 등 다양한 AI 작업의 성능을 비교할 수 있도록 설계되어 하드웨어별 AI 성능 차이를 분석하고, 실사용 환경에서의 최적화 가능성을 평가할 수 있다.
◎ Computer Vision Benchmark - Win ML
WinML 백엔드는 DirectML을 기반으로 하여, Windows 디바이스에 최적화된 하드웨어 가속 성능을 확인할 수 있다는 점에서, 실제 AI 워크로드를 평가하고 하드웨어 선택을 검토하는 데 유용한 지표로 활용된다.
MobileNet V3 : 모바일 및 임베디드 장치에서 이미지 분류 및 객체 탐지에 사용
ResNet 50: 딥러닝에 사용되는 50개 층의 심층 신경망 모델, 이미지 분류 및 객체탐지에 사용
Inception V4 : Google이 개발한 CNN 모델, 이미지 인식 및 분류에 사용
DeepLab V3 : 이미지의 의미론적 분할(Semantic Segmentation)에 특화된 CNN 모델
* CNN : 이미지 및 영상 데이터 처리에 특화된 딥러닝 모델
YOLO V3 : 자율 주행, 감시 시스템 등에 사용
REAL-ESRGAN : 이미지 업스케일링, 사진 및 영상 복원, 게임 그래픽 향상, AI 아트 등에 사용
다양한 정밀도로 벤치마크를 진행한 결과, 가장 높은 점수는 GPU Float16 정밀도로, 총점 1,233점을 기록하며 모든 부동소수점 연산 중 최고 효율을 보였다. 이는 ResNet 50, Inception V4, YOLO V3 등 복잡한 모델에서도 0.85ms ~ 4.67ms 수준의 빠른 응답성을 유지하며, 실시간 이미지 추론과 영상 분석 등 고속 처리 환경에 적합하다.
그 뒤를 이은 GPU Float32는 604점, GPU Integer는 316점으로, 부동소수점 연산에 GPU가 특히 최적화돼 있음을 보여준다. 다만 GPU Integer의 상대적으로 낮은 점수는 범용 GPU 아키텍처에서 양자화된 모델이 충분히 활용되지 않음을 시사한다.
CPU 환경에서는 Integer 연산이 132점으로 가장 높은 성능을 보였고, float32(107점), float16(38점) 순으로 뒤를 이었다. 특히 MobileNet V3와 ResNet 50에서는 각각 0.99ms, 7.05ms의 처리시간을 기록해, 경량 모델 기반의 연산이나 전력 효율이 중요한 엣지 환경에서는 여전히 CPU Integer가 실용적인 선택임을 보여준다.
GPU Float16 > GPU Float32 > GPU Integer > CPU Integer > CPU Float32 > CPU Float16
▲ AI 연산 성능 순
◎ Computer Vision Benchmark - AI OpenVino
OpenVINO 백엔드에서 수행된 AI 벤치마크 결과는 CPU와 GPU 각각의 정밀도별 성능 특성을 명확히 보여주며, 실사용 환경에서의 AI 연산 대응력을 입증했다. 특히 각 연산 단위에서 어떤 정밀도가 실질적인 성능 이점을 갖는지를 수치로 확인할 수 있었다.
CPU Integer 연산은 총점 328점으로, 모든 조합 중 가장 높은 점수를 기록했다. 이는 YOLO V3, Inception V4, DeepLab V3 등 비교적 복잡한 모델에서 낮은 추론 지연 시간(30.34ms, 11.57ms, 12.01ms)을 유지하며 경량화 모델 처리에 특화된 성능을 보여준다. 또한 REAL-ESRGAN3 업스케일링 작업에서도 1,007ms로 매우 효율적인 수치를 기록했다. CPU의 Float32와 Float16 정밀도는 각각 116점, 117점으로 동률에 가까운 성능을 보였으며, 전체적으로 CPU는 양자화 모델과 잘 어울리는 구조임을 입증했다.
GPU 환경에서는 Integer 정밀도 점수 116점이 가장 높았다. 이는 GPU에서도 OpenVINO가 부동소수점보다는 양자화 연산에 더 최적화되어 있음을 의미한다. Float16은 72점, Float32는 42점으로 뒤를 이었다. 특히 Inception V4에서는 GPU Integer가 30.64ms, REAL-ESRGAN3는 2,616ms로 처리해 CPU 대비 효율성이 다소 낮긴 하나, 여전히 GPU가 복수의 AI 연산을 병렬 처리하는 데 효과적이라는 점이 확인된다.
CPU Integer > CPU Float32 = CPU Float16 > GPU Integer > GPU Float16 > GPU Float32
▲ AI 연산 성능 순
AI TensorRT
AITensorRT 기반 GPU 연산 환경에서 정밀도별로 고른 성능을 발휘하며, 특히 Integer 정밀도에서 탁월한 효율을 보여줬다. GPU Integer 환경에서는 종합점수 2,408점을 기록, MobileNet V3(0.23ms), ResNet 50(0.41ms), Inception V4(1.26ms), YOLO V3(2.17ms), REAL-ESRGAN3(72.33ms) 등 주요 AI 모델에서 가장 빠른 처리 속도를 구현했다. 이러한 결과는 양자화 모델 중심의 저전력·고효율 AI 작업에 최적화된 구조임을 입증한다.
다음으로 GPU Float16 정밀도에서는 종합점수 1,955점을 기록했다. Inception V4(1.47ms), YOLO V3(3.54ms), REAL-ESRGAN3(83.26ms) 등 다양한 비전 AI 워크로드에서 안정적인 응답 속도를 보였으며, 객체 인식, 이미지 분류, 실시간 영상 분석 등 부동소수점 기반의 실시간 추론 작업에 최적화된 성능을 확인할 수 있다. 마지막으로 GPU Float32 정밀도에서는 종합점수 900점으로 상대적으로 낮았지만, DeepLab V3(6.42ms), YOLO V3(6.81ms) 등 고정밀 연산이 필요한 모델에서 안정적인 처리 속도를 유지했다. 이는 이미지 업스케일링, 생성형 AI 등 고품질 결과물이 요구되는 환경에서 의미 있는 선택지를 제공한다.
종합적으로 HP 오멘 16은 Integer 기반의 압도적인 실시간 응답성과 Float16·Float32의 범용성을 모두 갖춘 균형 잡힌 AI 연산 플랫폼으로, 게이밍 노트북을 넘어 AI 개발·테스트 워크스테이션으로 활용할 수 있는 경쟁력을 보여준다.
∴ Conclusion
HP 오멘 16-am0120TX(SSD 512GB)의 AI 성능 종합 데이터를 살펴보면, GPU 부문에서 AITensorRT 기반 Integer 연산이 2,408점으로 전체 최고 성능을 기록했다. 이어서 Float16이 1,955점, Float32가 900점을 차지하며, 고정밀 연산부터 경량화 모델 처리까지 폭넓게 대응 가능한 GPU 최적화 구조를 입증했다. 특히 Integer 환경에서는 MobileNet V3(0.23ms), ResNet 50(0.41ms), Inception V4(1.26ms), YOLO V3(2.17ms), REAL-ESRGAN3(72.33ms) 등 주요 AI 모델에서 빠른 응답성과 처리 효율을 동시에 보여줬다.
OpenVINO 환경에서는 CPU Integer가 328점으로 양자화 모델 처리에서 안정적인 성능을 입증했고, GPU Integer 역시 116점을 기록하며 꾸준한 처리 능력을 보여줬다. 반면 WinML에서는 GPU Float16(1,233점)과 Float32(604점)이 상대적으로 높은 성능을 보였지만, CPU Float16은 38점에 그쳐 고속 연산보다는 보조 처리 용도에 적합한 수준임이 드러났다.
종합적으로 이 시스템은 GPU 중심의 AI 워크로드에서 탁월한 성능을 발휘하며, OpenVINO 기반 Integer 최적화와 AITensorRT 환경에서의 부동소수점·양자화 연산 모두에서 우수한 대응력을 갖췄다. 이를 통해 실시간 반응성과 에너지 효율을 동시에 확보한 AI 개발 및 테스트용 플랫폼으로 활용 가치가 높다.
◎ Image Generation Benchmark
Image Generation Benchmark는 이미지 인식 및 분석 성능을 측정하는 테스트로, 객체 탐지, 이미지 분류, 스타일 변환 등 다양한 시각적 AI 작업에서 하드웨어 및 소프트웨어의 처리 속도와 효율성을 평가한다. 이를 통해 특정 기기가 컴퓨터 비전 작업을 얼마나 잘 수행할 수 있는지 확인할 수 있다.
모델 및 정밀도 |
총점 (최대) |
생성 속도 (s/1장) |
이미지 수 |
엔진 |
SD 1.5 FP16 |
1549 |
4.034 |
16 |
TensorRT |
SD 1.5 FP16 |
1144 |
5.462 |
16 |
ONNXRuntime-DirectML AMD |
SD 1.5 FP16 |
1056 |
5.915 |
16 |
ONNXRuntime-DirectML Olive |
SD 1.5 INT8 |
17138 |
1.823 |
8 |
TensorRT |
SD 1.5 INT8 |
228 |
136.508 |
8 |
OpenVINO |
SDXL FP16 |
669 |
55.997 |
16 |
TensorRT |
SDXL FP16 |
12 |
2900.209 |
16 |
OpenVINO |
단연 돋보이는 건 TensorRT 기반 SD 1.5 INT8 모델이다. 총점 17,138점으로 다른 조합을 압도했고, 이미지 1장을 평균 1.823초 만에 처리했다. 대규모 이미지 생성이나 실시간 콘텐츠 제작에 최적화된 셋업이다.
FP16 환경에서는 TensorRT SD 1.5 모델이 1,549점을 기록, 이미지당 4.034초로 안정성과 속도를 모두 챙겼다. ONNX Runtime-DirectML 기반 FP16 모델들도 각각 1,144점(5.462초), 1,056점(5.915초)으로 무난한 성능을 보이며 호환성과 범용성 면에서 의미 있는 결과를 냈다. 반면, OpenVINO 기반 SD 1.5 INT8 모델은 총점 228점, 이미지당 136.508초로 비효율적이었고, SDXL FP16 모델도 TensorRT(669점, 55.997초)와 OpenVINO(12점, 2,900.209초) 간 격차가 극심했다.
결론적으로, 이 시스템은 TensorRT INT8에서 초고속 이미지 생성, FP16에서 안정적 품질 추론이 모두 가능해 실시간 생성부터 고정밀 렌더링까지 폭넓게 소화할 수 있는 이미지 생성 특화 플랫폼이다.
◎ Text Generation Benchmark - ONNX
ONNX Runtime 기반 Text Generation Benchmark 결과를 보면, Phi, Mistral, Llama3 세 모델의 성능 차이가 뚜렷하다. Phi는 종합 점수 2259점으로 가장 높은 성적을 기록했으며, 첫 토큰 생성 시간 0.403초, 초당 생성 토큰 수 80.247 t/s, 총 실행 시간 37.009초로 응답성과 처리 속도의 균형이 뛰어났다. Mistral은 2142점으로 Phi에 근접했지만 첫 토큰 생성 시간이 0.618초로 다소 느렸고, 초당 생성 토큰 수도 62.241 t/s로 낮았다. Llama3는 종합 점수 1460점으로 성능은 떨어졌지만, 대형 모델 특유의 텍스트 품질 장점이 있다.
정리하면, 빠른 응답과 경량 환경에서의 최적화를 원한다면 Phi, 안정적이고 균형 잡힌 추론을 원한다면 Mistral, 텍스트 품질을 중시한 장문 생성에는 Llama3가 어울린다. HP 오멘 16은 이 모든 모델을 온보드로 소화 가능한 범용성 높은 AI 노트북임을 입증했다.
◎ Text Generation Benchmark - OpenVINO
OpenVINO 최적화 환경에서 수행된 Text Generation Benchmark는 비교적 경량화된 AI 연산 환경에서의 추론 성능을 확인하는 데 유의미한 기준을 제공한다. HP 오멘 16-am0120TX 시스템은 이 환경에서 Phi 모델 기준 종합 점수 103점을 기록하며, 세부적인 추론 속도와 효율성에서 균형 잡힌 결과를 보여주었다.
가장 빠른 응답을 보인 Phi 모델은 첫 토큰 생성 시간 20.844초, 초당 8.611개의 토큰 생성, 총 실행 시간 459.734초로 집계됐다. 전체 모델 중 가장 높은 점수를 기록했으며, 실시간 응답성과 처리 효율성에서 가장 안정적인 성능을 보여준 것으로 평가된다.
Mistral과 Llama3 모델은 각각 종합 점수 78점, 76점을 기록했으며, 첫 토큰 생성 시간은 30초 후반대(각각 35.9초, 31.7초)에 머물렀다. 초당 생성 토큰 수 또한 Phi 대비 절반 수준(4.8, 4.5개)에 머물러, 복잡한 문장 생성이나 대용량 텍스트 처리에선 상대적으로 느릴 수 있음을 시사한다.
전체적으로 볼 때, 이 시스템은 OpenVINO 기반의 Phi 모델 최적화에 가장 적합하며, 실시간 텍스트 생성 AI 애플리케이션에서 충분한 성능을 낼 수 있는 가능성을 보여준 결과라 할 수 있다.
AI Benchmark LAB
by danawa
기획, 글 / 다나와 홍석표 hongdev@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com