비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

얇고 강력한 프리미엄 AI 성능을 갖춘 삼성전자 갤럭시북5

다나와
2025.06.11. 11:09:02
조회 수
621
9
댓글 수
3

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

다나와 AI 벤치마크 랩에 오신 여러분은 환영합니다!

AI 벤치마크 랩에서는 각각의 PC가 지닌 AI 관련 성능을 종합점수로 확인해 볼 수 있습니다.


성능 데이터 추출에는, 모바일 및 PC 환경에서 폭넓게 활용하는 긱벤치(Geekbench) AI와 3D MARK로 유명한 UL 솔루션의 프로키온(Procyon) AI 프로그램을 이용합니다.

국내 어디에서도 찾아 볼 수 없는 특별한 AI 콘텐츠,  지금 만나 보세요.









NT960XHA-K71AG


제품소개

긱벤치 AI

프로키온 AI

external_image


오늘의 벤치마크 대상은 삼성전자 갤럭시북5 프로 NT960XHA-K71AG (1,969,000 / SSD 512GB)이다. 갤럭시북5 프로는 삼성의 프리미엄 AI 노트북 라인업으로, 얇고 가벼운 설계와 함께 AI 기반의 스마트한 작업 효율을 중시하는 사용자에게 적합한 모델이다. CPU는 인텔 코어 울트라7 256V(최대 4.8GHz)로 구성되어 있어 일반 사무 작업부터 AI 연산까지 폭넓은 처리 성능을 제공하며, 그래픽은 인텔 Arc 140V 내장 GPU(8코어)를 통해 고해상도 콘텐츠 소비나 간단한 영상 편집에도 안정적인 그래픽 성능을 보장한다. NPU의 계산속도는 47TOPS의 성능을 보여준다.


16GB LPDDR5x 램은 온보드 형태로 교체는 불가하지만, 일상적인 멀티태스킹에는 충분한 용량이며, 512GB NVMe SSD 외에도 추가 슬롯 1개가 마련돼 저장 공간 확장도 용이하다. 디스플레이는 16인치 WQXGA+ 해상도(2880x1800)를 지원하는 광시야각 패널로, 400니트 밝기와 120Hz 주사율을 제공해 생생한 색감과 부드러운 화면 전환이 특징이다. 배터리는 76Wh로 설계돼 최대 25시간 사용 가능하며, USB-PD 방식으로 전원 충전을 지원해 휴대성과 실용성을 모두 갖춘 것이 강점이다. AI 활용 기반의 사무·교육·콘텐츠 소비에 최적화된 균형 잡힌 고성능 노트북이다.





NT960XHA-K71AG


제품소개

긱벤치 AI

프로키온 AI

external_image


긱벤치 AI는 NPU, CPU, GPU 등  서가 AI 작업에서 얼마나 효율적으로 작동하는지 파악하기 위해 OpenVINO와 ONNX를 사용한다. OpenVINO(Open Visual Inference and Neural network Optimization)는 Intel에서 개발한 AI 모델 최적화 및 추론을 가속화하는 오픈소스 툴킷이며, ONNX(Open Neural Network Exchange)는 AI 모델의 프레임워크 간 호환성을 제공하는 개방형 표준 형식을 말한다. 


정밀도

데이터 형식

속도

정확도

특징

㉠ Quantized

INT8 (8비트 정수)

가장 빠름 

낮음

속도 최적화, 모바일 AI

㉡ Half

FP16 (16비트 부동소수점)

중간 

중간

속도-정확도 균형

㉢ Single

FP32 (32비트 부동소수점)

가장 느림 

가장 높음

정밀 연산, AI 훈련


OpenVINO와 ONNX는 정밀도에 따라 다시 3가지로 나뉘는데 각 정밀도는 AI 모델의 성능, 연산 속도, 메모리 사용량 등에 영향을 미친다. AI   보기 위해서는 ㉠Quantized(INT8)를, AI 련  보기  ㉡Single(FP32) 또는 ㉢Half(FP16)를 테스트하는 것.




◎ CPU Score

external_image


CPU Score

Quantized (INT8)

Half (FP16)

Single (FP32)

OpenVINO

6825

1966

2985

ONNX

5112

1271

2567


인텔 코어 울트라7 256V 프로세서의 AI 연산 성능 테스트는 동일한 하드웨어 환경에서 ONNX Runtime과 OpenVINO Toolkit 두 가지 백엔드를 활용해 진행됐으며, AI 추론 정밀도별로 뚜렷한 성능 차이가 확인됐다.


가장 극명한 차이는 Quantized(INT8) 연산에서 나타났다. OpenVINO는 6,825점을 기록하며 ONNX의 5,112점보다 약 33.5% 높은 점수를 보였다. 이는 특히 모바일이나 저전력 디바이스에서 활용도가 높은 INT8 기반 추론에서 OpenVINO의 최적화 역량이 단연 돋보인다는 것을 의미한다.


Half Precision(FP16) 연산에서도 두 백엔드 간 차이는 더욱 벌어졌다. OpenVINO는 1,966점을 기록해 ONNX(1,271점) 대비 약 54.7% 향상된 성능을 보여주었다. 부동소수점 기반 연산에서도 OpenVINO가 고성능 연산에 강하다는 평가가 나온다.


Single Precision(FP32) 연산 역시 OpenVINO가 앞섰다. OpenVINO는 2,985점, ONNX는 2,567점을 기록해 약 16.3%의 차이를 보이며, 정밀한 추론이 필요한 상황에서도 일관된 우위를 유지했다.




 DirectML Score

DirectML은 GPU 가속 딥러닝을 지원하는 API다. 이를 이용하면 이미지 분류, 객체 탐지, 스타일 전환 등 AI 작업의 다양한 처리 성능을 평가할 수 있다. 점수가 높을수록 해당 하드웨어가 DirectML을 통해 AI 작업을 더 빠르고 효율적으로 처리할 수 있음을 의미한다.


external_image


DirectML Score

Quantized (INT8)

Half (FP16)

Single (FP32)

ONNX

7149

13135

4904


Intel Arc 140V GPU 기반의 삼성 갤럭시북5 프로 NT960XHA-K71AG 모델에서 ONNX + DirectML 환경으로 진행된 AI 연산 성능 테스트 결과, 정밀도별로 뚜렷한 특성이 나타났다.


먼저 Half Precision(FP16) 연산에서는 13,135점이라는 매우 우수한 결과를 기록했다. 이는 Arc 140V의 병렬 연산 처리 능력과 FP16 연산에 특화된 구조가 제대로 성능을 발휘한 사례로, 이미지 생성이나 자연어 처리 등 부동소수점 기반 AI 작업에 있어 강력한 대응력을 보여준다.


Quantized(INT8) 연산 점수는 7,149점으로, 저전력·고효율 연산을 중시하는 환경에서도 안정적인 성능을 유지하고 있다. 특히 양자화 모델 기반 추론에서의 실사용 성능을 고려했을 때, 데스크탑 수준에 근접한 점수로 평가된다.


반면, Single Precision(FP32) 연산에서는 4,904점을 기록해 상대적으로 보수적인 결과를 나타냈다. 이는 복잡한 고정밀 연산이나 대규모 AI 모델 학습보다는 추론 중심의 실시간 응답형 AI 작업에 보다 적합하다는 해석이 가능하다.


종합적으로 볼 때, 갤럭시북5 프로는 ONNX + DirectML 조합에서 FP16 및 INT8 영역에서 인상적인 AI 연산 성능을 보여주며, 휴대성과 실전 활용 모두를 아우르는 AI 노트북으로 손색없는 성능을 입증하고 있다.




 GPU Score

external_image


GPU Score

Quantized (INT8)

Half (FP16)

Single (FP32)

OpenVINO

26076

22833

8804


Intel Arc 140V GPU 기반의 삼성 갤럭시북5 프로는 OpenVINO GPU 백엔드를 활용한 AI 추론 성능 테스트에서 전반적으로 ONNX + DirectML 대비 뛰어난 결과를 나타냈다. 특히 양자화와 부동소수점 연산 전반에서 OpenVINO의 최적화된 구조가 강력한 성능 우위를 이끌어낸 것으로 분석된다.


Quantized(INT8) 연산에서 OpenVINO는 26,076점이라는 압도적인 점수를 기록했다. 이는 동일한 환경에서 ONNX + DirectML이 기록한 7,149점 대비 265% 이상 높은 수치로, 텔 하드웨어에서 OpenVINO가 양자화 모델 실행에 있어 얼마나 효율적으로 최적화되어 있는지를 잘 보여준다.


Half Precision(FP16) 연산 또한 OpenVINO는 22,833점을 기록하며 ONNX의 13,135점보다 약 73.8% 높은 성능을 보였다. 이는 중간 정밀도 부동소수점 연산에도 OpenVINO가 병렬 연산 및 캐시 최적화 측면에서 한층 앞선 기술력을 갖추고 있다는 점을 시사한다.


Single Precision(FP32) 연산에서는 OpenVINO가 8,804점, ONNX는 4,904점을 기록해 약 79.6% 성능 차이를 나타냈다. 이로써 OpenVINO는 전 정밀도 범주에서 ONNX를 상회하는 결과를 보이며, 특히 AI 추론 중심의 노트북 환경에서 GPU 가속 성능을 극대화할 수 있는 플랫폼임이 입증됐다.




 NPU Score

해당 테스트는 OpenVINO 백엔드 + NPU (Intel AI Boost) 환경에서 진행되었으며, NPU가 장착된 최신 플랫폼의 AI 연산 성능을 보여준다.


external_image


NPU Score

Quantized (INT8)

Half (FP16)

Single (FP32)

OpenVINO

29995

19773

2743


Quantized(INT8) 연산 성능은 29,995점으로, 동급 GPU 환경 대비 우위를 점할 만큼 압도적인 결과를 보였다. 이는 인텔 NPU가 양자화 모델에 최적화된 연산 파이프라인과 고속 병렬 처리 능력을 기반으로, 저전력·고효율 AI 추론에 탁월한 성능을 발휘한다는 점을 뒷받침한다. 특히 실시간 음성 비서, 추천 시스템, 경량 생성형 AI와 같은 응답성이 중요한 애플리케이션에서 큰 강점을 제공한다.


Half Precision(FP16) 연산에서는 19,773점을 기록하며, 대부분의 모바일 또는 경량 AI 가속 환경에서 기대되는 수준을 훨씬 뛰어넘는 성능을 보여주었다. 이는 고속 이미지 분류, 객체 탐지, 텍스트 분류 등의 분야에서도 충분한 응답 속도와 정확도를 기대할 수 있다는 의미로 해석된다.


Single Precision(FP32) 연산에서는 2,743점으로 GPU 대비 낮은 점수를 기록했지만, 이는 NPU의 설계 목적상 고정밀 연산보다는 양자화 및 중간 정밀도 추론에 최적화되어 있기 때문으로, 활용 목적에 따른 차별화된 접근이 필요한 영역이다.


결과적으로 갤럭시북5 프로는 NPU 기반의 OpenVINO 연산 환경에서 INT8·FP16 기준으로 GPU 못지않은 추론 성능을 확보하며, 터리 효율성과 고속 응답을 동시에 요구하는 AI 워크로드에 최적화된 기기로 평가된다. 고정밀 AI 모델 학습보다는 추론 중심의 경량화 AI 작업에 있어 NPU는 매우 유효한 선택지로, 실전에서의 활용 가치는 상당하다.




∴ Conclusion

external_image


이번 벤치마크 결과에 따르면, 인텔 AI Boost NPU(OpenVINO)는 AI 추론 전용 프로세서다운 압도적인 INT8 연산 성능을 입증했다. 그래프 상에서도 명확하게 드러나듯, Quantized(INT8) 환경에서 NPU는 29,995점이라는 최고점을 기록하며, GPU(OpenVINO, 26,076점)와 CPU(OpenVINO, 6,825점)를 크게 앞질렀다. 이는 동일 플랫폼 내에서 NPU가 양자화 추론 작업에 최적화된 구조임을 잘 보여준다.


Half Precision(FP16) 환경에서도 NPU는 19,773점으로, GPU(22,833점)와 유사한 수준의 성능을 달성했다. 이는 단순한 보조 연산자가 아닌, 실제 부동소수점 AI 워크로드 처리에서도 경쟁력 있는 퍼포먼스를 갖췄음을 의미한다. 다만 Single Precision(FP32) 연산에서는 2,743점으로 상대적으로 낮은 수치를 보였는데, 이는 NPU가 고정밀 연산보다는 실시간 경량 추론에 초점을 둔 설계임을 반영한다.


눈여겨볼 점은, 성능 대비 전력 효율성이다. NPU는 GPU에 비해 발열이 적고 전력 소모가 낮아, 팬리스 설계의 슬림 노트북에서도 AI 작업이 가능하게 한다. 특히 Copilot과 같은 AI 도우미 기능, 스마트 요약, 실시간 이미지 분류 등 경량화된 AI 응용에서 이상적인 연산 엔진으로 자리매김할 수 있다.





NT960XHA-K71AG


제품소개

긱벤치 AI

프로키온 AI

external_image


프로키온 AI 벤치마크는 NPU, CPU, GPU 등 다양한 프로세서가 AI 작업에서 얼마나 효율적으로 작동하는지를 평가하기 위해 사용한다. 텍스 성, 이미지 생성, 컴퓨터 비전 등 다양한 AI 작업의 성능을 비교할 수 있도록 설계되어 하드웨어별 AI 성능 차이를 분석하고, 실사용 환경에서의 최적화 가능성을 평가할 수 있다.




 Computer Vision Benchmark - AI Open Vino

Computer Vision Benchmark는 GPU와 CPU의 Float16, Float32, Integer 정밀도별 AI 연산 성능을 비교한 결과로 MobileNet V3, ResNet 50, Inception V4, DeepLab V3, YOLO V3, REAL-ESRGAN 모델을 대상으로 각각의 연산 속도를 측정했으며, 종합 점수를 통해 전반적인 성능을 평가할 수 있다.


MobileNet V3 : 모바일 및 임베디드 장치에서 이미지 분류 및 객체 탐지에 사용

ResNet 50: 딥러닝에 사용되는 50개 층의 심층 신경망 모델, 이미지 분류 및 객체탐지에 사용

Inception V4 : Google이 개발한 CNN 모델, 이미지 인식 및 분류에 사용

DeepLab V3 : 이미지의 의미론적 분할(Semantic Segmentation)에 특화된 CNN 모델

CNN : 이미지 및 영상 데이터 처리에 특화된 딥러닝 모델

YOLO V3 : 자율 주행, 감시 시스템 등에 사용

REAL-ESRGAN : 이미지 업스케일사진 및 영상 복원, 게임 그래픽 향상, AI 아트 등에 사용


external_image


GPU, NPU, CPU의 Float16, Float32, Integer 정밀도별 AI 연산 성능을 비교한 결과, NPU Integer는 종합 점수 1,450점으로 전체 벤치마크 중 가장 높은 성능을 기록했다. 특히 고해상도 이미지 복원 모델인 REAL-ESRGAN3에서 116.41ms, 객체 탐지 모델 YOLO V3에서 3.6ms, 세그멘테이션 작업인 DeepLab V3에서 4.02ms의 속도를 기록하며, 실시간 AI 처리에 최적화된 하드웨어임을 입증했다.


NPU Float16도 812점의 높은 성능을 보이며 그 뒤를 이었다. MobileNet V3(0.63ms), ResNet 50(1.57ms), Inception V4(3.43ms), YOLO V3(7.49ms) 등의 다양한 모델에서 준수한 속도를 기록해, 전력 소모와 속도 사이의 균형이 필요한 모바일 AI 기기에서 강력한 대안이 될 수 있다.


external_image

* 정밀도 표현과 값은 긱벤치 AI와 다르지만 항목은 동일하다. Quantized(INT8)=Integer, Single(FP32)=Float32, Half(FP16)=Float16


GPU Integer는 1,149점으로 NPU 다음으로 높은 점수를 기록했다. 특히 Inception V4(3.3ms), YOLO V3(3.87ms), REAL-ESRGAN3(137.36ms) 등에서 높은 연산 효율을 보였고, 복합적인 이미지 작업에서도 매우 우수한 추론 속도를 자랑한다. GPU Float16은 731점으로, 평균적인 벤치마크 전반에서 균형 잡힌 성능을 보여줬으며, DeepLab V3(8.6ms), YOLO V3(7.48ms), REAL-ESRGAN3(262.02ms) 등에서 실용적인 수준의 속도를 유지했다.


GPU Float32는 265점으로 상대적으로 낮았지만 MobileNet V3(0.84ms), ResNet 50(4.86ms)에서 준수한 속도를 보였다. CPU Integer는 210점으로 연산 구조 상 한계가 있었지만, YOLO V3(48.9ms), REAL-ESRGAN3(1,760.11ms)에서도 동작이 가능할 정도의 성능을 보여 기초적인 추론 환경에는 여전히 활용될 수 있다. CPU Float16/Float32는 각각 66점, 65점으로 가장 낮은 점수를 기록했으며, 고사양 AI 연산에는 적합하지 않음을 확인할 수 있다.

    


NPU Integer > GPU Integer > NPU Float16 > GPU Float16 > GPU Float32 > CPU Integer > CPFloat16 > CPFloat32


▲ AI 연산 성능 순


종합적으로 보면, 생성형 AI나 실시간 추론 등 고성능이 필요한 워크로드에는 NPU Integer가 최상의 선택이며, GPU Integer 및 Float16 조합도 다용도 환경에서 효과적인 대안이 될 수 있다. 반면 CPU 기반 처리는 기본적인 AI 연산에 적합하며, 복잡한 AI 응용에는 보조적 용도로 활용하는 것이 바람직하다.




 Computer Vision Benchmark - Win ML

WinML 백엔드는 DirectML을 기반으로 하여, Windows 디바이스에 최적화된 하드웨어 가속 성능을 확인할 수 있다는 점에서, 실제 AI 워크로드를 평가하고 하드웨어 선택을 검토하는 데 유용한 지표로 활용된다.


external_image


GPU와 CPU의 Float16, Float32, Integer 정밀도별 AI 추론 성능을 비교한 결과, GPU Float16이 종합 점수 503점으로 가장 뛰어난 성능을 기록했다. 특히 REAL-ESRGAN3에서 381.47ms, YOLO V3에서 8.58ms, DeepLab V3에서 19.04ms라는 안정적이고 빠른 처리 속도를 보이며, 고해상도 이미지 생성이나 객체 탐지 등 연산량이 높은 모델에서도 강력한 효율성을 입증했다. 이는 GPU 환경에서 가장 최적화된 정밀도 포맷으로, 성능과 속도의 균형을 만족시키는 선택지로 평가된다.


GPU Float32는 229점으로 중간 수준의 성능을 보였으며, Inception V4(14.74ms), DeepLab V3(27.38ms), YOLO V3(36ms) 등에서 무난한 추론 속도를 유지하며 다양한 AI 워크로드에 대응 가능한 범용 정밀도 포맷으로 판단된다. 반면 GPU Integer는 62점으로 가장 낮은 GPU 성능을 기록했다. 특히 DeepLab V3(569.52ms), YOLO V3(91.62ms), REAL-ESRGAN3(1421.32ms) 등에서 상대적으로 긴 처리 시간을 보여, 고성능 연산이나 실시간 응답이 요구되는 환경에는 적합하지 않음을 시사한다.


external_image


CPU 환경에서는 Integer 정밀도가 103점으로 가장 우수한 결과를 보였다. 특히 MobileNet V3(1.33ms), ResNet 50(8.71ms)와 같은 경량 모델에서 좋은 효율을 보였지만, YOLO V3(71.21ms), REAL-ESRGAN3(6547.05ms)와 같은 고연산 모델에서는 성능이 급감했다. CPU Float32는 57점, Float16은 30점으로 전반적으로 낮은 성능을 보였으며, 특히 Float16은 YOLO V3(276.99ms), REAL-ESRGAN3(9644.43ms) 등 거의 모든 항목에서 가장 느린 속도를 기록하며 AI 추론에는 적합하지 않은 것으로 나타났다.



GPU Float16 GPU Float32 CPU Inte ger GPU Integer CPU Float32CPU Float16


▲ AI 연산 성능 순


결론적으로, GPU 환경에서는 Float16이 가장 안정적인 추론 성능을 제공하며, CPU 환경에서는 Integer 정밀도가 비교적 실용적인 대안이 될 수 있으나, 고연산 환경에서는 GPU 기반 연산이 필수적임이 확인된다.




∴ Conclusion

external_image


OpenVINO는 전반적으로 우수한 AI 추론 성능을 보여주며, 특히 NPU 및 GPU 환경에서의 최적화 수준이 돋보인다. NPU Integer에서 1,450점, NPU Float16에서 812점을 기록하며, WinML에서는 지원되지 않는 영역까지 연산 성능을 확장했다. GPU에서도 OpenVINO는 Integer 1,149점, Float16 731점을 기록하며 각각 WinML의 62점, 503점보다 확연히 높은 수치를 나타냈다.


CPU 환경에서는 OpenVINO와 WinML의 성능 차이가 상대적으로 적게 나타났으며, 예컨대 CPU Float32에서 각각 65점과 57점, CPU Integer에서도 210점과 103점으로 1.5~2배 수준의 성능 우위를 유지했다. 하지만 GPU Integer에서는 WinML이 62점에 그친 반면, OpenVINO는 무려 1,149점을 기록해 약 18배 수준의 격차가 발생했다. 이는 WinML이 병렬 연산 최적화에서 구조적으로 한계를 보이고 있다는 해석이 가능하다.


external_image

▲ OpenVINO > WinML (모든 정밀도·장치 유형에서 평균 성능 우세)


결론적으로, OpenVINO는 하드웨어 특성에 맞춘 정밀한 최적화가 가능하며, 특히 AI 연산 집중 환경(GPU, NPU) 에서는 WinML 대비 압도적인 성능 우위를 나타냈다. WinML은 CPU 기반의 범용 연산에는 일정 수준 대응 가능하지만, 고속 AI 응답이 필요한 실시간 환경에서는 OpenVINO가 사실상 우선 선택지로 평가된다.




 Image Generation Benchmark

Image Generation Benchmark는 이미지 인식 및 분석 성능을 측정하는 테스트로, 객체 탐지, 이미지 분류, 스타일 변환 등 다양한 시각적 AI 작업에서 하드웨어 및 소프트웨어의 처리 속도와 효율성을 평가한다. 이를 통해 특정 기기가 컴퓨터 비전 작업을 얼마나 잘 수행할 수 있는지 확인할 수 있다. 

 external_image


모델 및 정밀도 총점 (최대) 생성 속도 (s/1장) 이미지 수 엔진
SD 1.5 INT8 2953 10.579 8 OpenVINO
SDXL FP16 283 132.14 16 OpenVINO
SD 1.5 FP16 279 22.377 16 OpenVINO
SD 1.5 FP16 196 31.771 16 ONNXRuntime-DirectML



SD 1.5 INT8 + OpenVINO

총점 2,953점으로 가장 높은 성능을 기록했으며, 이미지 1장당 생성 속도도 10.579초로 가장 빠른 결과를 보여주었다. INT8 정밀도는 양자화 기반 경량 모델로, 연산 자원 소모를 최소화하면서도 추론 속도를 극대화할 수 있는 구조다. 특히 OpenVINO와의 조합은 최적화 성능을 극대화해, 노트북이나 모바일 환경 같은 저전력 조건에서도 탁월한 실시간 생성 능력을 보장한다. 생성 이미지 수는 8장이며, 모델 크기를 줄인 대신 빠른 응답성과 처리 효율을 확보한 가장 실용적인 조합으로 평가된다.


SDXL FP16 + OpenVINO

총점 283점, 생성 속도는 이미지 1장당 132.14초로 측정되었으며, 테스트된 4개 조합 중 가장 느린 결과를 보였다. 하지만 SDXL 모델은 고해상도 출력과 세부 묘사에서 뛰어난 성능을 갖춘 고품질 생성 특화 모델이다. FP16 정밀도는 부동소수점 기반으로 품질을 유지하면서도 INT8 대비 계산량이 많아 속도에서 손해를 본다. 실시간 응답보다는 시간적 여유가 있고 품질이 중요한 작업에 적합한 구성이다.


SD 1.5 FP16 + OpenVINO

총점은 279점, 이미지 생성 속도는 22.377초/장으로 중간 수준의 성능을 보였다. SD 1.5는 SDXL보다 상대적으로 가벼운 모델로, FP16 정밀도를 유지하면서도 균형 잡힌 처리 효율을 제공한다. OpenVINO 엔진의 최적화 효과 덕분에 안정적인 생성 속도와 품질을 유지할 수 있으며, 생성 이미지 수도 16장으로 실용적이다. 고품질과 빠른 속도 사이에서 절충안을 찾는 사용자에게 알맞은 선택이다.


SD 1.5 FP16 + ONNXRuntime-DirectML

총점 196점, 이미지 생성 속도는 31.771초/장으로 가장 낮은 성능을 기록했다. 동일한 SD 1.5 + FP16 구성이라도, 추론 엔진이 ONNXRuntime-DirectML로 바뀌면서 성능이 크게 저하된 것이 특징이다. 이는 추론 엔진의 최적화 수준 차이를 반영한 결과로, OpenVINO 대비 속도와 효율 면에서 뒤처진다. Windows 환경에서 쉽게 적용 가능하지만, 전반적인 AI 작업 효율성 측면에서는 비추천되는 조합이다.


종합하면, INT8 + OpenVINO는 가장 빠르고 점수도 높아, 속도·효율 우선 사용 환경에 최적이고 SDXL + OpenVINO는 품질이 중요한 디자인·고해상도 작업에 추천한다. SD 1.5 FP16 + OpenVINO의 경우 성능과 품질 사이에서 균형 잡힌 선택지라 평가된다. ONNXRuntime 기반 조합은 최적화 부족으로 속도 및 점수 모두 열세해 실사용에 한계 있다.




 Text Generation Benchmark - OpenVINO

Text Generation Benchmark는 자연어 처리를 이용한 텍스트 생성 성능을 측정하는 테스트로, 언어 모델이 주어진 입력을 기반으로 문장을 생성하는 속도와 품질을 평가한다. 이는 챗봇, 자동 번역, 요약 생성 등 다양한 언어 기반 AI 응용 분야에서 중요한 지표가 된다.


큰 : AI 모델이 텍스트를 처리하는 기본 단위로, 자연어 처리(NLP)에서 텍스트를 작은 조각으로 나누어 모델이 이해하고 생성할 수 있도록 하는 역할을 한다.


external_image


external_image


OpenVINO 환경에서 생성형 AI 모델의 추론 성능을 평가한 결과, Phi 모델이 총점 766점으로 가장 높은 성능을 기록했다. 첫 토큰 생성 시간은 1.256초, 초당 생성 토큰 수는 28.773 t/s로, 빠른 처리 속도와 짧은 초기 응답 시간을 통해 실시간 활용에 최적화된 모델임을 입증했다. 총 실행 시간 역시 103.464초로 가장 짧아, 전체적인 응답성·처리 효율 모두에서 우수한 성능을 보였다.


뒤를 잇는 Mistral 모델은 656점을 기록했다. 첫 토큰 생성 시간은 1.856초, 초당 생성 토큰 수는 17.545 t/s, 총 실행 시간은 167.483초로 측정되며, 속도와 안정성 면에서 균형 잡힌 성능을 제공했다. 


중간급 AI 추론 응용 환경에 적합한 실용적인 선택지로 평가된다. Llama3는 603점을 기록했으며, 첫 토큰 생성 시간은 1.752초, 초당 생성 토큰 수는 15.665 t/s, 총 실행 시간은 179.301초로 나타났다. 초기 반응 속도는 Mistral보다 약간 빠르지만, 전반적인 처리량에서는 소폭 뒤처지는 경향을 보였다. 그래도 균형 잡힌 추론 성능을 갖춘 모델로 실사용 환경에서도 무난한 선택이 될 수 있다.



Phi >  Mistral > Llama3


▲ OpenVINO 기반 AI 연산 성능 순위


종합하면, OpenVINO 최적화 환경에서는 Phi가 성능·응답성 모두에서 가장 뛰어난 생성형 AI 모델이며, Mistral과 Llama3는 그 뒤를 잇는 실용적이면서도 빠른 중간급 선택지다. Llama2는 테스트가 불가했으며, 평가에서 제외되었다.




 Text Generation Benchmark - ONNX

external_image


external_image


ONNX Runtime 환경에서 생성형 AI 모델의 텍스트 생성 성능을 평가한 결과, Phi 모델이 종합 점수 436점으로 가장 우수한 성능을 기록했다. 첫 토큰 생성 시간은 3.897초, 초당 생성 토큰 수는 28.86 t/s, 총 실행 시간은 120.924초로 측정됐다. 빠른 토큰 처리 속도와 짧은 총 실행 시간이 인상적이며, 실시간 텍스트 생성 환경에서 매우 효율적인 응답성을 제공하는 모델이다.


Llama3는 종합 점수 429점으로 근소한 차이로 Phi를 뒤쫓았다. 첫 토큰 생성 시간은 3.678초로 가장 빠른 초기 응답성을 보여주었고, 초당 16.652개 토큰을 생성했다. 총 실행 시간은 188.413초로 다소 긴 편이나, 반응성과 품질 측면에서는 실사용에 적합한 안정적인 모델이다.


Mistral은 407점을 기록했으며, 첫 토큰 생성 시간은 5.453초, 초당 토큰 생성 수는 19.8 t/s, 총 실행 시간은 174.032초로 확인됐다. 응답 속도는 느린 편이지만, 토큰 생성 속도는 상대적으로 높아 균형 잡힌 처리 효율을 가진 모델로 평가된다. Llama2는 테스트 결과가 수집되지 않아 비교에서 제외되었다.



Phi >Llama3 > Mistral


▲ ONNX Runtime 기반 AI 연산 성능 순위


종합적으로, ONNX Runtime 환경에서는 Phi 모델이 속도·응답성·총 처리 시간 모두에서 가장 강력한 성능을 보여주며, Llama3와 Mistral은 그 뒤를 따르는 경쟁력 있는 선택지다. ONNX 최적화와 함께 사용할 경우, 실시간 생성형 AI 응용에도 충분한 효율을 발휘할 수 있다.




∴ Conclusion

external_image


OpenVINO 기반 AI 텍스트 생성 모델은 ONNX Runtime 대비 전반적으로 우월한 성능을 보여주었다. 특히 Phi 모델은 OpenVINO 환경에서 766점을 기록해 ONNX Runtime의 436점보다 약 75.7% 더 높은 점수를 보였으며, 이는 처리 효율성 측면에서의 명확한 격차를 의미한다.


Mistral 모델 역시 OpenVINO에서 656점을 획득해 ONNX의 407점보다 61.2% 높은 점수를 기록했다. Llama3 모델에서도 OpenVINO는 603점, ONNX는 429점으로, 두 환경 간의 성능 차이는 일관되게 유지된다. 


이러한 결과는 OpenVINO가 최적화된 연산 처리, 더 빠른 초기 응답 시간, 그리고 높은 초당 토큰 생성 속도를 제공한다는 점에서 유의미하다. 특히 실시간 생성형 AI 환경이나 고속 처리 응답성이 중요한 응용 분야에서는 ONNX Runtime보다 OpenVINO 기반 추론이 훨씬 유리한 선택임을 방증하는 결과라고 볼 수 있다.





AI Benchmark LAB

by danawa


external_image



기획, 글 / 다나와 홍석표 hongdev@cowave.kr

(c) 비교하고 잘 사는, 다나와 www.danawa.com

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
저작권 안내
크리에이트 커먼즈 저작자 표시 필수 상업성 이용 불가 컨텐츠 변경 불가
저작권 안내
저작권 표시 필수
상업성 이용 불가
컨텐츠 변경 불가
* 본 내용은 위의 조건을 충족할 시, 별도의 허가 없이 사용이 가능합니다.

관련 브랜드로그

1/1
이 시간 HOT 댓글!
1/4