다나와 AI 벤치마크 랩에 오신 여러분은 환영합니다!
AI 벤치마크 랩에서는 각각의 PC가 지닌 AI 관련 성능을 종합점수로 확인해 볼 수 있습니다.
성능 데이터 추출에는, 모바일 및 PC 환경에서 폭넓게 활용하는 긱벤치(Geekbench) AI와 3D MARK로 유명한 UL 솔루션의 프로키온(Procyon) AI 프로그램을 이용합니다.
국내 어디에서도 찾아 볼 수 없는 특별한 AI 콘텐츠, 지금 만나 보세요.
|
LG Gram15 15ZD90RU-GX54K |
|
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
오늘의 벤치마크 대상은 LG전자 그램15 15ZD90RU-GX54K(1,348,950원/1TB, 1,298,990원/256GB)다. 기존 그램 시리즈를 잇는 초경량 노트북으로 CPU는 13세대 인텔 코어 i5-1334U 10코어(2P+8E)를 채택했다. 전력효율이 좋고 멀티태스킹 성능도 두루 사용할 수 있는 수준. 그래픽은 인텔 iRIS Xe 내장그래픽으로 저장장치는 NVMe SSD를 기본 장착, 추가 M.2 슬롯을 통해 용량을 확장할 수 있다. 80Wh 대용량 배터리로 한 번 충전이면 하루 종일 사용할 수 있어 이동이 잦은 사용자에게 이상적인 노트북. 물론 65W USB-PD 어댑터라면 빠른 충전도 가능하다.
|
LG Gram15 15ZD90RU-GX54K |
|
|||
제품소개 | 긱벤치 AI | 프로키온 AI |
긱벤치 AI는 NPU, CPU, GPU 등 각 프로세서가 AI 작업에서 얼마나 효율적으로 작동하는지 파악하기 위해 OpenVINO와 ONNX를 사용한다. OpenVINO(Open Visual Inference and Neural network Optimization)는 Intel에서 개발한 AI 모델 최적화 및 추론을 가속화하는 오픈소스 툴킷이며, ONNX(Open Neural Network Exchange)는 AI 모델의 프레임워크 간 호환성을 제공하는 개방형 표준 형식을 말한다.
정밀도 |
데이터 형식 |
속도 |
정확도 |
특징 |
㉠Quantized |
INT8 (8비트 정수) |
가장 빠름 |
낮음 |
속도 최적화, 모바일 AI |
㉡Half |
FP16 (16비트 부동소수점) |
중간 |
중간 |
속도-정확도 균형 |
㉢Single |
FP32 (32비트 부동소수점) |
가장 느림 |
가장 높음 |
정밀 연산, AI 훈련 |
OpenVINO와 ONNX는 정밀도에 따라 다시 3가지로 나뉘는데 각 정밀도는 AI 모델의 성능, 연산 속도, 메모리 사용량 등에 영향을 미친다. AI의 추론 속도를 보기 위해서는 ㉠Quantized(INT8)를, AI 훈련 정확도를 보기 위해 ㉡Single(FP32) 또는 ㉢Half(FP16)를 테스트하는 것.
◎ CPU Score
CPU Score | Quantized (INT8) |
Half (FP16) |
Single (FP32) |
OpenVINO | 4147 |
2080 |
2071 |
ONNX | 3688 | 843 | 2017 |
테스트 결과 LG전자 그램15 15ZD90RU-GX54K는 OpenVINO가 ONNX보다 전반적으로 높은 점수를 기록했다. Quantized(INT8) 연산이 가장 높은 성능을 기록, AI 추론에서는 속도를 위해 INT8 연산을 사용하는 것이 유리함을 보여준다. FP16(Half)의 경우 OpenVINO는 최적화가 잘 되어 있는 반면, ONNX에서는 상대적으로 낮게 측정됐다. (50TOPS 급 AI 노트북, ASUS 비보북 S 14 M5406WA-QD165의 OpenVINO 점수는 Quantized 12750, Half 5119, Single 5036 이며, ONNX 점수는 Quantized 6621, Half 1392, Single 3108 이다.)
◎ DirectML Score
DirectML은 GPU 가속 딥러닝을 지원하는 API다. 이를 이용하면 이미지 분류, 객체 탐지, 스타일 전환 등 AI 작업의 다양한 처리 성능을 평가할 수 있다. 점수가 높을수록 해당 하드웨어가 DirectML을 통해 AI 작업을 더 빠르고 효율적으로 처리할 수 있음을 의미한다.
DirectML Score | Quantized (INT8) |
Half (FP16) |
Single (FP32) |
ONNX | 1507 | 2348 | 2349 |
해당 노트북은 Half(FP16), Single(FP32) 연산시 속도를 높이면서도 정확성을 유지했으나, Quantized(INT8) 연산에서 상대적으로 낮은 점수를 보여 하드웨어가 AI에 최적화 되지 않았을 가능성이 크다. (50TOPS 급 AI 노트북, ASUS 비보북 S 14 M5406WA-QD165는 Quantized 5777, Half 11226, Single 7654 수준이다,)
◎ GPU Score
GPU Score는 그래픽 카드의 AI 성능을 확인할 수 있는 지표. 해당 노트북은 인텔 iRIS Xe 내장 그래픽이기 때문에 AI 연산에 특화되어 있지 않은 점을 참고하자.
GPU Score | Quantized (INT8) |
Half (FP16) |
Single (FP32) |
OpenVINO | 7547 | 4700 | 3460 |
내장 GPU는 INT8 최적화가 잘 되어 있다. FP32를 사용하는 OpenVINO Single은 상대적으로 낮은 성능을 기록하여, 부동소수점 연산보다는 정수 연산(INT8)이 더 효율적임을 알 수 있다. (40TOPS 급 AI 노트북, ASUS 젠북 S 14 UX5406SA-PV071W는 Quantized 23142, Half 20363, Single 8022 수준이다.)
|
LG Gram15 15ZD90RU-GX54K | |
|||
제품소개 |
긱벤치 AI |
프로키온 AI |
프로키온 AI 벤치마크는 NPU, CPU, GPU 등 다양한 프로세서가 AI 작업에서 얼마나 효율적으로 작동하는지를 평가하기 위해 사용한다. 텍스트 생성, 이미지 생성, 컴퓨터 비전 등 다양한 AI 작업의 성능을 비교할 수 있도록 설계되어 하드웨어별 AI 성능 차이를 분석하고, 실사용 환경에서의 최적화 가능성을 평가할 수 있다.
◎ Computer Vision Benchmark
위 그래프는 GPU와 CPU의 Float16, Float32, Integer 정밀도별 AI 연산 성능을 비교한 결과로 MobileNet V3, ResNet 50, Inception V4, DeepLab V3, YOLO V3, REAL-ESRGAN 모델을 대상으로 각각의 연산 속도를 측정했으며, 종합 점수를 통해 전반적인 성능을 평가할 수 있다.
MobileNet V3 : 모바일 및 임베디드 장치에서 이미지 분류 및 객체 탐지에 사용
ResNet 50 : 딥러닝에 사용되는 50개 층의 심층 신경망 모델, 이미지 분류 및 객체탐지에 사용
Inception V4 : Google이 개발한 CNN 모델, 이미지 인식 및 분류에 사용
DeepLab V3 : 이미지의 의미론적 분할(Semantic Segmentation)에 특화된 CNN 모델
* CNN : 이미지 및 영상 데이터 처리에 특화된 딥러닝 모델
YOLO V3 : 자율 주행, 감시 시스템 등에 사용
REAL-ESRGAN : 이미지 업스케일링, 사진 및 영상 복원, 게임 그래픽 향상, AI 아트 등에 사용
* 정밀도 표현은 긱벤치 AI와 다르지만 항목은 동일하다. Quantized(INT8)=Integer, Single(FP32)=Float32, Half(FP16)=Float16
GPU와 CPU의 Float16, Float32, Integer 정밀도별 AI 연산 성능을 비교 결과 GPU Float16는 전체적으로 가장 뛰어난 성능을 보이며, 특히 복잡한 작업(REAL-ESRGAN)에서도 효율적이다. CPU Float32는 균형 잡힌 성능을 보이지만, Float16 대비 속도가 다소 느렸다. GPU Integer의 경우 특정 모델에서 비효율적이며, YOLO V3 및 DeepLab V3에서 성능이 크게 저하되는 모습을 보여준다.
CPU Float16은 전반적으로 낮은 성능을 보이며, 복잡한 작업에서 매우 긴 시간이 필요했다. CPU Float32는 MobileNet V3에서 우수한 성능을 보였지만, 복잡한 모델에서는 성능이 저하되는 모습니다. CPU Integer는 MobileNet V3에서 가장 빠르지만, REAL-ESRGAN과 같은 복잡한 작업에는 부적합한 상황. 하지만 가장 높은 종합점수를 받았다.
◎ Image Generation Benchmark
Image Generation Benchmark는 이미지 인식 및 분석 성능을 측정하는 테스트로, 객체 탐지, 이미지 분류, 스타일 변환 등 다양한 시각적 AI 작업에서 하드웨어 및 소프트웨어의 처리 속도와 효율성을 평가한다. 이를 통해 특정 기기가 컴퓨터 비전 작업을 얼마나 잘 수행할 수 있는지 확인할 수 있다. 다만 이 제품은 INT8 영역만 확인 가능해 비교 분석은 어려웠다.
◆ 총점 : 481
◇ 총 소요 시간 : 519.524초
◆ 이미지 생성 속도 : 64.940초/1장
◎ Text Generation Benchmark
Text Generation Benchmark는 자연어 처리를 이용한 텍스트 생성 성능을 측정하는 테스트로, 언어 모델이 주어진 입력을 기반으로 문장을 생성하는 속도와 품질을 평가한다. 이는 챗봇, 자동 번역, 요약 생성 등 다양한 언어 기반 AI 응용 분야에서 중요한 지표가 된다.
토큰 : AI 모델이 텍스트를 처리하는 기본 단위로, 자연어 처리(NLP)에서 텍스트를 작은 조각으로 나누어 모델이 이해하고 생성할 수 있도록 하는 역할을 한다.
Phi, Mistral, Llama3, Llama2 모델의 AI 텍스트 생성 성능을 평가한 결과, Phi가 173점으로 가장 높은 성능을 기록했다. Phi에서 첫 토큰의 생성 시간이 다른 모델보다 2배 가까이 빨랐으며, 그 결과 총 실행 시간도 가장 짧았다.
Phi 모델이 전반적으로 가장 우수한 성능을 보였으며, 빠른 응답 시간과 높은 토큰 생성 속도를 기록했다. 반면, Mistral과 Llama3는 유사한 성능을 보였지만 Phi보다 다소 느린 속도를 나타냈다. Llama2는 하드웨어 스펙 문제로 테스트되지 않아 비교할 수 없었다.
AI Benchmark LAB
by danawa
기획, 글 / 다나와 홍석표 hongdev@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com