인텔 이노베이션 2023 행사서 칩렛 기반 모바일 CPU인 메테오 레이크 관련 세부 내용이 공개되었다.
발표에 따르면 EUV 기반 인텔 4 공정을 통해 생산되는 인텔 메테오 레이크는 지난 10년 간 출시해 온 제품 중 런칭 시점 기준 가장 높은 수율을 구현했으며, 12월 14일 출시 예정이다.
P-코어와 E-코어 외에 인공 지능 가속을 위한 NPU(Neural Processing Unit)가 포베로스 3D 패키징 기술을 통해 통합되며, 구체적인 정보는 공개하지 않았지만 새로운 디자인을 통해 놀라운 전력 효율을 구현해 냈다고 자부심을 표현했다.
한편, CPU에 대해서는 자체 공정을 고집해온 인텔이지만 이번 메테오 레이크에서를 구성하는 총 4개의 타일 중 GPU와 SoC, IOE 3개 타일은 TSMC에 위탁 생산하는 것으로 알려졌다.
E-코어 클러스터, 4코어와 2코어로 양분화
메테오 레이크의 CPU 타일은 크게 SoC 타일에 포함된 E-코어와 엘더레이크 부터 구현된 하이브리드 아키텍처의 P-코어 / E-코어 구성이 특징으로, 최고의 전력 효율을 추구하는 SoC 타일의 E-코어와 효율적인 멀티스레드 작업을 위한 컴퓨트 타일의 E-코어, 고성능 구현용 P-코어로 구분된다.
P-코어는 레드우드 코브, E-코어는 크레스트몬트 아키텍처가 사용되며, P-코어는 효율 개선과 코어 패키지당 대여폭 확장, 성능 모니터링 유닛 및 인텔 스레드 디렉터 피드백 개선, E-코어는 IPC 향상, VNNI, ISA 등의 AI 가속, 향상된 분기 예측, P-코어와 같이 인텔 스레드 디렉터 피드백 개선이 이뤄졌다.
쓰레드디렉터의 경우 기존에는 P-코어에 작업이 우선 할당된 후 상황에 따라 E-코어와 P-코어에 워크로드를 할당한 반면, 전력 효율이 중시되는 모바일 플랫폼의 메테오 레이크에서는 SoC에 통합된 E-코어에 우선 할당하는 방식으로 변경되었다. 이에 따른 성능 영향은 아직 확실치 않다.
인텔이 메테오 레이크에서 강조한 전력 효율 개선은 공정 개선 영향이 큰데, 구체적인 수치는 공개하지 않았지만 인텔 4 공정은 인텔 7 공정 대비 전력 효율이 20% 개선되는 것으로 알려졌다. 전력 효율성 개선을 위해 쓰레드디렉터를 통해 실시간 피드백받는 향상된 원격 측정 데이터도 추가한다.
크레스트몬트 아키텍처의 E-코어는 IPC가 3% 개선되었으며, 64KB로 두 배 늘어난 L1 캐시, L2 캐시 4MB와 L3 캐시 3MB를 공유하는 2개 또는 4개 코어의 클러스터로 구성된다. 이중 CPU 타일에는 4코어 기반 E-코어 클러스터가, SoC 타일에는 2코어 구성 E-코어 클러스터가 통합된다.
하드웨어 레이 트레이싱 지원, 전력 효율 두 배 개선된 GPU 타일
메테오 레이크의 GPU 타일은 인텔 Xe-LP 아키텍처가 적용되지만 외장 그래픽 카드에 쓰이는 Xe-HPG 아키텍처의 많은 부분을 차용했다. 전력 효율은 전 세대 대비 두 배 증가하고, 이를 위해 GPU 다이의 메인 엔진에서 분리한 Xe 미디어 및 디스플레이 엔진 블록은 SoC 타일에 통합시켰다.
DX12 얼티밋을 구성하는 하드웨어 레이 트레이싱과 메시 셰이딩, VRR, 샘플러 피드백을 지원하고, 3D 성능 개선을 위해 더 낮은 전압에서 더 높은 클럭 구현이 가능하도록 그래픽 엔진의 전압-주파수 곡선도 조정했다.
효율 개선, 미디어/ 디스플레이 엔진은 SoC 타일로
저전력 구현을 초점을 맞춘 SoC 타일은 E-코어 클러스터와 AI 워크로드에 특화된 NPC 클러스터가 추가되었으며, 앞서 이야기한대로 기존 방식이라면 GPU 타일에 포함되었어야할 미디어/ 디스플레이/ 이미지 블록들을 품었다.
이러한 조치는 전력 효율 개선을 위한 목적도 있지만, TSMC 위탁 생산되는 GPU 타일이 보다 향상된 공정이 적용되어 수율과 생산 비용 최적화를 위한 목족도 있는 것으로 판단된다. 통합된 미디어 엔진은 HDMI 2.1과 DP 2.1, DSC 1.2a, 8K HDR 및 AV1 인코딩/ 디코딩을 지원한다.
인텔은 타일 to 타일 인터페이스를 통해 I/O 타일 연결을 위한 추가적인 저전력 IO 패브릭을 구현했다. 이 저전력 IO 패브릭은 와이파이 및 블루투스, 보인 안진, 이더넷, PCIe, SATA 등 우선 순위가 낮은 장치가 포함된다.
이를 통해 기존 통합 패브릭에서 발생하던 경합 이슈를 회피할 수 있다. 여기에 독립적인 전원 관리 컨트롤러(PMC)를 각 타일마다 추가해 독립적으로 전압과 클럭을 제어할 수 있으며, 타일마다 자체적인 DLVR을 추가해 전압 및 동적 패브릭 주파수 조정에 활용한다.
한편, 처음 메테오 레이크의 존재가 확인되었을 때는 CPU(컴퓨트 타일)/ GPU(그래픽 타일)/ SoC 세 개의 타일이 사용되는 것으로 알려졌다. 그러나 어느 순간 총 네 개의 타일로 구성된다고 알려지기 시작했는데, 이는 세 개의 타일로 구성시 메모리와 PCIe 컨트롤러 등 I/O 인터페이스 연결이 SoC 양 측면으로 제한되는 문제가 있다.
이런 한계를 극복하기 위해 메테오 레이크에서는 I/O 타일이 추가되었는데, 이를 통해 썬더볼트4나 추가 PCIe Lane 같은 외부 인터페이스를 추가할 수 있으며, 제품 타겟층에 따라 차별화된 기능 조정이 가능해졌다.
개인 수준까지 내려온 인공지능 처리 유닛, NPU
타일형 구조와 함께 인텔 메테오 레이크의 두드러진 특징은 바로 인공 지능 추론 작업 가속을 위한 전용 처리기 NPU의 통합이다.
오디오와 영상, 이미지처리 등 개인 PC에서의 AI 작업 지원을 위해 추가된 NPU(Neural Processing Unit)는 추론 파이프라인을 위한 고정 기능 가속기와 프로그래밍 가능한 SHAVE DSP가 혼합되어 있다.
MCDM(Microsoft Compute Driver Model)이라 불리는 새로운 새로운 드라이버 모델을 통합해 보안을 강화하고, 듀얼 뉴럴 컴퓨트 엔진을 통해 단일 작업을 동시 처리하거나 다른 작업을 병행 처리할 수 있다.
한편, 오디오와 영상 처리 같은 저전력 AI 추론 작업에 사용해 온 GNA(Gaussian Neural Accelerator)은 메테오 레이크에도 포함된다. 일부 GNA 기반 작업은 이미 NPU를 통한 구동할 때 더 나은 성능을 기대할 수 있으며, 인텔은 향후 완전한 NPU로의 전환을 목표로하고 있다.
인텔 NPU는 DirectML과 ONNX, OpenVINO도 지원한다.
에너지 효율적인 패키징 기술, 포베로스 3D
메테오 레이크에는 서로 다른 공정, 기능을 갖춘 타일들을 결합하기 위해 포베로스 3D 패키징 기술이 사용되었다. 포베로스 3D는 저비용 저전력 최적화를 위한 22FFL 공정으로 생산된 베이스 타일 위에 메테오 레이크의 4종류 타일을 올려 인터포저로 결합해 마이크론 범프를 통해 고정하는 방식으로 완성된다.
마이크론 범프 피치 크기는 레이크필드의 55마이크로미터서 36마이크로미터로 개선되어 제곱 밀리미터당 최대 770개를 배치할 수 있으며, 마이크론 범프 피치 크기는 향후 25에서 18까지 개선해 나간다는 방침이다. 인텔은 HBI(Hybrid Bonding Interconnects)와 결합한다면 마이크론 범프 피치 크기를 1마이크로미터까지 달성할 수 있다고 소개했다.
포베로스 3D 패키징의 전력 특성은 비트당 0.3피코줄(pJ/b) 이하이며, 인터커넥트/ 베이스 타일 성능은 mm 당 160GB/s를 구현해 대역폭이나 레이턴시 제약이 발생하지 않는다고 자신감을 나타냈다.
Copyrightⓒ 넥스젠리서치(주) 보드나라 미디어국. www.bodnara.co.kr