인공지능이 사람처럼 생각하려면 무엇이 필요할까. 중국 홍콩중문대학과 상하이AI연구소 공동 연구팀이 AI의 논리력을 측정하는 대표적인 시험인 ARC-AGI에서 '이미지 보기'와 '글자 읽기'를 적절히 조합해 기존 방식보다 최대 7.25%포인트 높은 점수를 기록했다. 이 시험은 GPT-5, Grok 4 같은 최신 AI도 절반 이상 틀리는 난제로 알려져 있다.
사람은 97점, AI는 50점도 어려운 'IQ 테스트'
ARC-AGI는 2019년 프랑수아 숄레(François Chollet)가 만든 AI용 논리력 시험이다. 몇 개의 예시만 보고 규칙을 찾아낸 뒤, 그 규칙을 새로운 문제에 적용해야 한다. 사람에게는 쉬운 편이어서 정답률이 97%를 넘지만, 최신 AI조차 50%를 넘기기 어렵다. 지금까지 대부분의 연구는 이 시험을 '글자 문제'로 취급했다. 색깔 격자판을 [[0,1,2],[3,4,5]] 같은 숫자 목록으로 바꿔서 AI에게 읽히는 방식이다. 하지만 사람은 이런 퍼즐을 풀 때 그림으로 본다. 색깔이 칠해진 격자판을 눈으로 보면 대칭이나 회전 같은 패턴이 바로 보이지만, 숫자 나열만 읽어서는 이런 규칙을 찾기 어렵다.
그림만 보여주면 오히려 점수가 떨어지는 이상한 현상
해당 논문에 따르면, 연구팀이 처음 시도한 방법은 단순했다. 숫자 대신 색깔 격자판 이미지를 AI에게 보여주는 것이었다. 그런데 놀랍게도 점수가 더 떨어졌다. 왜 그랬을까? 이미지로 보면 전체 모양은 잘 파악하지만, 특정 칸의 정확한 값을 찾는 데는 서툴렀다. 예를 들어 20칸×20칸짜리 격자에서 (5, 7) 위치의 색깔이 뭔지 물으면, AI가 옆 칸과 헷갈려하는 경우가 많았다. 반면 숫자 목록으로 읽으면 정확한 위치의 값은 잘 찾지만, 전체적인 패턴을 놓치기 쉬웠다.
연구팀은 여기서 중요한 사실을 발견했다. 그림 보기와 글자 읽기는 각각 잘하는 영역이 다르다는 것이다. 오픈AI(OpenAI)의 o4-mini 모델로 실험한 결과, 규칙을 찾을 때는 그림을 보여주면 점수가 3.0%포인트 올랐지만, 규칙을 적용할 때는 그림을 쓰면 오히려 20.5%포인트나 점수가 떨어졌다.
규칙 찾을 땐 그림, 계산할 땐 글자 쓰는 새로운 방법
연구팀은 이 발견을 바탕으로 두 가지 새로운 방법을 만들었다. 첫 번째는 VLSR(시각-언어 시너지 추론)이다. 이름은 어렵지만 원리는 간단하다. 문제를 두 단계로 나눈다. 먼저 예시들을 색깔 격자판 이미지로 보여주면서 "어떤 규칙으로 바뀌었는지 찾아봐"라고 시킨다. AI는 그림을 보면서 "아, 모든 도형이 시계 방향으로 90도 돌아갔구나" 같은 전체적인 패턴을 파악한다. 그 다음에는 숫자 목록을 주면서 "방금 찾은 규칙대로 이 숫자들을 바꿔봐"라고 시킨다. 이렇게 하면 AI가 각 칸의 값을 정확하게 계산할 수 있다.
두 번째는 MSSC(모달리티 전환 자기수정)다. AI가 답을 낸 뒤에 스스로 검토하게 하는 방법인데, 여기서도 방식을 바꾼다. 글자로 답을 계산했으면, 검토할 때는 그 답을 그림으로 바꿔서 예시 그림들과 비교해본다. 같은 방식으로만 검토하면 자기 실수를 못 찾는 경우가 많은데, 다른 방식으로 보면 틀린 부분이 눈에 띄기 쉽다.
구글 제미나이 7.25%p, 오픈AI o4-mini 4.5%p 점수 상승
실험 결과는 인상적이었다. 구글(Google)의 Gemini-2.5-Pro 모델에 이 방법을 적용하자 정답률이 7.25%포인트 올랐고, 오픈AI의 o4-mini 모델은 4.5%포인트 상승했다. GPT-4o, Qwen3-VL 등 다양한 AI 모델에서 평균 4.33%포인트의 개선 효과가 나타났다. 특히 눈에 띄는 건 자기수정 효과의 차이다. 글자로만 답을 내고 글자로만 검토하는 기존 방식으로는 GPT-4o가 3번 검토해도 0.5점밖에 안 올랐다.
하지만 MSSC 방식으로 그림과 글자를 번갈아 쓰면서 검토하니 3.75점이나 올랐다. 연구팀은 이 차이가 관점 전환에서 온다고 설명한다. 글자로 계산한 답을 그림으로 바꿔 보면, 글자만 볼 때는 몰랐던 공간적 오류가 눈에 들어온다.
소규모 AI도 거대 AI를 이기는 방법
연구팀은 이 원리를 AI 학습에도 적용해봤다. 그림 보고 규칙 찾기를 전문으로 훈련한 AI와 글자로 계산하기를 전문으로 훈련한 AI를 따로 만들어서 협력하게 했다. 결과는 놀라웠다. 소규모 오픈소스 AI인 Qwen3-8B가 이 방식으로 훈련하자 ARC-AGI에서 13.25% 정답률을 기록했다. 이는 오픈AI의 GPT-4o(8.25%)보다 5%포인트나 높은 점수다. 같은 학습 자료를 글자로만 훈련한 경우보다 3.5%포인트 더 높았다.
연구팀은 이번 연구가 AI가 사람처럼 생각하려면 시각적 직관과 언어적 논리를 함께 써야 한다는 것을 보여준다고 강조한다. 눈으로 전체를 보고 머리로 세부를 계산하는 것, 이것이 사람다운 지능의 비결일 수 있다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. ARC-AGI 시험이 뭔가요?
A1. AI의 논리력을 측정하는 시험이다. 몇 개의 예시를 보고 규칙을 스스로 찾아서 새 문제에 적용해야 한다. 사람은 쉽게 풀지만 AI에게는 매우 어려워서, AI가 얼마나 사람처럼 생각할 수 있는지 보여주는 중요한 척도로 쓰인다.
Q2. 왜 그림과 글자를 번갈아 쓰면 점수가 오르나요?
A2. 그림으로 보면 전체 패턴을 잘 파악하고, 글자로 읽으면 정확한 계산을 잘한다. 규칙 찾기에는 그림이, 규칙 적용에는 글자가 유리해서, 각 단계에 맞는 방식을 쓰면 성능이 올라간다.
Q3. 이 연구가 왜 중요한가요?
A3. AI가 사람처럼 생각하려면 보는 것과 읽는 것을 함께 활용해야 한다는 것을 보여준다. 한 가지 방식만 고집하던 기존 연구의 한계를 넘어서, 더 똑똑한 AI를 만드는 새로운 방향을 제시한다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: Think Visually, Reason Textually: Vision-Language Synergy in ARC
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기



