비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

"눈으로 보고, 글로 계산"… AI 추론 능력 끌어올리는 해법 찾았다

2025.11.27. 17:16:12
조회 수
47

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

인공지능이 사람처럼 생각하려면 무엇이 필요할까. 중국 홍콩중문대학과 상하이AI연구소 공동 연구팀이 AI의 논리력을 측정하는 대표적인 시험인 ARC-AGI에서 '이미지 보기'와 '글자 읽기'를 적절히 조합해 기존 방식보다 최대 7.25%포인트 높은 점수를 기록했다. 이 시험은 GPT-5, Grok 4 같은 최신 AI도 절반 이상 틀리는 난제로 알려져 있다.

사람은 97점, AI는 50점도 어려운 'IQ 테스트'

ARC-AGI는 2019년 프랑수아 숄레(François Chollet)가 만든 AI용 논리력 시험이다. 몇 개의 예시만 보고 규칙을 찾아낸 뒤, 그 규칙을 새로운 문제에 적용해야 한다. 사람에게는 쉬운 편이어서 정답률이 97%를 넘지만, 최신 AI조차 50%를 넘기기 어렵다. 지금까지 대부분의 연구는 이 시험을 '글자 문제'로 취급했다. 색깔 격자판을 [[0,1,2],[3,4,5]] 같은 숫자 목록으로 바꿔서 AI에게 읽히는 방식이다. 하지만 사람은 이런 퍼즐을 풀 때 그림으로 본다. 색깔이 칠해진 격자판을 눈으로 보면 대칭이나 회전 같은 패턴이 바로 보이지만, 숫자 나열만 읽어서는 이런 규칙을 찾기 어렵다.

그림만 보여주면 오히려 점수가 떨어지는 이상한 현상

해당 논문에 따르면, 연구팀이 처음 시도한 방법은 단순했다. 숫자 대신 색깔 격자판 이미지를 AI에게 보여주는 것이었다. 그런데 놀랍게도 점수가 더 떨어졌다. 왜 그랬을까? 이미지로 보면 전체 모양은 잘 파악하지만, 특정 칸의 정확한 값을 찾는 데는 서툴렀다. 예를 들어 20칸×20칸짜리 격자에서 (5, 7) 위치의 색깔이 뭔지 물으면, AI가 옆 칸과 헷갈려하는 경우가 많았다. 반면 숫자 목록으로 읽으면 정확한 위치의 값은 잘 찾지만, 전체적인 패턴을 놓치기 쉬웠다.

연구팀은 여기서 중요한 사실을 발견했다. 그림 보기와 글자 읽기는 각각 잘하는 영역이 다르다는 것이다. 오픈AI(OpenAI)의 o4-mini 모델로 실험한 결과, 규칙을 찾을 때는 그림을 보여주면 점수가 3.0%포인트 올랐지만, 규칙을 적용할 때는 그림을 쓰면 오히려 20.5%포인트나 점수가 떨어졌다.

규칙 찾을 땐 그림, 계산할 땐 글자 쓰는 새로운 방법

연구팀은 이 발견을 바탕으로 두 가지 새로운 방법을 만들었다. 첫 번째는 VLSR(시각-언어 시너지 추론)이다. 이름은 어렵지만 원리는 간단하다. 문제를 두 단계로 나눈다. 먼저 예시들을 색깔 격자판 이미지로 보여주면서 "어떤 규칙으로 바뀌었는지 찾아봐"라고 시킨다. AI는 그림을 보면서 "아, 모든 도형이 시계 방향으로 90도 돌아갔구나" 같은 전체적인 패턴을 파악한다. 그 다음에는 숫자 목록을 주면서 "방금 찾은 규칙대로 이 숫자들을 바꿔봐"라고 시킨다. 이렇게 하면 AI가 각 칸의 값을 정확하게 계산할 수 있다.

두 번째는 MSSC(모달리티 전환 자기수정)다. AI가 답을 낸 뒤에 스스로 검토하게 하는 방법인데, 여기서도 방식을 바꾼다. 글자로 답을 계산했으면, 검토할 때는 그 답을 그림으로 바꿔서 예시 그림들과 비교해본다. 같은 방식으로만 검토하면 자기 실수를 못 찾는 경우가 많은데, 다른 방식으로 보면 틀린 부분이 눈에 띄기 쉽다.


구글 제미나이 7.25%p, 오픈AI o4-mini 4.5%p 점수 상승

실험 결과는 인상적이었다. 구글(Google)의 Gemini-2.5-Pro 모델에 이 방법을 적용하자 정답률이 7.25%포인트 올랐고, 오픈AI의 o4-mini 모델은 4.5%포인트 상승했다. GPT-4o, Qwen3-VL 등 다양한 AI 모델에서 평균 4.33%포인트의 개선 효과가 나타났다. 특히 눈에 띄는 건 자기수정 효과의 차이다. 글자로만 답을 내고 글자로만 검토하는 기존 방식으로는 GPT-4o가 3번 검토해도 0.5점밖에 안 올랐다.

하지만 MSSC 방식으로 그림과 글자를 번갈아 쓰면서 검토하니 3.75점이나 올랐다. 연구팀은 이 차이가 관점 전환에서 온다고 설명한다. 글자로 계산한 답을 그림으로 바꿔 보면, 글자만 볼 때는 몰랐던 공간적 오류가 눈에 들어온다.


소규모 AI도 거대 AI를 이기는 방법

연구팀은 이 원리를 AI 학습에도 적용해봤다. 그림 보고 규칙 찾기를 전문으로 훈련한 AI와 글자로 계산하기를 전문으로 훈련한 AI를 따로 만들어서 협력하게 했다. 결과는 놀라웠다. 소규모 오픈소스 AI인 Qwen3-8B가 이 방식으로 훈련하자 ARC-AGI에서 13.25% 정답률을 기록했다. 이는 오픈AI의 GPT-4o(8.25%)보다 5%포인트나 높은 점수다. 같은 학습 자료를 글자로만 훈련한 경우보다 3.5%포인트 더 높았다.

연구팀은 이번 연구가 AI가 사람처럼 생각하려면 시각적 직관과 언어적 논리를 함께 써야 한다는 것을 보여준다고 강조한다. 눈으로 전체를 보고 머리로 세부를 계산하는 것, 이것이 사람다운 지능의 비결일 수 있다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. ARC-AGI 시험이 뭔가요?

A1. AI의 논리력을 측정하는 시험이다. 몇 개의 예시를 보고 규칙을 스스로 찾아서 새 문제에 적용해야 한다. 사람은 쉽게 풀지만 AI에게는 매우 어려워서, AI가 얼마나 사람처럼 생각할 수 있는지 보여주는 중요한 척도로 쓰인다.

Q2. 왜 그림과 글자를 번갈아 쓰면 점수가 오르나요?

A2. 그림으로 보면 전체 패턴을 잘 파악하고, 글자로 읽으면 정확한 계산을 잘한다. 규칙 찾기에는 그림이, 규칙 적용에는 글자가 유리해서, 각 단계에 맞는 방식을 쓰면 성능이 올라간다.

Q3. 이 연구가 왜 중요한가요?

A3. AI가 사람처럼 생각하려면 보는 것과 읽는 것을 함께 활용해야 한다는 것을 보여준다. 한 가지 방식만 고집하던 기존 연구의 한계를 넘어서, 더 똑똑한 AI를 만드는 새로운 방향을 제시한다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Think Visually, Reason Textually: Vision-Language Synergy in ARC

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
[오늘의 스팀] 간만의 무협 수작, 연운 ‘매우 긍정적’ 게임메카
엔트런스 ‘DK모바일 리본’, 플레이 중심의 경제 서버 ‘번영의 월드’ 사전예약 시작 게임동아
글로벌 돌풍 ‘메이플 키우기’, 첫 번째 업데이트 '신규 파티 퀘스트' 진행 게임동아
어둠의전설, ‘나겔링탑 확장’ 업데이트 실시 게임동아
‘테일즈위버’. 신규 챕터 외전 6 Part.2 업데이트 게임동아
배그와 배그 모바일, 태국에서 e스포츠로 전격 컬래버 게임메카
"기술에서 친구로" 고독·고립 시대 빈자리 채우는 AI 컴패니언 앱 IT동아
"오픈AI 피싱 메일 주의"… 오픈AI, 해킹으로 API 사용자 정보 유출 (1) AI matters
"눈으로 보고, 글로 계산"… AI 추론 능력 끌어올리는 해법 찾았다 AI matters
"여기 어디야?" 사진 한 장에 위치 맞추는 AI 등장… 간판, 건물 모양, 표지판 분석해 장소 찾는다 AI matters
건설 현장 사망사고 20%가 '추락'… AI가 안전모 미착용까지 잡아낸다 (1) AI matters
오픈AI, 10대 자살 소송에 "이용약관 위반한 이용자 책임" 반박… 논란 가열 AI matters
"효율화"라는 이름의 칼바람… 테크 업계, AI·자동화 도입으로 2025년 월 2천~2만명대 감원 (1) AI matters
오픈AI "기업 데이터, 원하는 국가에 저장하세요"… 한국 포함 10개국에 ‘데이터 레지던스’ 서비스 시작 (1) AI matters
엔비디아 CEO "AI 덜 쓰라고? 제정신이야?"… 내부 회의 녹음 유출 AI matters
현대차 싼타페 '필요한 순간 작동 멈추는 후방카메라' 14만 대 리콜 (1) 오토헤럴드
기아, 국내 최초 일반 도로 원격 운전 성공 '70시간, 1000km 사전 주행' (1) 오토헤럴드
내가 줄인 탄소, 왜 정부가 가져가나… 전기차 배출권 논쟁 글로벌오토뉴스
기아, 국내 최초 일반 도로 원격 운전 실증 성공 글로벌오토뉴스
‘내맘대로 지구별’ 16주년 생일 맞아 ‘16주년 대축제’ 시작 (1) 게임동아
이 시간 HOT 댓글!
1/4