출처 : TrackingAI
미국 저널리스트인 맥심 로트(Maxim Lott)가 만든 AI 모델 비교 사이트 'Tracking AI'의 대중적 인지도가 높아지고 있다. 이 사이트는 독자적으로 만든 비공개 IQ 테스트와 Mensa Norway가 온라인으로 공개하고 있는 도형 퍼즐형 IQ 테스트를 이용하여 GPT-5 Pro 등 ChatGPT, Claude 4 Opus, Gemini 2.5 Pro, Llama, Mistral 등 대표적인 AI 모델들의 성능을 비교해 보여준다.
IQ 테스트를 통한 성능 비교
Tracking AI에서는 각 모델의 IQ 스코어를 분포도나 랭킹 형식으로 표시한다.
사용된 테스트는 두 종류로 하나는 제작자 로트가 직접 작성한 오프라인 자작 테스트로, AI의 학습 데이터에 포함되어 있지 않은 부분을 강조한다. 다른 하나는 멘사(Mensa Norway)가 제공하는 온라인 IQ 테스트로, 35문의 도형추리 문제를 25분 이내에 푸는 형식이다. 모두 AI의 '추론력'을 가시화하는 지표로 활용되고 있다. 모든 스코어는 최근 7번의 테스트들의 평균으로 채점된다.
출처 : TrackingAI
8월 22일자 랭킹에서는 OpenAI의 GPT-5 Pro(Vision)와 구글의 제미나이 2.5 Pro가 최상위에 위치해 있으며 Claude나 DeepSeek 등도 포함한 스코어의 추이를 시계열로 쫓을 수 있다. 결과는 멘사 온라인 IQ 테스트와 트래킹AI 자작 테스트를 구분해 볼 수도 있으며 각 문제별 정답률과 AI별 해답 이유까지 공개돼 모델 사고 과정을 상세하게 비교할 수 있다.
정치적, 사회적 질문 비교
출처 : TrackingAI
트래킹 AI의 또 다른 특징은 AI모델에 정치적·사회적 테마의 질문을 던져 모델 간 응답을 비교할 수 있다는 점이다. 매일 27개의 질문을 각 AI들에게 던져 그 응답내용을 비교해 보여주며 AI는 '매우 동의/동의/반대/매우 반대' 중 하나를 골라 그에 대한 이유를 설명해야 한다. 또, AI별 응답 결과는 월평균과 당일 응답을 구분해서 볼 수도 있다.
예를 들어 8월 20일 기준 '토지는 사고 팔 수 있는 상품이 되어선 안된다'라는 질문에 대해 GPT-5, 딥시크V3, 빙 코파일럿은 '동의(Agree)'라고 대답한 반면 그록4, 클로드4, 제미나이2.5플래시는 '동의하지 않음(Not Agree)'라는 입장을 나타냈다.
출처 : TrackingAI
이 테스트는 단편적이지만 각 AI의 바이어스(bias)나 사상 경향을 파악할 수 있는 실마리를 제공한다.
또한 사이트에서는 「IQ TEST OF THE DAY」라는 제목의 일일 문제도 제공되고 있다. 각 AI의 답변과 이유가 나란히 게재되고 있어 단순한 스코어 비교에 그치지 않고 추론의 특징을 파악할 수 있는 것이 특징이다.
FAQ를 통해 자신의 본업을 '스토셀 TV(Stossel TV)의 총괄 프로듀서'라고 소개한 맥심 로트는 사이트 제작 이유에 대해 '누구나 AI 챗봇의 최신 정치적 의견과 편견을 즉시 확인할 수 있도록 이 웹사이트를 만들었다'며 트래킹AI가 '사용자에게 사용하는 AI의 이념을 알려주어 우리 모두가 편향성이 덜한 AI, 또는 자신의 철학과 더 가까운 AI로 전환하는 데 도움을 준다'고 밝혔다.
글 / 김지훈 news@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com