[IT동아 남시현 기자] 지난 12월 31일, 고석현 사이오닉AI 대표는 “국민 세금이 투입된 프로젝트에서 중국 모델을 복사하여 미세조정한 결과물로 추정되는 모델이 제출된것은 상당히 큰 유감입니다”라는 내용의 글을 링크드인에 올렸다.
업스테이지가 지난 12월 30일 공개한 솔라-오픈-100B 대형언어모델(LLM)이 중국 지푸 AI(Zhipu AI)의 GLM-4.5-Air 모델에서 파생되었다는 주장이다. 업스테이지의 솔라-오픈-100B 모델은 과학기술정보통신부가 진행하는 ‘독자 AI 파운데이션 모델’ 사업의 일환으로 제작된 대형언어모델이며, 5개 정예팀 전체 투입되는 금액은 5년 간 2000억을 넘는다. 막대한 세금으로 제작되는 한국형 AI가 처음부터 자체제작된 것이 아니라 중국 AI를 가공한 것이 아니냐는 것이 의혹의 핵심이다.
업스테이지의 AI 모델, 어떤 점을 놓고 의혹이 제기됐나
발단은 이렇다. 업스테이지는 지난 30일 발표 이후 오픈소스 커뮤니티인 허깅페이스에 솔라-오픈-100B 모델을 업로드했고, 출시 직후 개발자들이 모델을 다운로드해 성능 시험에 들어갔다. 해당 모델은 ‘오픈소스’ 모델인 만큼 누구나 코드를 뜯어서 세부 정보까지 들여다볼 수 있다. 공개 직후 레딧의 몇몇 사용자들은 솔라-오픈-100B의 GLM 아키텍처 코드를 복사해서 붙인 뒤 이름을 바꿨고, MTP 레이어(Multi-Token Prediction)를 제거하는 코드로 흔적이 남았다는 주장을 제기했다. MTP 기능은 여러 개의 미래 토큰을 동시에 예측하는 GLM 계열 언어모델의 핵심 기술이다.
의혹이 제기되는 가운데 고석현 사이오닉AI 대표가 링크드인을 통해 핵심 의혹을 제기했고, 개발자 커뮤니티인 깃헙에 ‘Solar-Open-100B vs GLM-4.5-Air: 가중치 파생 분석’이라는 자체 분석 결과를 업로드했다. 인공지능 모델 내부에는 수조 개의 숫자가 있으며 모델을 학습할 때 쉽게 구분할 수 있도록 데이터에 가중치와 편향을 준다. 이를 LayerNorm 가중치라고 지칭한다. 서로 다른 모델이라면 이 가중치가 비슷할 확률은 매우 낮다.
만약 구조만 비슷한 독립 모델이라면 GLM 모델과 솔라 모델의 코사인 유사도는 0.38 수준으로 나타나야 하지만 1에 가까운 0.989라는 게 고석현 대표의 설명이다. 통계학적으로 수조 개의 숫자에서 이 가중치가 자연적으로 일치할 확률은 불가능에 가깝기에 ‘솔라의 레이어가 GLM의 해당 레이어에서 직접적으로 만들어졌음을 증명한다’는 단서를 달았다. 이외에도 임베딩, 어탠션, 전문가 그룹(MoE)을 재학습했다는 단서를 달았다.
정면 반박 나선 김성훈 대표, 이례적으로 개발 진척도 공개
의혹이 확산하자 김성훈 대표는 링크드인, 페이스북에 의혹에 해명하겠다고 답한 뒤 1월 2일 15시에 온오프라인 발표회를 진행했다. 김성훈 대표가 생각하는 ‘From Scratch’의 정의부터 설명을 시작했다. From Scratch란 ‘아예 처음부터’라는 뜻을 가지는 영어 단어로 AI 모델을 완전히 처음부터 구축했다는 의미를 담는다. 다만 어디서부터 만드는 것을 시작으로 볼 것인가는 학계, 기업, 커뮤니티마다 다르기 때문에 김성훈 대표 본인이 생각하는 From Scratch의 정의부터 설명한 것이다.
업스테이지의 From Scratch 기준은 모델 시작에 앞서 가중치를 랜덤으로 초기화하고 직접 학습하는 것을 기준으로 본다. 모델 구조는 허깅페이스에 업로드된 MoE(전문가그룹) 기반 표준 오픈소스를 활용하고, 모델을 불러오는 과정 등을 담은 인퍼런스 코드도 구조에 따라 사용할 수 있지만 데이터 자체를 직접 구축했다면 자체 구축으로 본다는 시각이다. 허깅페이스 상의 코드나 구조를 사용해도 자체 구축으로 보는 이유는 최근 LLM 구조가 글로벌로 표준화하고 있어 업스테이지 이외에도 거의 모든 기업이 비슷한 구조와 인퍼런스 코드로 돼있다.
이어서 WandB(웨이츠&바이아시스)에 기록된 솔라-오픈-100B의 체크포인트를 공개했다. 체크포인트는 모델을 개발한 값을 웨이츠&바이아시스 서버에 저장하는 기록 시점이다. 아울러 WandB에 저장된 학습 중 손실(Loss) 그래프도 제시했다. 손실 데이터는 AI의 학습 목표기준의 손실이 어느 정도인지를 나타내는 그래프로 데이터가 거의 없는 초기에는 오답률이 높고 시간이 지날수록 오답률이 낮아지는 것을 알 수 있다.
현장에서는 해당 그래프를 확대해 솔라-오픈-100B의 오류율을 세세하게 보여주었으며, 데이터가 얼마나 많이 투입되었는지를 확인할 수 있는 토큰 관련 그래프도 제시했다. 데이터를 중간에 추가했거나 다른 AI 모델을 활용했을 경우 WandB의 Loss, 토큰 그래프가 일관적인 형태로 구성되지 않는데, 형태 측면에서는 꾸준히 데이터가 투입되었음을 보여준다. Loss 그래프의 경우 AI의 학습 안정성과 학습 속도, 학습 난이도, 데이터 품질 등을 추정할 수 있어서 일반적으로 공개하지 않으나 예외적으로 직접 데이터를 시작부터 학습했음을 입증하기 위해 이례적으로 공개했다.
업스테이지가 판단한 오류의 이유는?
처음부터 솔라-오픈-100B를 개발했음을 입증한 이후에는 세간에서 제기한 의혹들을 하나하나 반박했다. 김성훈 대표는 “의혹의 핵심은 다른 모델과 유사하다는 것인데 100B 모델에서 0.000387%가 유사하다. 나머지 부분은 이상이 없어서 재학습이라는 표현을 썼는데 사실 0.0004%에 해당하는 부분도 전혀 같지 않다”라며 설명을 시작했다.
앞서 고 대표는 코사인 유사도(Cosine Similarity)를 기반으로 GLM과 솔라-오픈-100B의 LayerNorm이 98.9% 유사하다고 해석했는데, 코사인 유사도를 기준으로 하면 메타 라마 3-8B나 파이-3.5 MoE Instruct 등 다른 비교군에서도 99%의 유사도가 나온다고 지적했다. 코사인 유사도는 벡터가 가리키는 방향의 일치도만 보며 상관관계나 분포를 제대로 반영하지 못한다. 또 LayerNorm 파라미터는 1.0 근처에서 학습이 시작되고 유지되어서 다른 모델을 비교해도 유사도가 높다.
이와 관련해 조경현 뉴욕대학교 교수는 “특히 정규화 레이어(normalization layers)의 경우, 사람들이 파라미터를 초기화하는 사실상의 표준(de facto standards)이 존재한다. 따라서 두 레이어를 비교할 때는 (상수로 이동된) 코사인 유사도보다는 피어슨 상관계수를 사용하는 것이 합리적이다”라는 댓글을 남겼다. 피어슨 상관계수를 사용해 비교할 경우 유사도가 0에 가깝다.
쉽게 말해 LayerNorm의 초기 데이터는 1.0 근처에 몰려있고, 이 상태로 비교하면 어떤 모델이든 유사하다는 결론이 나온다. 달리기를 할 때 모두가 같은 출발선에 서서 정면으로 가는데, 시작점과 출발 방향만 보고 비교해 ‘유사하다’는 결론을 내린 셈이다. 여기에 피어슨 상관계수를 사용하면 각 데이터에서 평균값을 빼고 데이터를 중심점으로 옮긴 뒤 유사도를 측정하므로 데이터의 패턴과 흐름을 비교할 수 있다. 이렇게 계산했을 때 솔라-오픈-100B와 GLM은 완전히 다른 모델이라는 결론이 나온다.
토크나이저, 라이선스, 아키텍처까지 조목조목 반박
이어서 LayerNorm 유사성과 함께 제기된 다른 의혹들에 대해서도 조목조목 반박했다. 토크나이저는 사람의 언어를 모델이 이해할 수 있는 숫자로 변환해 주는 장치인데, GLM 토크나이저의 151K에 45K만 구가해 196K로 만들었다는 의혹이다.
김성훈 대표는 “완전히 새로 만들었다. GLM의 토크나이저와 솔라-오픈의 토크나이저는 40%에 해당하는 80K만 겹친다. 유사 계열의 모델이라면 70% 이상이 겹쳐야 한다”라고 말했다. 토크나이저는 모델이 글자를 읽는 방식이자 규칙인 데다가 GLM과 솔라-오픈-100B는 언어 체계 자체가 달라서 45K만 추가해서 완성했다는 것은 이치에 맞지 않다.
GLM과 모델 구조가 흡사한 게 아니냐에 대해서는 “LLM 생태계에서 트랜스포머 MoE 구조는 사실상 표준이고, LLM 서빙 생태계를 확보하려면 이 구조가 비슷해야 한다. 인퍼런스 코드 일부가 유사하긴 해도 동일하진 않고 레이아웃도 다르다. 이는 상호호환성을 고려한 LLM 오픈소스 생태계 교류의 결과라고 할 수 있다”라고 말했다. 거의 모든 LLM이 비슷한 구조라서 자연스러운 현상이라는 의미다.
이어서 솔라-오픈-100B와 GLM-4.5-에어, GPT-OSS-120B의 아키텍처를 놓고 동작 방식에 대해 설명했다. 김성훈 대표는 “처음에 학습한 것은 GPT-OSS인데 이 역시도 표준 형태라서 GLM이나 큐웬(Qwen)이나 다 비슷하다. 대신 모델 안에서 레이어나 가중치의 크기, 숫자 등등이 세세하게 다르다. GLM의 경우 앞단에 댄스 레이어(Dense Layer)가 있는데 우리 모델에서는 큰 차이가 없어서 제외했다”라면서 “참고는 했지만 굉장히 상이한 구조다. 건물로 비교하면 층수만 같은데 내부 구조나 형태가 모두 제각각인 것과 같다”라고 말했다.
“라이선스 업데이트 늦은 점은 실수··· 조건은 정부 요건에 충족”
인퍼런스 코드 관련 라이선스를 논란 이후에 업데이트 한 이유는 “우리 인퍼런스 코드는 허깅페이스 라이브러리의 일부고, 여기에 하이브리드 MoE 등을 넣어서 개량했다. 그리고 누구나 사용할 수 있도록 하자는 취지에서 아파치 라이선스로 업로드하기도 했었다”라면서 “그런데 독자 AI 파운데이션 사업으로 12월 31일까지 모델을 올리는 과정에서 모델에 우선하다 보니 라이선스에 대해 신경 쓰지 못했다”라고 말했다. 또 벤치마크 성능도 공개되지 않은 점도 독자 AI 파운데이션 일정상1월 4일 이후에 올리는 일정이었음을 밝혔다.
결론적으로 “업스테이지는 스타트업이라서 From Scratch로 만들 자금력이 부족했지만, 국가 프로젝트를 통해 From Scratch 모델을 만들고 있다. 앞서 솔라 프로 2는 미스트랄 모델을 기반으로 해서 From Scratch 라고 볼 수 없다. 하지만 독자 AI 파운데이션 모델은 From Scratch로 만들자는 취지여서 그렇게 만들고 있다”라면서, “지금까지 구축한 부분은 정부 요건에 충족한다고 생각하며 정부 관계자 및 전문가들이 판단할 영역”이라고 말했다.
“의혹은 제기할 수 있지만, 실수였을 때 인정해야 좋은 선순환”
모든 의혹이 깔끔히 해소된 뒤 김성훈 대표는 “저도 실수를 많이 하고, 통계를 낼 때 서로 실수할 수 있다. 그것으로 의혹도 제기할 수 있지만 이것이 실수라고 밝혀졌을 때 그것을 인정한다면 좋은 선순환을 만들어낼 수 있을 것이라 생각한다”라면서 완곡하게 사과를 요청했다.
고석현 대표 역시 3일 정오쯤 링크드인을 통해 “공론화하는 과정에서 저희의 문제제기가 갑작스럽게 받아들여져 당혹스러우셨을 업스테이지 대표님과 관계자 여러분, 그리고 업계 종사자분들께 심심한 사과의 말씀을 올린다”라면서 “이번의 문제제기는 건강한 토론과 검증 과정을 통해 대한민국을 대표할 수 있는 파운데이션 모델 생태계를 성숙시키는 데 미력하나마 이바지하고자 하는 문제의식에서 비롯되었다”는 단서를 달았다.
이후 이활석 CTO는 링크드인을 통해 “독자 AI 파운데이션 모델에서 가장 위기의 순간은 모델 복제 의혹이 있던 며칠보다 엔비디아 B200 2노드에서 잘 나오던 학습 속도를 올렸을 때 예상보다 속도가 많이 저하되어 학습할 수 없었던 9월 초”라는 소외를 남기며 사실상 사건이 봉합되었음을 밝혔다.
의심은 종종 지혜의 시작이지만, 확실한 증명 전제해야
2023년 초, 구글의 핵심 연구원이었던 제이콥 데블린(Jacob Devlin)은 구글이 오픈AI의 챗GPT 답변 데이터를 활용해 바드를 학습시키고 있다는 우려를 제기한 뒤 사임했다. 대화 내용을 공유하는 플랫폼인 셰어GPT(ShareGPT)에 사용자들이 대화내용을 업로드했는데, 구글 바드 개발팀이 이 내용을 학습에 쓴다는 의혹이 나온 것이다. 구글은 꾸준히 답변을 거부했지만 ‘현재는 안쓴다’는 식으로 부인하면서 사실상 사용했다는 분위기가 됐다. 자존심을 구긴 구글은 언어모델 이름을 바드에서 제미나이로 변경하고, 독자 개발한 반도체(TPU)까지 활용한 끝에 지금은 오픈AI보다 좋은 평가를 받고 있다.
위 사례로 볼 때 건전한 지적과 수용은 산업을 올바른 길로 이끄는 원동력이 된다. 특히 AI는 데이터의 유효성과 기준이 모호하고, 많은 기업들이 기술을 공유하고 있어서 철저한 검증이 필요하다. 세금이 투입되는 사업이라면 가능한 많은 사람들이 검증하고 확인하는 과정이 필요하다. 하지만 고석현 대표의 경우 자신이 연구한 내용을 검증하지 않은 상태에서 추측이 아닌 확신으로 이의를 제기했고, 이 때문에 자칫 선의의 피해자가 나올 수 있었다. 사전에 연락해서 내용을 확인해 보거나 교차검증을 진행한 뒤에 이의를 제기했으면 어떨까 하는 아쉬움이 남는다.
이번 사건은 크게 두 가지 교훈을 남긴다. 독자 AI 파운데이션 사업은 관련 지식을 가진 학계, 공학자, 개발자를 비롯한 국민 모두가 지켜보고 있다. 소수의 이익이 아닌 모두의 이익에 부합해야 하는 이유다. 따라서 업스테이지 이외에도 다른 컨소시엄의 해당 기업들도 철저한 검증이 필요하며, 이를 정식 과정으로 만드는 노력이 필요하다. 또한 시장신뢰 전반에 관계된 문제라면 가능한 정확하게 문제를 제기해야 한다. 이번 사건을 통해 우리나라 AI 시장 신뢰가 굳건해지는 계기가 되기를 바란다.
IT동아 남시현 기자 (sh@itdonga.com)








