출처 : 구글리서치 블로그
예일대와 구글 딥마인드 연구진이 인공지능 언어모델(LLM)을 세포 생물학 연구에 접목한 새로운 AI 시스템 ‘C2S-Scale’을 공개했다. 이 모델은 단일세포 유전자 데이터를 언어처럼 해석하고, 생명 현상의 원리를 자연어로 설명하거나 예측할 수 있는 차세대 생명과학 플랫폼으로 평가받고 있다.
단일세포 RNA 분석 기술은 이미 각 세포가 가진 유전자 발현 패턴을 세밀하게 측정해 세포 간 차이를 이해하는 핵심 도구로 자리 잡았다. 그러나 기존의 AI 모델들은 이 방대한 데이터를 효율적으로 해석하거나 다양한 생물학 정보를 통합하는 데 한계가 있었다.
연구팀은 이 문제를 해결하기 위해, 세포의 유전자 발현 결과를 ‘셀 센턴스(Cell Sentence)’, 즉 유전자 이름을 문장처럼 배열한 형태로 바꾸어 언어모델이 학습할 수 있게 했다. 마치 문장을 읽듯 세포의 유전 정보를 해석하도록 설계한 것이다.
출처 : 구글리서치 블로그
C2S-Scale은 사람과 생쥐에서 추출한 5천만 개 이상의 세포 데이터와 생물학 논문, 실험 메타데이터를 함께 학습해 총 270억 개 매개변수를 지닌 초대형 모델로 완성됐다. 그 결과 세포 유형 분류, 조직 특성 예측, 약물 반응 예측 등 다양한 생물학적 과제에서 기존의 전문 모델(scGPT, Geneformer 등)이나 GPT-4 같은 범용 AI보다 높은 정확도를 보였다. 특히 연구팀은 강화학습(RL) 기법을 적용해 모델이 스스로 실험적 조건을 조정하며 더 생물학적으로 타당한 결과를 내도록 만들었다.
출처 : 구글리서치 블로그
가장 흥미로운 결과는 ‘가상 면역 반응 실험’이었다.
연구진은 C2S-Scale을 활용해 특정 면역 환경에서 항원 제시를 촉진할 수 있는 약물을 탐색했고, 그 결과 기존에 보고되지 않았던 실미타세르티브(Silmitasertib)라는 약물이 저농도의 인터페론(IFN) 조건에서 항원 제시 경로를 강화한다는 예측을 도출했다. 이후 실제 인간 세포를 이용한 실험에서도 이 효과가 재현돼, AI가 완전히 새로운 생물학적 가설을 ‘발견’한 셈이 됐다.
연구진은 “C2S-Scale은 세포 데이터를 언어로 표현함으로써 생명과학의 복잡한 패턴을 인간이 이해할 수 있는 형태로 풀어낸다”며, “향후 단백질·임상·유전 정보를 통합하면 개인 맞춤 치료나 신약 개발 과정이 획기적으로 바뀔 것”이라고 전망했다. 이번 연구는 2025년 10월 10일 공개된 생명과학 사전출판 플랫폼 bioRxiv에 게재됐다.
글 / 김지훈 news@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com