
출처 : 제미나이 생성 이미지
컬럼비아대와 스탠퍼드대 연구진은 2025년 11월, 뇌의 신경 활동을 직접 텍스트로 변환하는 AI 프레임워크 ‘BIT(BraIn-to-Text)’를 발표했다. 이 기술은 실제 입 밖으로 내지 않은 ‘내적 발화(inner speech)’까지 일정 수준에서 문장으로 변환할 수 있는 것이 특징이다.
연구팀은 뇌 활동 신호를 분석하는 트랜스포머 기반 인코더와 대규모 언어 모델(LLM)을 하나의 엔드투엔드(End-to-End) 구조로 결합해, 기존처럼 ‘음소→단어’ 단계를 거치지 않고 곧바로 문장을 생성할 수 있게 했다.

BIT(BraIn-to-Text) 프레임워크의 전체 구성
뇌에 내장 된 전극에서 얻은 신경 활동을 AI가 처리하고 문장으로 최종 출력할 때까지의 흐름
(출처 Decoding inner speech with an end-to-end brain-to-text neural interface)
학습에는 사람과 원숭이의 뇌 활동 데이터 약 367시간 분량이 사용됐다. 그 결과 단어 인식 오류율(WER)은 기존 유사 시스템의 24.69%에서 10.22%로 절반 이상 낮아졌다. 여러 모델을 함께 쓰는 앙상블 방식에서는 2024년 벤치마크 5.10%, 2025년 벤치마크 2.21%까지 개선되며, 관련 분야 최고 수준의 정확도를 기록했다.
또한 연구진은 실제로 말을 하려는 ‘시도 발화’뿐 아니라, 머릿속으로만 단어를 떠올리는 ‘상상 발화’ 데이터에서도 해독이 가능하다는 점을 확인했다. 이는 내적 발화와 실제 발화가 유사한 의미 구조를 공유한다는 점을 AI가 학습해 활용했기 때문이다.

음성 LLM과의 비교 - 뇌 활동의 문장화에 적합한 모델
복수의 음성 및 텍스트 LLM을 비교, 어떤 모델이 뇌 활동으로부터의 문장 생성에 적합한가를 묘사
(출처: Decoding inner speech with an end-to-end brain-to-text neural interface)
해당 기술은 ALS나 뇌손상 환자처럼 발화가 어려운 사람들의 의사소통을 돕는 도구로 큰 가능성을 갖는다. 다만 연구에는 뇌에 삽입하는 침습형 전극(Utah Array)이 사용됐으며, 내적 사고를 해독한다는 점에서 윤리적 우려도 제기된다. 연구팀은 “당사자의 명확한 동의 없는 ‘독심술’적 사용은 허용될 수 없다”고 강조했다.
향후 연구진은 전극의 장기 안정성과 신경 신호 변화에 대한 적응, 에너지 효율 개선 등을 통해 실제 임상 적용이 가능한, 더 유연한 뇌-컴퓨터 인터페이스(BCI) 개발을 목표로 하고 있다.
글 / 김지훈 news@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com





