비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI, 이제 과학 이미지도 전문가처럼 분석... 코넬대가 만든 새로운 AI 프레임워크

2025.01.10. 17:36:36
조회 수
638
16

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

AISCIVISION: A FRAMEWORK FOR SPECIALIZING LARGE MULTIMODAL MODELS
IN SCIENTIFIC IMAGE CLASSIFICATION



과학 연구를 위한 맞춤형 AI 시스템의 등장

코넬 대학교 연구진이 과학 연구에서 AI의 신뢰성과 해석 가능성을 높인 새로운 프레임워크 'AISciVision'을 개발했다. 최근 OpenAI의 GPT, Google의 Gemini, Meta의 Llama 등 대규모 멀티모달 모델(Large Multimodal Models, LMMs)의 등장으로 AI와의 의미 있는 대화가 일상이 되었지만, 의학, 법률, 과학 연구와 같은 전문 분야에서는 더 깊은 도메인 특화 추론이 필요했다. LMM에 내장된 일반 지식만으로는 이러한 전문 분야의 세밀한 전문성을 충족시키기 어렵다는 한계가 있었다.

맥락 학습을 통한 전문성 확보

AISciVision은 LMM의 넓은 맥락 창(context window)을 활용해 인-콘텍스트 학습을 통한 유연한 특화가 가능하다. 풍부한 프롬프트와 특정 작업 관련 맥락을 제공함으로써 LMM이 도메인별 요구사항에 적응할 수 있게 했다. 이는 검색 증강 생성(RAG) 분야의 흥미로운 연구 발전을 이끌고 있다. RAG 기술은 작업별 예시를 검색하여 LMM의 예측을 향상시키고, 맥락을 기반으로 모델의 응답을 세분화함으로써 해당 작업에 특화시킨다.

전문가의 작업 방식을 모사한 혁신적 구조

AISciVision은 시각적 검색 기반 생성(Visual Retrieval-Augmented Generation, VisRAG)과 도메인별 특화 도구를 결합했다. 사용자가 제공한 학습 데이터는 특징 공간에 임베딩되어 긍정 및 부정 클래스 예시가 별도로 구성된다. 분류 도구는 기본적인 이미지 조정부터 위성 이미지 확대와 같은 도메인별 작업까지 포함한다. 추론 시에는 코사인 유사도를 기반으로 훈련 세트에서 가장 유사한 긍정 및 부정 이미지 예시를 검색하여 LMM의 분석 맥락으로 활용한다.

AISciVision은 4단계의 추론 과정을 거친다. 먼저 입력 이미지가 주어지면 VisRAG가 유사한 이미지들을 검색한다. 이후 LMM이 최대 4라운드에 걸쳐 도구들을 선택하고 적용하며 분석을 수행한다. 각 라운드마다 신뢰도 점수를 함께 제공하여 예측의 확실성을 평가할 수 있게 했다. 예를 들어 {Yes:80,No:20}와 같은 형식으로 결과를 표현하여 판단의 근거를 명확히 한다.

external_image

실제 데이터셋에서 입증된 우수한 성능

연구팀은 세 가지 실제 과학 이미지 분류 데이터셋에서 AISciVision의 성능을 검증했다. 첫째로 론도니아 브라질의 양식장 탐지를 위한 799개의 이미지(640×640), 둘째로 워싱턴 주의 잘피 질병 탐지를 위한 9,887개의 이미지(128×128), 마지막으로 태양광 패널 탐지를 위한 11,814개의 이미지(320×320) 데이터셋을 활용했다. 테스트 결과 저표지 데이터 환경(20%)과 전체 레이블 데이터 환경(100%) 모두에서 기존의 완전 감독 학습 모델들과 제로샷 방식을 능가하는 성능을 보였다.

AISciVision은 k-NN, CLIP-ZeroShot, CLIP+MLP 등 여러 베이스라인 모델과 비교 실험을 진행했다. 양식장 데이터셋의 경우 20% 데이터 환경에서 AISciVision이 정확도 0.90, F1 스코어 0.78, AUC 0.95를 기록하며 가장 높은 성능을 보였다. 특히 CLIP-ZeroShot이 양식장 데이터셋에서 F1 스코어 0.0을 기록한 것과 대조적으로, AISciVision은 저표지 환경에서도 안정적인 성능을 보여주었다. 이는 도메인 특화 구조의 효과성을 입증하는 결과다.


도구 활용 분석 결과

연구팀은 각 데이터셋별로 도구 사용 빈도와 정확도에 대한 분석을 실시했다. 모든 데이터셋에서 'MLToolPredict' 도구가 가장 자주 사용되었지만, 단순히 이 도구의 결과에만 의존하지 않는다는 점이 흥미롭다. 양식장 데이터셋의 경우 지리공간 도구들이 높은 빈도로 사용되었으며, 이는 주변 지역의 추가 정보를 얻는 데 도움을 주었다. AdjustBrightness 도구는 거의 사용되지 않았고, HistogramEqualization은 제한적으로 사용되는 등 도구별 활용도의 차이도 관찰되었다.

전문가와 상호작용하는 웹 애플리케이션 구현

AISciVision은 양식업 연구를 위한 웹 애플리케이션으로 실제 배포되었다. 전문가들은 ChatGPT 스타일의 인터페이스를 통해 추론 트랜스크립트와 상호작용하고, 명확한 질문을 하거나 수정/피드백을 제공할 수 있다. 향후 연구에서는 이러한 피드백을 VisRAG에 통합하여 전문가들이 대화하면서 지속적으로 모델을 개선할 수 있도록 할 예정이다.

프레임워크는 각 데이터셋의 특성에 맞는 도구들을 제공한다. 위성 이미지를 다루는 양식장 데이터셋의 경우 확대/축소와 이동 도구를 제공하며, 잘피와 태양광 패널 데이터셋의 경우 대비 조정과 선명도 향상 등 이미지 향상 도구를 제공한다. 이러한 도구들은 도메인 전문가들의 이미지 분석 과정을 모사하여 설계되었으며, 각 추론마다 예측과 함께 자연어 트랜스크립트를 통해 추론 과정의 투명성을 보장한다.


연구의 한계와 향후 과제

LMM을 활용한 추론의 높은 비용은 이 프레임워크의 주요 한계점이다. 연구팀은 실험 비용을 고려해 각 데이터셋당 100개의 테스트 샘플만을 사용했다. 향후 연구에서는 도구 선택을 최적화하고 다른 과학 분야로의 확장 가능성을 탐구할 예정이다. 또한 전문가들의 피드백을 시스템 개선에 효과적으로 활용하는 방안도 연구 중이다.

해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.






AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
[포토] 까부냥, 탈옥하다 게임메카
말로만 명품…청라아파트 피해 주민들, 벤츠 행사장서 보상 촉구 시위 오토헤럴드
제네시스, G80ㆍGV80 ‘8040 프로모션’...1000대 한정 월 40만원대 구매 오토헤럴드
그랜저 출시 40년 축구팬 초청 '현대 풋볼데이 2025 with 그랜저' 오토헤럴드
기아, 연 25만 대 규모 ‘미래형 PBV 생산 허브’ 구축…화성 EVO Plant 준공 (1) 오토헤럴드
메르세데스 벤츠, ‘역대급 신차 전략’… 2027년까지 40종 출시 할 것 오토헤럴드
메르세데스-벤츠, ‘미래 전략 간담회’에서 브랜드 역사상 최대 규모의 신차 전략 공개 글로벌오토뉴스
기아, ‘미래형 PBV 생산 허브’ 구축 글로벌오토뉴스
‘한성자동차’, 미술영재 장학사업 ‘드림그림’, ‘서울디자인페스티벌 2025’ 참가 글로벌오토뉴스
페라리, 1,050마력의 플러그인 하이브리드 슈퍼카 ‘849 테스타로사’ 국내 공개 글로벌오토뉴스
생성형 AI에 대한 사회적 인식 확대… 언론 신뢰와 윤리 논의도 가속 다나와
아마존, 운영 혁신 위한 에이전트형 AI와 로봇 기술 공개… 내부 프로세스 자동화 본격화 다나와
기업의 AI 스케일 확산, 여전히 느린 속도… 실제 적용은 4분의 1 수준 다나와
Moonshot AI, Kimi K2 Thinking 공개… GPT5 능가 주장으로 경쟁 구도 흔들다 다나와
Baidu, ERNIE 5.0 공개… GPT5와 Gemini 2.5 Pro 능가 주장 다나와
데이터 사일로가 AI 도입의 최대 걸림돌로 부상 다나와
인간 들어있냐는 평가 받던 로봇 샤오펑 아이언, 내부 기계 몸체 공개/ 25년 11월 2주차 / [주간 AI 뉴스] (1) 동영상 있음 AI matters
"11월 쇼핑 대전 조기 점화"...다나와, 플스5 등 거래액 최대 264% 증가 다나와
[지스타2025] 네오위즈 산나비 외전 '귀신 씌인날', 단독 부스에 가득찬 인파들 게임동아
[지스타2025] “사진 대기줄까지?” 고퀄 코스프레가 가득한 지스타 현장 게임동아
이 시간 HOT 댓글!
1/4