비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

[생성 AI 길라잡이] 더 사람 같아진 AI, 'GPT-4o'는 어떻게 다를까?

2024.05.17. 13:33:26
조회 수
598
7
댓글 수
3

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기
※생성 인공지능이 세계를 뜨겁게 달굽니다. 사람만큼, 더러는 사람보다 더 그림을 잘 그리고 글을 잘 쓰는 생성 인공지능. 생성 인공지능을 설치하고 활용하는 방법과 최신 소식을 매주 전합니다.

[IT동아 권택경 기자] 오픈AI가 지난 13일(현지시각) 최신 대형언어모델(LLM)인 ‘GPT-4o’를 발표했습니다. 구글 ‘제미나이’, 앤트로픽 ‘클로드’, 메타 ‘라마’ 등 수많은 LLM이 등장해 경쟁이 치열해지는 와중에 오픈AI가 이번 업데이트로 다시 한 번 기술 격차를 벌리고, 생성 AI 업계 대표이자 선두라는 걸 입증하는 모양새입니다.

GPT-4o의 o는 옴니(Omni)를 뜻합니다. ‘모든’을 뜻하는 라틴어 접두사입니다. 이 말에 걸맞게 글뿐만 아니라 사진, 영상, 음성 등 여러 종류 데이터를 처리할 수 있는 능력인 ‘멀티 모달리티(Multimodality)를 극한까지 밀어붙였습니다. 하나의 AI 모델로 모든 게 가능한 ‘옴니 모델(Omni Model)’이라는 의미가 담긴 이름입니다. 그야말로 만능인 셈입니다.


지난 13일 열린 오픈AI의 GPT-4o의 발표 행사 / 출처=오픈AI
지난 13일 열린 오픈AI의 GPT-4o의 발표 행사 / 출처=오픈AI


이번 발표의 하이라이트라고 할 수 있는 음성 모드가 옴니모델의 특장점을 잘 보여줍니다. 음성 모드는 사람과 대화하듯 챗GPT와 음성으로 대화하는 기능입니다. 이번 GPT-4o의 적용으로 반응 속도가 최소 232밀리초, 평균 320밀리초 수준으로 개선됐습니다. 2~5초 수준이었던 이전 버전들과는 비교하면 환골탈태 수준입니다.

오픈AI의 시연을 보면 마치 인간과 대화하는 듯한 자연스러움을 느낄 수 있는데, 실제로 250밀리초 수준으로 알려진 인간만큼 반응 속도가 빠르기 때문입니다. 이렇게 음성 모드가 빨라진 건 음성을 음성 그 자체로 인식하고 처리할 수 있게 됐기 때문입니다. 이전에는 음성을 텍스트로 바꿔 인식하고, 답변도 텍스트로 생성한 다음 이를 단순 음성 합성으로 읊는 방식이었다고 합니다.


실시간 영상 인식과 음성 기능으로 마치 AI와 영상통화를 하듯 대화할 수 있다 / 출처=오픈AI
실시간 영상 인식과 음성 기능으로 마치 AI와 영상통화를 하듯 대화할 수 있다 / 출처=오픈AI


처리 방식이 바뀌면서 반응 속도만 빨라진 게 아니라 음성에 담긴 톤이나 배경에 섞인 소리도 인식할 수 있게 됐습니다. 반대로 AI가 목소리에 감정을 담거나, 웃거나, 노래를 부르는 일도 가능해졌습니다. 오픈AI가 공개한 시연 영상을 보면 챗GPT가 사용자의 농담에 반응해 웃거나, 자장가를 부릅니다. 두 챗GPT가 서로 자연스럽게 대화를 이어가기도 합니다.

샘 올트먼 오픈AI CEO는 AI와 사랑에 빠지는 영화 ‘그녀(Her)’를 언급하기도 했는데, 영화에나 나올 법한 사람 같은 수준의 AI가 현실이 됐다는 평가도 그리 과장은 아닌 것처럼 느껴질 정도입니다. 이 모든 게 GPT-4o가 텍스트, 화상, 오디오 등 여러 형태의 데이터를 하나의 신경망으로 처리하는 옴니모델이기에 가능한 일입니다.


챗GPT에 태블릿 화면 속 수학 문제를 공유해 AI 과외 선생님처럼 활용할 수도 있다 / 출처=오픈AI
챗GPT에 태블릿 화면 속 수학 문제를 공유해 AI 과외 선생님처럼 활용할 수도 있다 / 출처=오픈AI


속도와 바용도 개선됐습니다. 특히 영어 외 언어에서 토큰(AI 데이터 처리의 최소 단위) 효율이 대폭 개선되면서 처리 능력이 올랐습니다. 한국어도 토큰 효율이 1.7배 개선됐습니다. 같은 양의 한국어 텍스트를 더 적은 토큰으로 처리할 수 있게 됐다는 의미입니다. 그만큼 GPT-4o를 활용하는 앱이나 서비스들의 속도가 빨라지고, 비용도 저렴해집니다. 오픈AI에서는 GPT-4o의 응용 프로그램 인터페이스(API)가 이전 버전인 GPT4-터보와 같은 성능을 더 빠르고 50% 저렴하게 제공한다고 설명합니다.


음성 모드를 사용 중인 오픈AI 개발자/ 출처=오픈AI
음성 모드를 사용 중인 오픈AI 개발자/ 출처=오픈AI


발표와 함께 오픈AI는 우선 GPT-4o의 텍스트와 이미지 기능을 먼저 출시했습니다. 월 20달러(약 2만 7100원)의 유료 서비스 ‘챗GPT 플러스’ 이용자에게만 제공됐던 GPT-4, GPT-4 터보 등과 달리 무료 이용자들도 현재 이용이 가능합니다. 다만 이용 가능한 메시지 수에 제한이 있습니다. 사용량과 수요에 따라 유동적으로 결정됩니다. 유료 이용자는 무료 이용자보다 5배 더 많은 메시지를 이용할 수 있습니다.

다만 아쉽게도 음성 모드는 아직 출시되지 않았습니다. 오픈AI는 앞으로 몇 주 내에 음성 모드 알파 버전을 일부 유료 이용자를 대상으로 순차 출시할 예정이라고 밝혔습니다.

글 / IT동아 권택경 (tk@itdonga.com)

]]>

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 기획뉴스 전체 둘러보기
1/1
[정보/루머] XeSS 3 MFG로 떡상 준비 마친 아크 및 메모리 가격 상승에 따른 혼돈의 일상 등 다나와
S26 미리보기! One UI 8.5 베타 3차, 갤럭시 아이폰 닮아간다? 동영상 있음 주연 ZUYONI
스위스 여름 여행 필수 대자연 스포츠 액티비티 가이드 (1) 트래비
섬 여행 고수가 알려주는 백패킹 꿀팁 모음집 트래비
기대와 우려 공존한 “AI 기본법 시행에 따른 산업 생태계 육성전략 세미나” IT동아
AI 협업툴로 성장성 증명한 플로우, AI 융합과 글로벌 확장에 속도낼 것 IT동아
[모빌리티 인사이트] 자동차를 호화롭게 장식했던 '스크린 터치'의 역설 오토헤럴드
[기자 수첩] 테슬라, 모델 S·X 단종의 의미 '자동차 제조사' 생존 분기점 오토헤럴드
[순정남] 게임사들이 잘 모르는 것 같은 단어 TOP 5 (1) 게임메카
2026 Q1 ASRock 파워서플라이 런칭 세미나 탐방기 쿨엔조이
온보드와 SO-DIMM의 경계가 무너진다, LPCAMM2가 바꾸는 노트북 메모리의 미래 다나와
메모리 가격 폭등 부추기는 공포 마케팅과 대형 PC 제조사들 [메모리 가격 폭등 3부] 동영상 있음 보드나라
로터스 정체성 '미드십 스포츠카' 헤리티지, 유로파에서 에미라까지 오토헤럴드
인텔 코어 울트라 시리즈 3 AI PC의 새로운 이정표, 인텔 2026 AI PC 쇼케이스 블루프레임
차세대 PCIe 5.0 SSD...'키오시아'가 제시하는 미래 스토리지 미디어픽
알프스를 곁에 둔 스위스 골프 여행 트래비
우주로 확장되는 전쟁터, 스타링크 위성통신 역할은 IT동아
인텔 코어 울트라 시리즈 3 등판··· '성능·배터리·무게 다 갖춘 노트북 현실로' (1) IT동아
퓨리오사AI, NPU 'RNGD' 양산 돌입··· '한국 넘어 세계시장 향한다' IT동아
“사람을 연결하는 미래 교육, AI와 에듀테크를 만나다”...제5회 링크(LINK)에서 엿본 미래 교육 현장 IT동아
이 시간 HOT 댓글!
1/4