비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

LG AI연구원, 이미지를 문장으로 변환하는 AI 공개[AWS 리인벤트 2023]

2023.11.30. 10:16:17
조회 수
325
댓글 수
2

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

[IT동아 남시현 기자] LG그룹의 인공지능 연구 허브인 LGAI 연구원이 AWS 리인벤트 2023에서 이미지를 텍스트로 전환하는 인공지능 기술을 선보인다. 또한 엑사원 2.0을 추후 아마존 베드록으로 마이그레이션(전환)하는 등 인공지능 분야에서 다각적으로 협력한다. 그간 프롬프트(명령어)를 입력해 텍스트를 메시지로 만들거나, 텍스트를 동영상으로 만드는 기술 등을 선보인 사례는 많지만, 이번 기술은 상업 및 기업용 용도로 이미지를 텍스트로 전환하는 기술이라는 점에서 차이가 있다.

새로운 인공지능 기술은 3천억 개의 매개변수를 갖춘 LG AI연구원의 멀티모달 기반 모델인 엑사원(EXAONE)을 활용하며, 인간의 인지 능력과 유사하게 이전의 경험과 지식, 훈련을 바탕으로 본 적 없는 객체나 장면을 자동으로 이해하고 설명한다. 사람이 어떤 이미지를 능동적으로 설명하고 소개하는 것과 유사한 개념으로 설명한다.

LG AI연구원이 만든 이미지 투 텍스트를 사용해 사진을 문장으로 변환한 결과 / 출처=LG AI연구원

동작 환경은 한국어와 영어로 된 이미지와 텍스트를 이해하며, 이를 실현하기 위해 LG AI연구원은 AWS의 완전관리형 AI 서비스인 세이지메이커를 사용해 약 3억 5천만 개의 고해상도 이미지와 텍스트를 학습시켰다. LG AI 연구원은 지난 2022년 CVPR(컴퓨터 비전과 패턴 인식 콘퍼런스)에서 해당 기능을 처음 선보였으며, 1년 간 완성도와 상업성을 가다듬어 아마존 세이지메이커 점프스타트를 통해 제공하게 됐다.

이미지 텍스트화, 언어의 장벽 넘는 도구 될까

도입 배경에 대해 이화영 LG AI연구원 상무는 “미국에서는 장애를 이유로 하는 차별을 명확하고 포괄적으로 금지하기 위한 법률이 있다. 따라서 시각 장애인이 사내 자산인 이미지 등을 구분할 수 없으면 권리 보호를 위해 폐기해야 한다. 이런 경우에 이미지를 텍스트로 만드는 기술을 도입하면 애써 만든 자산을 폐기하지 않고 계속 사용할 수 있다”라면서, “기업에 따라 다르지만 최대 수백만 달러까지 비용을 절감할 수 있다는 예측이 나오고 있다”라고 덧붙였다.

미국 네바다 주 라스베이거스에서 열리는 AWS 리인벤트 특성상, 인터뷰는 화상 회의로 진행됐다 / 출처=IT동아

이어서 “LG전자만 하더라도 전 세계에 100개가 넘는 법인이 있다. 각 법인에서는 사진 등의 결과물을 라이브러리로 보관하는데, 언어 체계가 다르다 보니 데이터를 공유하고 확인하는데 한계가 있다. 이 기술을 활용하면 언어가 다르더라도 비교적 쉽게 타 법인의 자산을 확인할 수 있어서 전반적인 콘텐츠 비용도 낮출 수 있다”고 덧붙였다.

그렇다면 GPT처럼 이미지를 설명해 주는 기존 AI와는 어떻게 다를까. 이화영 상무는 “GPT의 경우 이미지를 장황하고 세부적으로 설명하지만, 시간이나 속도 측면에서 느리고 또 틀린 내용도 유입된다”라면서, “반면 이미지 투 텍스트 변환 솔루션은 특수 목적으로 용도를 지정할 수 있고, 장애인이 이해하기 쉬운 용어들을 쓴다. 또 여러 번 생성해 정확도 순위를 매기는 식으로 품질을 높이는 알고리즘이 적용돼 환각 현상도 적다”라고 설명했다.

아마존 세이지메이커 점프스타트에 업로드돼있는 이미지 투 텍스트 모델 / 출처=AWS

소비재기업, 마케팅 에이전시 등 LG AI연구원의 고객사는 AWS의 확장성을 활용해 시간당 최대 2000장의 이미지에 설명글을 달 수 있으며, 또 현장에서 별도로 고도화 작업을 거치지 않고 그대로 사용할 수 있다. 이화영 상무는 “이미 건설 현장 안전점검용 드론으로 촬영한 이미지를 텍스트로 변환해 문제점을 확인한다거나, 장애물이 확인되는 등의 용도로 쓸 수 있음을 확인했다”라는 설명을 추가했다.

AWS와의 협업, 더 큰 그림 그리는 LG AI연구원

마지막으로 이화영 상무는 앞으로 AWS와 더 많은 부분에서 협력할 뜻을 내비쳤다. 이화영 상무는 “AWS의 인공지능 생태계는 사용자 중심적이다. 세이지메이커만 하더라도 학습부터 배포까지 일괄로 편리하게 작업할 수 있다. 이런 시각은 LG그룹이 추구하는 바와 뜻이 맞기 때문에 앞으로도 협력할 예정이다”라면서, “추후에는 엑사원 2.0을 아마존 베드록으로 마이그레이션하고, LG 계열사뿐만 아니라 B2B 파트너사들도 같이 쓰는 방식 등에 대해서도 고려하는 중”이라고 말했다.

글 / IT동아 남시현 (sh@itdonga.com)

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 기획뉴스 전체 둘러보기
1/1
[IT하는법] 안경 없어도 시야 확보하는 '접근성 돋보기' (1) IT동아
국내 최대 원메이크 레이스 ‘현대 N 페스티벌’ 개막... TCR과 공동 개최 (1) 오토헤럴드
에디터가 추천하는 일본 사가 료칸&호텔 (2) 트래비
더 아남 무이네, 베트남 무이네에 내려앉은 품격 (1) 트래비
A Fine Vintage, 여행자의 기념품 트래비
[순위분석] 건담 윙 달고 천상계 도약한 오버워치 2 (1) 게임메카
[기승전결] 간만에 등장한 국산 좀비 '다키스트 데이즈' (2) 게임메카
이어폰 없이 혼자만 소리를 들을 수 있다? 과학향기
日보다 높은 자동차 생산 인건비, 韓 우수한 엔지니어링과 자동화로 통제 오토헤럴드
[MBTI] 2025 Ver.  MBTI별 추천 여행지 (3) 트래비
맛으로 가득찬 실크로드, 프랑스 리옹 (2) 트래비
폭삭 속았수다, 제주 (2) 트래비
Travie 20th Anniversary | 20년 전,  그땐 그랬지 (1) 트래비
거룩한 땅 '칠곡' 순례 여행 (2) 트래비
롤스로이스 팬텀 100주년 "권력과 부 그리고 문화와 예술, 리더의 상징" (1) 오토헤럴드
출시전략 바뀐 아이폰, 돌아온 엑시노스 등 지금 주목해야 할 IT 루머 총정리 (9) 다나와
[겜덕연구소] 집에서 총으로 탕탕탕! 남자의 로망, 건콘 게임에 대해 살펴보자!! (3) 게임동아
라데온 RX 9060 XT 8GB 출시 강행설 및 엔비디아 지포스 RTX 50 슈퍼 준비 소식 등 (11) 다나와
[포토] 세이렌의 매력이 가득한 니케 2.5주년 행사 현장 (3) 게임메카
[매장탐방] ‘클레르 옵스퀴르’ 찾아 헤매는 구매 원정대 (2) 게임메카
이 시간 HOT 댓글!
1/4