내 화상 영어쌤 알고보니 챗GPT…전화상담·통번역도 척척 > IT/과학기사 | it/science

본문 바로가기
사이트 내 전체검색

IT/과학기사 | it/science

내 화상 영어쌤 알고보니 챗GPT…전화상담·통번역도 척척

페이지 정보

profile_image
작성자 수집기
댓글 0건 조회 288회 작성일 23-11-29 17:16

본문

뉴스 기사
내 화상 영어쌤 알고보니 챗GPT…전화상담·통번역도 척척


오픈AI의 챗GPT가 30일로 출시 1주년을 맞은 가운데 인공지능AI 기술 방향이 단순한 텍스트를 넘어 음성, 이미지, 영상 등 다양한 형태의 데이터를 처리하는 멀티모달Multi-Modal로 진화하고 있다.

세계적인 이종격투기 선수 프랑시스 응가누가 나의 영어회화 교사가 된다면 어떨까? 챗GPT로 대표되는 거대언어모델LLM이 텍스트를 넘어 음성과 이미지까지 자유자재로 다루게 되면서 충분히 가능해진 일이다.

디지털 휴먼을 만드는 실리콘밸리 스타트업 솔머신스는 지난달 응가누 아바타를 공개했다. 응가누의 모습을 반영해 실사에 가까운 아바타를 만들고 응가누에 대한 정보와 말투를 챗GPT가 학습하도록 했다. AI로 응가누의 목소리도 학습시켰다.

기자가 응가누 아바타에 스스로에 대해서 설명해봐Tell me about yourself라고 물어보자 아바타가 영어로 자신에 대해서 설명을 시작했다. 응가누와 실제로 대화하는 것처럼 눈을 깜빡이고 입술을 움직이기 때문에 몰입감이 높아졌다.

이는 챗GPT가 음성을 텍스트로 이해하고, 생성한 텍스트를 다시 음성으로 만들 수 있기 때문에 가능해진 일이다. 이미 인터넷에서는 챗GPT로 영어회화를 학습하는 방법이 광범위하게 공유되고 있다. 기존에는 비싼 수업료를 지불해야 했던 원어민 전화영어 및 화상영어 수업이 AI로 대체될 것으로 보인다.

멀티모달 LLM은 기존 텍스트 중심 AI보다 훨씬 많은 영역에서 인간의 업무를 대체할 수 있다. 특히 언어능력이 중요한 통·번역, 언어교육, 고객대면업무 등 서비스직이 멀티모달 AI에 의해 위협받을 수 있는 일자리다. 텍스트 중심 AI가 챗봇으로 고객과 대화하는 데 그쳤다면 멀티모달이 적용된 AI는 전화통화나 화상상담까지 업무를 넓힐 수 있다.

AI로 영상을 만드는 서비스를 제공하는 실리콘밸리의 스타트업 헤이젠은 최근 동영상 번역 서비스를 공개했다. 동영상 속 화자의 말을 다른 언어로 변환해주는 서비스다. 기자가 유튜브 방송용으로 찍은 짧은 동영상 파일을 번역기에 집어넣자 약 5분 만에 번역된 영상이 만들어졌다. 기자가 한국어로 말한 내용이 영어로 번역됐다. 놀라운 점은 기자의 목소리 그대로 영어를 말하게 된 것이다. 영어에 맞춰 동영상 속 입 모양도 움직이기 때문에 번역된 영상이라고는 전혀 상상할 수 없었다. 기자가 처음부터 영어로 말한 것처럼 느껴지는 것이다. 동영상 번역 서비스는 28개 언어로 번역이 가능하다. 헤이젠의 동영상 번역 서비스는 기존에 통역사가 하던 업무의 상당 부분을 대체할 수 있을 것으로 보인다. 특히 자신의 모국어 외 다른 언어 사용자들에게도 통하는 콘텐츠를 만들고자 하는 크리에이터에게 각광을 받고 있다. 자신의 목소리를 유지하면서도 더빙을 한 것처럼 콘텐츠를 바꿀 수 있기 때문이다.

20231130_01160106000001_L00.jpg


헤이젠의 이런 능력도 AI가 멀티모달 능력을 갖고 있기 때문에 가능한 일이다. 영상 속 음성을 인식해 다른 나라의 언어로 번역하고, 번역한 언어를 학습한 목소리 톤으로 음성화하는 작업이 이뤄진 것이다. 또한 이미지를 인식해 음성에 맞춰 입 모양을 자동으로 변환하는 작업도 거쳤다. 이처럼 언어를 기반으로 하는 서비스직은 LLM의 성능이 향상되면서 가장 큰 도전과 기회에 직면하고 있다. 글로벌 통·번역 기업 위로컬라이즈의 폴 카 최고경영자CEO는 포브스 기고를 통해서 "번역 산업은 기업과 정부가 연간 약 600억달러를 지출하는 매우 큰 규모의 산업이지만 생산되는 전체 콘텐츠 중 일부만이 유료로 번역을 거친다"고 설명했다. 그는 "생성형 AI를 통해 여러 언어로 번역되는 콘텐츠가 늘어나면 전문가의 검수가 필요한 부분도 늘어날 것"이라며 통·번역가들이 기회를 찾아야 한다고 설명했다.

생성형 AI 시장이 멀티모달로 빠르게 진화하면서 국내 기업들도 이를 따라잡기에 바쁘다.

네이버는 현재 텍스트 중심인 생성형 AI 검색 서비스 큐:에 멀티모달 기술을 추가 적용해 단계적으로 서비스를 확장할 계획을 갖고 있다. 검색창에 텍스트를 입력하는 것 외에도 이미지나 음성을 추가하면 반복적인 검색 과정을 거치지 않더라도 종전보다 더 빠르게 원하는 결과 값을 얻을 수 있게 된다. LG의 AI 아티스트 틸다도 언어와 이미지를 모두 이해하는 멀티 엔진을 탑재하고 있다. 틸다는 LG AI연구원이 개발한 초거대 멀티모달 AI 엑사원이 기반이 됐는데, 텍스트를 이미지로 그려내는 것에서 더 나아가 이미지를 보고 텍스트를 설명할 수 있는 양방향 소통이 가능하다.

멀티모달 AI 산업은 아직 태동기다. 글로벌 분석 업체인 마케츠앤드마케츠에 따르면, 멀티모달 AI 시장은 올해 10억달러 규모에 불과하다. 하지만 5년 뒤인 2028년 45억달러까지 성장할 전망으로, 매년 35%씩 성장할 것으로 보인다. 딜로이트 글로벌은 29일 2024 예측 보고서를 발간하고 "생성형 AI를 적용해 기업용 소프트웨어 업체가 얻을 수 있는 추가 매출은 약 100억달러로 추산되고 있다"고 강조했다.

멀티모달multi-modal AI

텍스트를 넘어 음성, 이미지, 영상 등 다양한 형태의 데이터를 처리하고 생성할 수 있는 AI.

[실리콘밸리 이덕주 특파원 / 서울 이상덕 기자 / 고민서 기자]

무인도에 수상한 천막 알고보니…보이스피싱 일당 무더기 적발

박빙이라더니 90표차 완패 “착잡·허무”…2035 재도전 추진 [부산 엑스포 유치 실패]

“문화재 돌려달라” “그건 좀”…정상회담도 당일 전격취소

잡초무성한 공터에 컨테이너 하나…지방 산단 “베트남에 기업 다뺏겨”

“동네 피자집 다 문 닫았는데”…백종원 나홀로 독주, 비결이 뭐길래

[ⓒ 매일경제 amp; mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]

댓글목록

등록된 댓글이 없습니다.

회원로그인

회원가입

사이트 정보

회사명 : 원미디어 / 대표 : 대표자명
주소 : OO도 OO시 OO구 OO동 123-45
사업자 등록번호 : 123-45-67890
전화 : 02-123-4567 팩스 : 02-123-4568
통신판매업신고번호 : 제 OO구 - 123호
개인정보관리책임자 : 정보책임자명

접속자집계

오늘
2,487
어제
2,832
최대
3,216
전체
587,913
Copyright © 소유하신 도메인. All rights reserved.