영화 그녀처럼, 말 속 감정까지 이해하는 AI…오픈AI, GPT-4o 공개 > IT/과학기사 | it/science

본문 바로가기
사이트 내 전체검색

IT/과학기사 | it/science

영화 그녀처럼, 말 속 감정까지 이해하는 AI…오픈AI, GPT-4o 공개

페이지 정보

profile_image
작성자 수집기
댓글 0건 조회 189회 작성일 24-05-14 06:01

본문

뉴스 기사
음성 반응속도 평균 320밀리초로 단축
사람처럼 보는 동시에 말하기 가능해져
"사용 편의성 측면에서 큰 진전은 처음"
영화 그녀처럼, 말 속 감정까지 이해하는 AI…오픈AI, GPT-4o 공개


2014년 국내 개봉한 영화 그녀her에는 여성의 목소리로 말하는 인공지능AI 챗봇 사만다가 등장한다. 외로운 남성 주인공은 처음엔 사만다를 반신반의하지만, 언제든 부를 수 있고, 자신을 전적으로 이해해 주며, 위로와 즐거움을 주는 그녀를 이내 사랑하게 된다.

이런 영화 같은 일을 현실에서 마주할 날이 성큼 다가왔다. 챗GPT 개발사 오픈AI는 13일현지 시간 사람과 비슷한 속도로 반응하는 새 AI 모델 GPT-4o를 공개했다. GPT-4o는 이용자가 입력하는 글뿐 아니라 음성, 영상까지 인식하는 멀티모달Multimodal·시각, 청각 등 다양한 정보를 주고받는 것 AI다. 이전까지 가장 최신 모델이었던 GPT-4 터보보다 시청각 이해도가 훨씬 향상됐고, 특히 음성 입력에 대해서는 평균 320밀리초1밀리초는 1,000분의 1초 내에 반응한다.

이날 온라인 영상을 통해 GPT-4o를 소개한 미라 무라티 오픈AI 최고기술책임자CTO는 "지난 몇 년 동안 우리는 AI 모델의 지능을 향상시키는 데 중점을 둬왔고, 실제로 꽤 좋아졌다"며 "그러나 사용 편의성 측면에서 실제로 큰 진전을 이룬 건 처음"이라고 밝혔다. GPT-4o는 AI의 단순한 능력 향상을 넘어, 인간과 AI 간 진정한 상호작용을 위한 의미 있는 도약이라는 것이다.

bcb7fd01-815c-41fc-bb19-90a9764dfd4c.png


사람 숨소리만 듣고 어떤 감정인지 이해

이날 오픈AI가 공개한 영상을 보면 GPT-4o는 훨씬 사람에 가까운 능력을 구현한다. 음성만으로 대화를 주고받을 수 있을 뿐 아니라, AI가 사람의 움직임을 실시간으로 관찰하면서 말할 수도 있다. 사람이 수학 문제를 푸는 모습을 보면서 문제 풀이에 대한 질문에 답하거나, 두 사람이 가위바위보같은 게임하는 것을 지켜보며 심판 역할을 하기도 한다. 또 이용자와 대화하면서 작곡하고, 아재개그나 풍자도 자유자재로 구사한다. 어떤 면에선 사람보다 나은 모습을 보이기도 한다. 대표적인 게 한국어를 포함한 50개 언어에 대한 실시간 통역이다.

더 놀라운 점은 단순히 말만을 인식할 수 있는 게 아니라는 것이다. 이날 시연 무대에 오른 오픈AI 연구원 마크 첸이 조금 긴장된 상태인데 나를 진정시켜줄 수 있느냐고 묻자, GPT-4o 기반의 AI 음성 비서는 "심호흡을 해보세요"라고 권한다. 이에 첸이 거칠고 빠르게 숨을 내쉬자, AI는 "오우, 천천히요. 당신은 진공청소기가 아니에요. 당신이 전문가라는 것을 잊지 마세요"라고 농담하며 긴장을 풀어주려 한다. 숨소리를 인지할 뿐 아니라, 어떤 감정 상태인지까지 이해한 것이다. 다시 첸이 숨을 천천히 깊게 들이쉬자, AI는 "바로 그거야"라고 말한다. GPT-4o는 다른 대화에서도 연구원이 자신의 웃는 얼굴을 보여주며 "내가 지금 어때 보이냐"고 묻자, "신난 것 같다"고 답했다.

GPT-4o는 감정을 인식할 뿐 아니라 일정 부분 표현도 한다. "뮤지컬처럼 노래로 얘기해 줘"같은 이용자의 요구나 대화 맥락에 맞춰 다양한 목소리와 톤을 낼 수 있다.

52bc03f3-ed55-4485-ba55-b140081170e7.png


마치 사람처럼, 다양한 감각 동시 인식

GPT-4o 이전 모델들은 음성 응답 시 평균 2.8초GPT-3.5~5.4초GPT-4의 지연이 있었다. 사람이 질문하면 몇 초 이후에야 대답을 내놔 여전히 기계라는 인상을 줬다. 이는 이전 두 모델의 경우 이용자의 음성을 글로 변환하고, 이에 대해 AI가 글로 답변을 생성한 뒤 음성으로 변환해 출력하는 과정을 순서대로 거쳐야 했기 때문이라고 한다. 오픈AI는 "이는 변환 과정에서 AI가 많은 정보를 잃게 됨을 뜻한다"고 설명했다. 여러 화자가 동시에 말할 때 음성을 구분하거나 배경 소음 등을 관찰하기 어려웠다는 것이다.

그러나 GPT-4o는 글과 이미지, 음성의 입력과 출력이 사람처럼 동시에 이뤄진다고 한다. 이에 따라 반응 속도가 최소 232밀리초까지 줄었다. 반응 속도가 거의 실시간에 가까워지다 보니, AI가 말하는 도중 사람이 끼어들어 다른 말을 해도 바로 알아듣는 모습을 보였다. 오픈AI는 "GPT-4o는 모든 감각을 결합한 첫 번째 모델"이라며 "그렇기 때문에 우리가 오늘 볼 수 있는 건 AI 모델이 할 수 있는 작업의 극히 일부일 뿐"이라고 평했다.

실제로 이날 샘 올트먼 오픈AI 최고경영자CEO는 자신의 엑스X에 "her"그녀라고 남겼다. 영화 그녀처럼 AI와 진짜 소통하는 시대가 시작됐음을 뜻한 것이라는 해석이 나왔다. 올트먼은 자신의 블로그에도 "컴퓨터와 대화하는 것이 나에게는 결코 자연스럽지 않았지만 이제는 그렇지 않다"며 "AI가 인간 수준의 응답 시간과 표현력을 갖춘 것은 큰 변화"라고 썼다.

dd29ef09-e2bb-4eb4-9eaa-4d0163762db4.jpg


구글 행사 전날, 새 모델 발표 선수쳤다

GPT-4o의 글과 이미지 입·출력 기능은 이날 즉시 챗GPT에 적용됐다. 누구나 무료로 이용할 수 있다. 음성 기능의 경우 앞으로 몇 주 안에 챗GPT 유료 버전에 우선 적용될 예정이다.

오픈AI의 이날 GPT-4o 공개는 구글의 연례 개발자 대회I/O를 하루 앞두고 기습적으로 이뤄졌다. 구글이 I/O에서 자사 AI 모델 제미나이의 진화한 멀티모달 기능을 선보일 것으로 예상되는 가운데 오픈AI가 새 AI 모델 발표를 선수친 것이라는 평가가 나왔다. 블룸버그통신은 "AI 분야의 초기 선두주자였던 구글은 오픈AI와 보조를 맞추기 위해 이번 I/O에서 더 많은 AI 업데이트를 공개할 것"이라고 예상했다.



실리콘밸리= 이서희 특파원 shlee@hankookilbo.com



관련기사
- [단독] 다낭 리조트서 물에 빠진 한국인 구한 은인 또 있었다
- 파타야 드럼통 살인 영화 모방한 아마추어 범행일 듯
- 살인 중계하고 맞짱 콘텐츠 난무... 조회 수가 낳은 유튜브 괴물들
- 죽을 뻔한 산모 살려낸 의료진이 소방서 언급한 이유는
- [단독] 근무성적 불량… 해고 이유 단 두 줄로 꿈 앗아가니 암담했죠

댓글목록

등록된 댓글이 없습니다.

회원로그인

회원가입

사이트 정보

회사명 : 원미디어 / 대표 : 대표자명
주소 : OO도 OO시 OO구 OO동 123-45
사업자 등록번호 : 123-45-67890
전화 : 02-123-4567 팩스 : 02-123-4568
통신판매업신고번호 : 제 OO구 - 123호
개인정보관리책임자 : 정보책임자명

접속자집계

오늘
1,647
어제
2,068
최대
3,806
전체
697,998
Copyright © 소유하신 도메인. All rights reserved.