"무료인데 챗GPT보다 빠르다고?"…프랑스 회사가 공개한 이 음성비서, 정... > IT/과학기사 | it/science

본문 바로가기
사이트 내 전체검색

IT/과학기사 | it/science

"무료인데 챗GPT보다 빠르다고?"…프랑스 회사가 공개한 이 음성비서, 정...

페이지 정보

profile_image
작성자 수집기
댓글 0건 조회 17회 작성일 24-09-26 08:09

본문

에릭 슈밋 투자 佛큐타이
무료버전으로 ‘모시’ 내놔
개방형으로 오픈AI와 차별화

시장규모 5년후 56조원 전망
메타·모질라 등 개발코드 공개
기술 접근성 높여 표준화 노려


quot;무료인데 챗GPT보다 빠르다고?quot;…프랑스 회사가 공개한 이 음성비서, 정체가



오픈AI가 음성 인공지능AI을 대폭 업데이트한 가운데, 소프트웨어를 무료로 배포하는 ‘오픈소스’ 진영이 맞불을 놓고 있다.

음성 인식은 대규모 언어 모델LLM처럼 아직 주목받는 시장은 아니다. 하지만 문장·이미지·음성을 포함한 다양한 AI를 연동해 사용하는 ‘멀티모달’ 시대가 펼쳐질 경우 반드시 필요한 AI로 꼽힌다.

정보기술IT 업계에 따르면, 프랑스에 본사를 둔 비영리 AI 연구소인 ‘큐타이’는 최근 자체 개발한 음성 AI 모델인 ‘모시Moshi’를 무료 버전으로 코드까지 전격 공개했다. 큐타이의 모시는 인간 두뇌 시냅스에 해당하는 파라미터의 수가 70억 개에 달하는 ‘헬리움’이라는 언어 모델을 근간으로 했다.

특히 인터넷이 연결되어 있지 않더라도 사용 가능한 것이 특징이다. 때문에 스마트폰이나 태블릿에 넣어두고 사용할 수 있다. 이는 오픈AI의 음성 AI가 클라우드 기반인 것과 대조된다. 또한 음성 생성 시간이 0.2초에 불과하다. GPT-4가 0.23~0.32초인 것에 비해 더 빠르다는 설명이다.

큐타이의 패트릭 페레즈 최고경영자CEO는 최근 본지와 만나 “모든 사람이 AI를 쉽게 사용할 수 있도록 하겠다”면서 “모시와 다른 멀티모달 파운데이션 모델에 대한 연구를 지속하겠다”고 강조했다.

큐타이는 현재 프랑스판 오픈AI로 꼽힌다.

프랑스의 일리아드 그룹과 CMA CGM 그룹, 전 구글 CEO인 에릭 슈미트가 이끄는 슈미트퓨처스가 작년 11월 공동 설립한 비영리 연구소다. 당시 이들은 총 3억 유로약 4485억 원를 투자했다. 8명의 핵심 인력이 반년 만에 오픈AI에 버금가는 음성 AI를 개발해 주목받았다. 오픈AI의 음성 AI처럼 매우 자연스러운 대화를 주고받을 수 있으며, 온라인에서 체험할 수 있도록 했다.

음성 AI를 오픈소스로 배포한 기업은 또 있다. 메타, 코키, 모질라 딥스피치, 칼디가 대표적이다. 앞서 메타는 4000개 이상의 언어를 인식하고 생성할 수 있는 ‘MMS’를 공개했다. 특히 MMS는 학습용 꼬리표인 ‘라벨’이 없더라도 데이터를 학습할 수 있는 것이 강점으로 꼽힌다. 또한 모질라 딥스피치는 그래픽처리장치GPU 효율을 한층 높인 음성 AI를 내놓았으며, 코키는 실시간 음성 인식과 텍스트-음성 간 변환이 빠른 음성 AI를 내놓았다. 둘 다 오픈소스 기반이다.

news-g.v1.20240925.181691d3ad4d4c069f179aa6418d07fe_P1.jpg


AI를 오픈소스로 배포하는 까닭은 선점 효과 때문이다. 오픈소스는 오픈AI의 GPT나 앤스로픽의 클로드 같은 폐쇄형 모델과 달리 누구나 무료로 소스 코드에 접근하고 활용할 수 있는 것이 특징이다. 보다 방대한 사용자에 대해 기술 접근성을 높일 수 있으며, 일부 폐쇄형 모델에 대한 종속을 피할 수 있다는 것도 장점이다.

개발 기업은 오픈소스로 생태계를 구축하고, 많은 개발자들이 해당 기술을 사용하게 만들어 기술 표준화를 주도할 수 있다. 한 업계 관계자는 “AI 시장이 오픈AI나 앤스로픽처럼 폐쇄형 모델 중심으로만 움직이지 않고 있으며, 오픈소스 모델도 충분히 좋은 성능을 구현하고 있다”라고 말했다.

폐쇄형 진영 역시 음성 AI 개발에 열을 올리고 있다.

오픈AI는 최근 한국어와 일본어를 포함한 50개 언어의 사용을 개선한 챗GPT ‘음성 모드’를 출시했다. 한국에서도 유료 사용자를 대상으로 공개된 상태다. 특히 오픈AI의 ‘음성 모드’는 AI 음성 발화 속도를 조절할 수 있으며 화자의 감정까지 인식한다. 오픈AI는 한국어 음성을 보다 자연스럽게 개편했으며, 총 9가지 음성 버전을 지원한다. 또한 구글은 AI 음성 비서인 ‘제미나이Gemini’를 지난달 공개했다. 스마트폰을 비롯한 모바일 환경에 최적화됐고, 10가지 목소리를 제공해 톤과 스타일을 선택할 수 있다.

시장 조사 업체인 모도인텔리전스에 따르면, 음성 인식 시장은 2024년 149억 5000만 달러에서 2029년 420억 8000만 달러로 성장할 전망이다. 특히 AI가 발전하면서 △스마트 홈 및 IoT사물인터넷 △고객 서비스 및 콜센터 △의료 및 헬스케어 △자동차 및 내비게이션 △교육 및 학습 도구 △게임 및 엔터테인먼트 △은행 및 금융 △법률 및 행정 서비스 △접근성 지원 △통번역 서비스 등에 전방위적으로 도입될 것으로 보인다.

오늘의 운세 2024년 9월 26일 木음력 8월 24일

“기억 못해 미안했다”…20년 전 장나라 노래할 때 드럼 치는 남성 ‘깜짝’

빽다방 음료 마시고 복통 호소한 10대 아이들…음료속 조사해보니 ‘맙소사’

“아웃렛에 옷 사러 갔다가 울었다”…60% 할인한다는 가게, 가격표 보고 입이 ‘쩍’

몸짱되고 알츠하이머도 예방하고…‘이것’ 많이 먹어야 한다는데

[ⓒ 매일경제 amp; mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]

댓글목록

등록된 댓글이 없습니다.

회원로그인

회원가입

사이트 정보

회사명 : 원미디어 / 대표 : 대표자명
주소 : OO도 OO시 OO구 OO동 123-45
사업자 등록번호 : 123-45-67890
전화 : 02-123-4567 팩스 : 02-123-4568
통신판매업신고번호 : 제 OO구 - 123호
개인정보관리책임자 : 정보책임자명

접속자집계

오늘
1,421
어제
2,079
최대
3,806
전체
695,704
Copyright © 소유하신 도메인. All rights reserved.