한국말 배운 챗봇 바드의 선제공격…구글 속셈은? > IT/과학기사 | it/science

본문 바로가기
사이트 내 전체검색

IT/과학기사 | it/science

한국말 배운 챗봇 바드의 선제공격…구글 속셈은?

페이지 정보

profile_image
작성자 수집기
댓글 0건 조회 48회 작성일 23-05-22 06:05

본문

뉴스 기사
구글, 팜2 탑재 ‘바드’ 출시에…국내 네카오 초긴장

구글 운영체제가 설치된 스마트폰. 연합뉴스


마이크로소프트MS의 투자를 받은 오픈에이아이OpenAI에 이어 구글도 한국어 문장을 자연스럽게 구사하는 인공지능 챗봇을 내놓으면서, ‘한국어 특화’ 대규모 언어모델 개발에 주력해 오던 국내 테크 기업들 발등에 불이 떨어졌다. 업계에선 “국내 기업들이 더 많은 양질의 한국어 데이터를 가진 만큼, 한국어 대규모 언어모델LLM에 있어서만큼은 더 유리한 입지에 있다”는 주장과 “글로벌 빅테크 기업이 어마어마한 자본을 투입하기 시작하면 국내 기업들이 날개를 펼치기도 전에 우위를 내줘야 할 수 있다”란 상반된 관측이 나오고 있다.

앞서 구글은 지난 10일 최신 대규모 언어모델 ‘팜2’PaLM2를 탑재한 대화형 인공지능 ‘바드’Bard를 전세계 180여개국에 본격 공개했다. 구글은 그동안 영어 문장만 인식하고 생성할 줄 알던 바드가 이날부터 한국어와 일본어까지 할 수 있게 됐다고 밝혔다.

글로벌 빅테크 ‘한국어 AI’ 눈독 왜?


“1999년 서울에서 택시를 탄 적이 있다. 택시기사가 휴대전화 세 대를 이용하던 기억이 강하게 남아 있다.” 지난 10일 미 현지에서 열린 설명회에서 순다르 피차이 구글 최고경영자CEO는 영어 다음으로 한국어 서비스를 다른 언어보다 먼저 지원하기로 한 이유를 묻자 이렇게 답했다. 빅테크 업계와 전문가들은 이 답변이 ‘한국인의 얼리어답터 기질’을 가리키는 것으로 해석했다. 좀 더 똑똑한 바드가 되기 위해선 피드백이 빠르고 많아야 하는데, 한국인이 제격이라고 구글이 판단했다는 뜻이다.

실제 인공지능 언어모델의 성능을 끌어올리는 데에는 최대한 많은 이용자가 챗봇을 쓰고 피드백을 주는 ‘강화학습’이 필수적이다. 특히 단순한 의미 전달을 넘어 각 언어권 문화나 관습에 맞는 문장을 구사하려면 실제 그 언어를 사용하는 이들로부터 즉각적으로 피드백을 받아야 한다.

※ 이미지를 누르면 크게 볼 수 있습니다.


나아가 영어보다 학습 난이도가 높아 기술적 장벽이 높은 한국어 특성 때문에, 최대한 빨리 진입해야 선점 효과를 제대로 누릴 수 있다는 계산도 구글은 숨기지 않았다. 순다르 피차이 최고경영자는 “한국어는 영어와 전혀 다른 종류의 언어”라며 “우리에게 무엇이 더 필요한지 확인하고 다른 언어 학습을 더 용이하게 할 것”이라고 말했다.

구글이 세계에서 거의 유일하게 검색엔진 시장 점유율 우위를 점하지 못한 한국에 다시 한 번 도전장을 내미는 것이란 분석도 가능하다. 구글의 전세계 검색엔진 시장 점유율은 92.6%에 이르지만, 유독 한국에서만큼은 ‘토종’ 검색엔진 네이버에 크게 밀린다. 엔에이치엔NHN데이터의 지난해 4분기 집계를 보면, 국내 검색엔진 유입률은 네이버가 62.81%였고 구글은 31.41%였다. 정보기술IT 업계 관계자들은 “구글이 네이버보다 먼저 인공지능 챗봇을 결합한 검색엔진 서비스를 내놓아 검색 시장 점유율 우위를 꾀하려는 것 같다”고 말한다.

네이버 “한국어 학습량, GPT3의 6500배”


아직 자체 언어모델을 정식으로 선보이지 않았지만, 네이버·카카오 등 국내 테크 기업들은 표면적으로는 “한국어 언어모델에서만큼은 해외 기업들에 밀리지 않을 수 있다”고 자신하는 분위기다. 대규모 언어모델의 성능을 결정짓는 가장 중요한 변수는 ‘인공지능 학습에 얼마나 질 좋은 데이터를 많이 투입하느냐’이다. 국내 테크 기업들은 그동안 국내 이용자들을 대상으로 여러 서비스를 운영하며 축적한 데이터를 활용해 구글 등 국외 빅테크 기업들보다 뛰어난 한국어 언어 모델을 개발중이다.

네이버는 이르면 올여름 자체 한국어 대규모 언어모델 ‘하이퍼클로바엑스X’를 출시할 예정이다. 네이버 쪽은 “오픈에이아이의 지피티3GPT3에 비해 한글 데이터를 6500배 더 학습했다”고 강조한다. 하정우 네이버 인공지능연구소장은 “외국인 중에 한국어를 잘하더라도 한국에 대한 이해가 높지 않은 분들이 있는 것처럼, 인공지능 모델이 한국어를 문법적으로 틀리지 않게 구사하는 것과 맥락을 정확히 고려한 문장을 만들어내는 건 완전히 다른 차원의 일”이라고 말했다. 그는 이어 “네이버 블로그나 카페에 올라온 한국어 데이터에는 요즘 한국 사람들이 하는 말과 생각이 반영돼있다. 이런 데이터로 학습한 모델이 한국 사람들이 쓸 서비스를 만드는 데에는 훨씬 유용할 수 있다”고 덧붙였다.

카카오의 인공지능 부문 계열사 카카오브레인도 2년전 처음 공개한 한국어 특화 대규모 언어모델 ‘코지피티’KoGPT 고도화 작업에 한창이다. 카카오브레인은 새 버전인 ‘코지피티2.0’을 올해 상반기 출시하려던 계획을 다소 미뤘다. 상반기 중 챗봇을 시범 운영하며 성능을 더 끌어올린 뒤, 올 하반기에 정식 출시할 방침이다. 코지피티2.0을 탑재한 대화형 인공지능 모델 ‘한국형 챗지피티’도 올해 안에 낸다. 홍은택 카카오 대표이사는 이달 초 “코지피티2.0의 파라미터매개변수 수나 데이터가 국외 기업들보다 부족할 수 있지만, 한국어 특화 모델로는 부족함이 없을 것이다. 한 회사가 인공범용지능AGI을 통일하기보다 다극 체제가 되리라 본다”고 말했다.

네이버는 ‘오픈에이아이’OpenAI의 대규모 언어모델 ‘지피티3’GPT3보다 6500배 많은 한국어 데이터를 학습한 한국어 특화 언어모델 ‘하이퍼클로바엑스X’를 올해 여름 출시할 예정이다. 네이버 제공


카카오 인공지능 부문 계열사 ‘카카오브레인’은 2년 전 처음 공개한 한국어 특화 대규모 언어모델 ‘코지피티’KoGPT를 고도화한 새 언어모델 ‘코지피티2.0’을 올해 상반기 공개할 예정이다. 카카오브레인 제공


“강화학습에선 데이터 양보다 모델 성능 더 중요”


국내 테크 업체들의 설명과 달리 인공지능에 많은 데이터를 집어넣는 것보다 인공지능의 ‘능력’이 더 중요하다는 시각도 적지 않다. 똑똑한 인공지능이 덜 명석한 인공지능보다 학습 속도가 더 빠르다는 뜻이다. 한 국내 인공지능 기업의 관계자는 “강화학습은 데이터 집약적이기도 하지만 자본과 인력 집약적이기도 하다. 이미 구글이 한국어를 ‘다음 타깃’으로 콕 집고 나선 마당에 국내 기업보다 월등히 많은 자본력을 동원할 수 있는 글로벌 빅테크 기업들이 한국어 언어모델에서 우위를 점하는 건 시간 문제”라고 말했다.

오픈에이아이는 지난 3월 최신 언어모델인 ‘지피티4’에서 강화학습 방식을 활용해 아이슬란드어 문장 구사력을 크게 끌어올렸다고 밝혔다. 아이슬란드어를 구사하는 인구는 전세계 35만명으로 매우 적다. 사용하는 사람이 적은 언어라는 건 그만큼 웹에 공개된 데이터의 양도 적다는 뜻인데, 이런 한계를 강화학습으로 극복했다는 것이다. 40명의 자원봉사자들이 지피티4에게 아이슬란드어로 명령어를 주고, 지피티4가 내놓은 4가지 답변 가운데 문법이나 맥락이 가장 정확한 답변을 고르도록 하는 방식이었다. 자원봉사자들은 이어 ‘나라면 이렇게 답변했겠다’ 하는 문장을 직접 입력해 재학습시켰는데 “단 100개의 문장을 활용한 강화학습만으로, 30만개 문장을 사전학습시킨 지피티3에 비해 훨씬 나은 결과물을 얻을 수 있었다”고 오픈에이아이 쪽은 설명한 바 있다.

국내 관련 테크 업계에서도 긴장감을 늦추지 않고 재빠른 대응이 필요한 시점이라는 것은 인정한다. 한 업계 관계자는 “국내 기업들도 ‘올해 안에 승부를 봐야 한다’는 자세로 한국어 특화 모델 고도화에 속도를 내는 상황”이라며 “두려움이 들지 않는다면 거짓말이다”고 했다. 김은주 한국지능정보사회진흥원 클라우드·플랫폼기술단장은 “어떤 모델이 특정 언어를 더 잘 구사하는지 비교하는 게 곧 의미 없는 상황이 될 수 있다”며 “언어 실력뿐 아니라 비전이미지 등 시각정보 인식이나 신뢰성 등 다른 측면의 경쟁에서 누가 더 우월한지 여부도 앞으로 더 중요해질 것”이라고 말했다.

정인선 기자 ren@hani.co.kr

<한겨레 인기기사> ■ 삼성-LG ‘에어컨 점유율’ 진실공방…유통사만 아는 실제 1위는?

19개월 자녀 태워 고의 교통사고…1억6천만원 보험사기 적발

연차 막더니 본인은 조기퇴근…‘갑질 상사’ 해임 정당

국민의힘, 0시~6시 ‘야간집회 금지’ 개정안 추진

한미일 “북 미사일 정보 공유”…세부안은 워싱턴 회담서 논의

“평소 멍 때릴 시간이 없어서”…워킹맘, 배우, 전역자도 멍~

고민정이 말하는 ‘코인 민주당-윤 대통령’ 닮은 점 세 가지

인스타그램, 전 세계서 ‘동시 먹통’

쩔쩔 끓는 지구가 ‘슈퍼 엘니뇨’ 탓?…“발생 단정하긴 일러”

황사로 전국 뿌연 하늘, 소나기 와서 싹 씻어주렴

한겨레>


▶물대포 없어 집회 난장판? 경찰 이어 여당도 ‘퇴행 난장판’
▶▶한겨레의 벗이 되어주세요 [후원하기] ▶▶한겨레 뉴스레터 모아보기

[ⓒ한겨레신문 : 무단전재 및 재배포 금지]

댓글목록

등록된 댓글이 없습니다.

회원로그인

회원가입

사이트 정보

회사명 : 원미디어 / 대표 : 대표자명
주소 : OO도 OO시 OO구 OO동 123-45
사업자 등록번호 : 123-45-67890
전화 : 02-123-4567 팩스 : 02-123-4568
통신판매업신고번호 : 제 OO구 - 123호
개인정보관리책임자 : 정보책임자명

접속자집계

오늘
1,140
어제
1,140
최대
2,563
전체
450,905
Copyright © 소유하신 도메인. All rights reserved.