원미디어 시스템

"AI 언어모델 한국어 성능 개선" DGIST, AI 학습용 데이터 구축 지원...

페이지 정보

작성자 수집기 작성일 23-09-05 09:27 조회 37 댓글 0

본문

뉴스 기사

- 초거대 AI 학습용 한국어 말뭉치 데이터 구축 목표

챗GPT.[게티이미지뱅크]

[헤럴드경제=구본혁 기자] 대구경북과학기술원DGIST은 ‘2023년 인공지능 학습용 데이터 구축 지원사업’에 선정됐다고 5일 밝혔다. ‘한국어 성능이 개선된 초거대 AI 언어모델 개발 및 데이터 구축’을 목표로 과학기술정보통신부, 한국지능정보사회진흥원NIA로부터 총 14억원의 지원을 받아 과제를 수행한다.

이번 과제에는 과제 책임자인 DGIST 전기전자컴퓨터공학과 김대훈 교수를 중심으로 송진영 교수 연구팀, 인하대학교 김도국 교수 연구팀과 ㈜빅웨이브에이아이, DGIST 학생창업기업 ㈜유니바가 컨소시엄을 구성해 참여한다. 연구팀은 지난 7월부터 연구 및 개발에 착수했다.

챗-GPT, 구글의 Bard와 같은 AI 언어 모델 기반 대화 서비스가 등장하면서 누구나 쉽게 초거대 언어 모델 기반의 서비스를 이용하고 있다. 그러나 이러한 초거대 언어 모델 기반의 서비스는 한국어에 대한 이해가 부족해 사용 시 다소 불편을 겪게 된다. 연구팀은 이를 해결하기 위해 양질의 학습용 한국어 말뭉치 데이터 구축 및 모델을 개발해 초거대 AI 언어 모델의 한국어 성능을 개선하는 것을 목표로 하고 있다.

김대훈왼쪽부터 DGIST 교수, 송진영 DGIST 교수, 김도국 인하대 교수, 이희준 빅웨이브아이 대표, 남명진 유니바 대표.[DGIST 제공]

김대훈 교수는 “언어 모델을 학습하기 위한 한국어 데이터가 매우 부족한 상황”이라며 “DGIST, 인하대 연구팀과 관련 기업이 함께 머리를 맞대어 초거대 언어 모델 기반 서비스들의 한국어 성능 개선에 크게 기여를 할 수 있을 것으로 기대된다”고 말했다.

한편 인공지능 학습용 데이터 구축 지원 사업은 인공지능 학습용 데이터/모델 구축·개방을 통해 인공지능 생태계 조성 및 일상화를 목표로 과학기술정보통신부가 주관하고 NIA가 추진하는 사업이다. 총 2805억원의 예산을 투입해 150종의 신규 데이터를 구축한다.

nbgkoo@heraldcorp.com

[베스트 클릭! 헤럴드 경제 얼리어답터 뉴스]
▶ "그것만은 비밀로 해줄게"…김연경 저격 이다영이 감춘 비밀은?
▶ 화사, 외설 논란 심경 고백…“악플 수위 심각, 올해 가장 많이 울어”
▶ 아이유 표절 고발 사건…法 “정신적 고통 준 악의적 고발 행태”
▶ “이 광경, 실화냐?” 망한 줄 알았는데, 1분만에 완판…삼성도 ‘경악’
▶ “이륙 1분후 ‘펑’, 기체 흔들” 169명탄 中비행기 긴급회항 무슨 일
▶ “죽으면 쓰레기 봉투에 버려라?” 강아지 쓰레기 취급…억장 무너지는 주인
▶ “셋째 낳으면 5000만원 준다” 이래도 돼?…파격 혜택 ‘회사’ 어디
▶ 출연료 1억? 연예인 총동원했더니…쿠팡 결국 대박 터졌다
▶ “그땐 5만원, 지금 찾으면 166억원?” 전세계 난리난 ‘이것’ 어디 있길래
▶ 가수 홍진영, 송정동 건물주 됐다…고소영 빌딩 옆 빌딩 35억에 매입

Copyright ⓒ 헤럴드경제 All Rights Reserved.

댓글목록 0

등록된 댓글이 없습니다.

"AI 언어모델 한국어 성능 개선" DGIST, AI 학습용 데이터 구축 지원... > IT/과학기사 | natenews rank

사이트 내 전체검색

뒤로가기 IT/과학기사 | natenews rank

"AI 언어모델 한국어 성능 개선" DGIST, AI 학습용 데이터 구축 지원...

페이지 정보

본문

관련링크

댓글목록 0

사이트 정보