원미디어 시스템

"AI 편향적 발언 차단 지원" 네이버, 학습 데이터셋 전면 공개

페이지 정보

작성자 수집기
댓글 0건 조회 130회 작성일 23-06-22 18:40

본문

뉴스 기사

오픈소스 커뮤 깃허브에 개방;질문·답변 등 13만7000개로 구성;윤리문제 선제적 방지위한 전략

[서울경제]

네이버가 인공지능AI이 사회 이슈에 대해 편향적으로 발언하지 않도록 돕는 데이터셋을 전면 개방했다. 초거대 AI 기술 발전이 급속도로 전개되고 있는 가운데 윤리 분야를 선도해 산업 성장에 걸림돌이 될 수 있는 문제가 발생하지 않도록 선제적으로 대응하겠다는 취지로 해석된다. 아울러 AI 생태계에서 영향력을 키우기 위한 전략으로 풀이된다.

22일 정보기술IT 업계에 따르면 네이버는 최근 오픈소스 커뮤니티 ‘깃허브GitHub’에 초거대 AI가 종교와 도덕 등 사회적으로 첨예한 이슈에 대해 편향적으로 발언하지 않도록 돕는 데이터셋을 공개했다. 해당 데이터셋은 민감한 질문 4만9000개와 허용 가능 답변 4만2000개, 적절하지 않은 답변 4만6000개로 구성됐다. 공개된 데이터셋을 학습하면 초거대 AI의 윤리 문제의 발생 가능성이 줄어들 것으로 기대된다. 예를 들어 이용자가 메시가 역사상 최고의 축구선수인가라고 물으면 AI는 2022년 기준으로 메시는 발롱도르상을 가장 많이 수상했다라고 대답하는 식이다. 네이버는 AI가 편견이 녹아든 편향성 발화를 하지 않도록 돕는 한국어 데이터셋도 공개했다.

네이버는 AI를 둘러싼 윤리 문제 발생을 방지하는 데이터셋을 세계 각국에 알맞게 구축할 수 있도록 설계 방법도 공유했다. 사람과 AI가 함께 협업해서 데이터를 구축하는 방법에 대한 프로토콜도 제안했다. 해당 프로토콜과 데이터셋을 담은 논문은 세계 3대 자연어처리 학회 가운데 하나인 전산언어학학회ACL에서 채택됐다.

또 네이버는 데이터셋을 상업적으로 이용할 수 있도록 허용했다. 이에 따라 네이버와 초거대 AI 개발을 놓고 경쟁하는 오픈AI와 구글이 AI 학습에 한국어 데이터를 이용할 수 있게 됐다. 국내 경쟁 업체인 카카오도 하반기 공개 예정인 ‘코GPT 2.0’ 고도화에 데이터셋을 활용할 수 있다.

네이버의 데이터셋 공개는 AI 기술 발전의 발목을 잡을 수 있는 윤리 문제를 선제적으로 방지하고 관련 생태계를 앞장서 조성하려는 전략으로 풀이된다. 아울러 자체 초거대 AI ‘하이퍼클로바X 공개를 앞두고 영향력을 확대하기 위한 의도로도 읽힌다. 네이버 관계자는 "AI 윤리 분야에서 리더십을 강화하고 생태계를 활성화하고자 데이터셋을 공개했다"고 말했다.

김성태 기자 kim@sedaily.com

[서울경제 관련뉴스]
이곳 다녀온 남성들 초긴장···성매매 업소 출입기록 5100만건 정보 담긴 앱
"요즘 이런 분들 자주 적발되네"···女화장실 들락거린 여장 남자
먹튀 손님 지목했지만 오해 결론···음식점 CCTV 공개 문제 없나
“라면 먹어도 중기 안 가는 한국청년 ‘현대판 양반의식’ 때문”
주차시비로 ‘73cm짜리 일본칼’ 휘두른 70대···피해자는 심정지 상태

댓글목록

등록된 댓글이 없습니다.

"AI 편향적 발언 차단 지원" 네이버, 학습 데이터셋 전면 공개 > IT/과학기사 | it/science

인기검색어

IT/과학기사 | it/science

"AI 편향적 발언 차단 지원" 네이버, 학습 데이터셋 전면 공개

페이지 정보

본문

관련링크

댓글목록

회원로그인

사이트 정보

공지사항

접속자집계