돈 보낼 뻔… 3초 음성으로 복제된 엄마 목소리 > 경제기사 | economics

본문 바로가기
사이트 내 전체검색

경제기사 | economics

돈 보낼 뻔… 3초 음성으로 복제된 엄마 목소리

페이지 정보

profile_image
작성자 수집기
댓글 0건 조회 14회 작성일 25-02-21 00:33

본문

[스토리텔링 경제] AI에 진화하는 ‘그놈 목소리’
게티이미지뱅크

지난해 여름 “어머니를 납치했다”며 돈을 요구하는 전화를 받은 A씨31는 “전화에서 들려오는 어머니의 목소리는 딸인 내가 들어도 속을 정도로 완벽히 똑같았다”고 기억한다. 당시 해외에 있던 어머니가 실제로 연락이 닿지 않자 패닉에 빠진 그는 하마터면 정말 돈을 송금할 뻔했다.

최근 모 대기업 임원 B씨는 여비서로부터 성희롱 혐의로 고소를 당했다. 증거는 B씨의 목소리가 담긴 통화 녹음파일. 녹음파일에는 B씨의 변조된 음성이 고스란히 담겨 있었다. 성희롱 사실이 없는 B씨는 통화 시각 당시 다행히 임원 회의 중인 사실을 입증해 누명을 벗었다.

음성 영역까지 손을 뻗친 인공지능AI 기술이 빠르게 진화하며 이를 악용한 범죄에 대한 우려가 커지고 있다. 현재 기술력은 방대한 분량의 음성 데이터 없이 3초 정도의 짧은 녹음 파일만으로도 타인의 목소리를 복제할 수 있는 수준까지 도달했다. 일반인도 쉽게 음성 녹음 위·변조 기술에 접근 가능해진 탓에 음성 증거에 대한 불신이 커지자 수사기관은 위·변조된 녹음을 구별해내기 위한 작업에 착수했다.


20일 법조계에 따르면 검찰은 2021년 개발한 스마트폰 녹음 위·변조 여부 분석 기술을 확대 적용하는 방안을 추진 중이다. AI의 발달과 이동통신사 음성비서 등 이전에는 없었던 소프트웨어SW의 등장으로 음성 녹음의 증거 능력이 주요한 변수로 떠오르자 추가적인 검증에 나선 것이다. 한마디로 증거로 제출된 특정 음성 파일이 당시 상황을 그대로 담고 있는지, 혹시 짜깁기 되거나 위·변조돼 오염된 것은 아닌지를 확인하겠다는 취지다.


타인의 음성을 위·변조해 남을 속이는 일은 2010년대 이전까지만 해도 매우 어렵고 많은 비용을 필요로 하는 작업으로 꼽혔다. 기존에는 완전히 새로운 음성을 만들어내기 위해서는 특정 인물의 목소리가 담긴 오디오 파일을 전자 기호로 변환한 뒤 목소리 높낮이, 억양, 말투 등을 추출해 새로운 음성으로 만들어내야 했다. 가수처럼 앨범이나 방송 테이프 등 음성 정보가 충분히 확보된 경우라면 작업 난도가 상대적으로 낮았지만, 이런 자료가 없는 일반인의 목소리를 그대로 재현해내기는 불가능에 가까웠다.

그러나 AI가 세상에 본격적으로 모습을 드러내기 시작하며 상황이 180도 달라졌다. 2017년 구글 딥마인드가 공개한 타코트론은 기존의 ‘노가다’ 방식이 아닌, AI가 직접 데이터를 학습하며 스스로 발전하는 딥러닝 방식을 채택했다. 과거에는 수천시간 분량의 데이터가 필요했지만, 타코트론은 필요 데이터를 24시간 분량으로 줄여버렸다. 같은 해 출시된 중국 기술기업 바이두의 딥보이스는 기존에 투박했던 기계음 없이 자연스러운 인간 목소리로 음성을 만들어내는 기술을 선보였다.


이후 마이크로소프트VALL-E·2023년와 오픈AI보이스 엔진·2024년가 더 진화한 음성합성 모델을 공개했다. 이 두 기업은 음성을 재현하는 데 필요한 데이터 분량을 3초 정도로 줄이는 데 성공했다. “여보세요” “홍길동입니다” 정도의 인사말만 녹음하면 이 음성 데이터를 복사해 이후 실제로는 이뤄지지 않은 대화까지 줄줄이 위조해낼 수 있는 수준에 도달한 것이다.


정상적인 음성과 구분할 수 없는 ‘AI 음성’은 범죄 피해를 키우는 데 악용되고 있다. 금융감독원 집계에 따르면 보이스피싱 피해자의 1인당 피해액은 2020~2022년 1200만원 안팎을 기록했지만 2023년 1708만원으로 급증했다. 현재 당국은 보이스피싱을 ‘대출빙자형’ ‘기관사칭형’ 등 유형으로 나눠서 통계를 관리하고 있지만 최신 기술인 음성 합성을 이용한 피해가 얼마나 되는지는 집계조차 되지 않고 있다. 관련 피해 호소가 늘자 경찰청이 지난해 7월 ‘AI 피싱 사기 주의보’를 발령했지만 ‘목소리가 포함된 글을 올리는 데 주의하라’ ‘의심스러운 전화는 바로 종료하라’ 등 원론적인 대응을 제시하는 데 그치고 있다.

해외에서는 딥보이스 범죄 조직이 천문학적인 돈을 움직이는 금융기관에까지 손을 뻗치는 상황이다. 미국 사이버 보안업체 핀드롭은 금융기관 고객센터로 걸려온 50억 건 이상의 통화 녹음을 전수 조사한 결과 모든 금융기관에 연평균 1만 건의 위조 음성을 이용한 전화가 들어온 것으로 파악됐다고 밝혔다.

음성 녹음 생성 방식이 과거에 비해 진일보하면서 수사기관이 위·변조 여부를 검증하는 데도 애를 먹고 있다. 과거에는 녹음 기기에 곧바로 음성 파일이 저장되는 방식이었지만 최근에는 이외에도 복잡한 경로를 거친다. 예를 들어 무선 이어폰이나 스마트 워치 같은 스마트폰 주변 기기부터 시작된 녹음이 음성 비서 등 프로그램을 거쳐 타인에게 전송됐다면, 수사기관은 이 모든 과정에서 위·변조가 없었는지무결성 여부를 들여다 봐야 한다. 현재 수사기관은 스마트 기기로 녹음된 증거 파일의 위변조 분석 여부를 파악하기 위해 녹음 기기를 직접 제출받아 일일이 분석하고, 증거물 확보에 실패하면 녹음 기기와 동일한 기종을 확보하는 실정이다.

정수환 숭실대 정보통신전자공학부 교수는 “현재 딥보이스 기술로 만든 AI 음성은 전문가가 들어도 진위 여부를 파악할 수 없을 정도 수준까지 발전했다”며 “통신사와 제조사가 힘을 합쳐 위·변조 가능성이 있는 음성을 차단하고 개인은 금전 거래 요구를 받았을 때 다시 한번 확인 후 송금하는 등 예방 노력이 필요하다”고 말했다.

김지훈 기자 germany@kmib.co.kr

[국민일보 관련뉴스]


▶ 네이버에서 국민일보를 구독하세요클릭

▶ ‘치우침 없는 뉴스’ 국민일보 신문 구독하기클릭

GoodNews paper ⓒ 국민일보www.kmib.co.kr, 무단전재 및 수집, 재배포 및 AI학습 이용 금지

댓글목록

등록된 댓글이 없습니다.

회원로그인

회원가입

사이트 정보

회사명 : 원미디어 / 대표 : 대표자명
주소 : OO도 OO시 OO구 OO동 123-45
사업자 등록번호 : 123-45-67890
전화 : 02-123-4567 팩스 : 02-123-4568
통신판매업신고번호 : 제 OO구 - 123호
개인정보관리책임자 : 정보책임자명

접속자집계

오늘
1,878
어제
2,108
최대
3,806
전체
949,282
Copyright © 소유하신 도메인. All rights reserved.