인터뷰

여기 대고 얘기하면, 당신의 목소리가 돈으로 바뀌어요

더 비비드 2024. 6. 26. 17:50
음성 변환·거래 서비스 '볼리'


창업 기업은 한 번쯤 자금 부족에 시달리는 등 큰 시행착오를 겪는 '데스밸리(죽음의 계곡)'을 지납니다. 이 시기를 견디지 못하면 아무리 좋은 기술력, 서비스를 갖고 있다고 해도 생존하기 어려운데요. 잘 알려지기만 하면 시장에게 좋은 반응을 얻을 수 있는 중소기업이 죽음에 계곡에 빠지게 둘 순 없습니다. 이들이 세상을 바꿀 수 있도록 응원합니다.

웨이브덱의 정해갑 대표. 경희대학교 컴퓨터공학과를 졸업하고 바로 창업했다. /더비비드

동화 ‘인어공주’ 속 마녀는 인어공주의 목소리를 탐냈다. 배우, 가수, 성우의 아름다운 목소리를 들을 때면 문득 ‘내 목소리도 저랬으면’ 생각이 든다.​

카메라 앱을 통해 얼굴에 보정 필터를 적용하듯, 목소리도 상황에 따라 바꿀 수 있다면 어떨까. 발표를 해야 할 땐 중저음의 아나운서 목소리로, 게임 속 가상의 캐릭터로 활동할 땐 익살스러운 목소리로 말이다.​

목소리도 액세서리처럼 갈아 끼울 수 있는 세상이 머지않았다. 웨이브덱의 정해갑(28) 대표는 직접 개발한 음성 변환 기술로 목소리를 사고팔 수 있는 서비스를 만들고 있다. 아직 출시도 안됐지만 39대 1의 경쟁률을 뚫고 은행권청년창업재단 ‘디캠프’의 2023년 1월 창업경진대회 본선에 올랐다. 2월에는 디캠프가 운영하는 창업보육센터 프론트원의 입주사로 선정됐다. 그를 직접 만나 창업 아이템에 대해 자세히 들었다.​

◇게임과 피아노가 취미인 사람이 코딩을 전공하면 벌어지는 일

볼리의 서비스 화면 구상도. 오는 4월 베타 서비스가 출시된다. /웨이브덱

웨이브덱은 인공지능 음성 변환·거래 웹 서비스 ‘볼리’를 개발하고 있다. 볼리에서 원하는 목소리를 구입해 자신의 육성에 덧입히는 방식이다. 내 목소리가 녹음된 파일을 올린 후 목소리를 선택하면 음성이 변환된다. 20여 종의 가상 목소리가 있다. 마이크에 대고 말하면 목소리가 즉석에서 바뀌는 실시간 서비스도 지원한다. 변조한 목소리는 콘텐츠 제작에 활용할 수 있다.​
내 목소리를 팔 수도 있다. 음성 변환에 필요한 특정 문장이 담긴 녹음본을 올려두면, 타인이 목소리를 활용했을 때 수수료를 받는 식으로 거래가 이뤄진다.​

문장을 입력하면 음성으로 출력되는 TTS(text to speech) 기술과 달리 실제 화자가 하는 말을 변조하는 기법이 웨이브덱이 가진 핵심 기술력이다. 구어에서 구어로 변환하기 때문에 화자의 감정이나 억양을 살린 음성 변환이 가능하다. 숏폼 콘텐츠, 가상 유튜버, 메타버스 게임 등 자연스러운 목소리가 필요한 분야에 적합하다.

(왼쪽부터) 대학시절 정 대표의 모습과 개인 유튜브 채널에서 피아노를 연주하는 모습. 어린 시절부터 게임과 피아노 연주를 좋아했다. 특기인 프로그램 개발과 취미를 접목해 '볼리'라는 AI 음성 변환 서비스를 개발했다. /정해갑 대표 제공

2021년 경희대학교 컴퓨터공학과를 졸업했다. 어릴 때부터 개발자가 되겠다는 꿈이 확고했다. “게임을 좋아해서 10살 때 직접 게임을 만들어서  인터넷 자료실에 올려본 적이 있어요. 사람들이 게임을 즐기고 댓글로 감사 표시를 할 때 희열을 느꼈죠. 그때부터 고등학생 때까지 생활기록부 속 장래 희망이 늘 프로그래머였어요.”​

게임에 대한 관심이 프로그램 개발로 이어졌다면, 또 다른 취미였던 피아노 연주는 음향 엔지니어링에 대한 관심으로 이어졌다. “피아노를 연주한 지 20년이 넘어요. 2018년에는 개인 유튜브 채널을 개설해 피아노 연주 영상을 올리기도 했죠. 음향이 늘 아쉽더라고요. 집에서 저렴한 장비로 녹화하다 보니 음질이 안 좋고, 작은 소음에도 영향을 크게 받았어요. 항상 녹음한 뒤 음향 엔지니어링 프로그램으로 수정 작업을 거쳐야 했습니다. 소음을 제거하고 음량을 높이는 작업이었죠. 이 음향 편집 프로그램의 사용법이 너무 어렵더라고요. ‘자동으로 녹음 파일을 수정해주는 프로그램이 없을까’ 고민했죠.”​

◇인공지능 음향 엔지니어링 기술을 개발한 방법

정 대표는 대학 졸업과 동시에 창업했다. 취미를 접목한 서비스를 구상해 빠르게 개발할 수 있었다. /더비비드

마지막 학기였던 2021년 4월, 개인사업자 등록을 하고 전공에 취미를 접목한 서비스를 개발하기 시작했다. “인공지능 음향 엔지니어링 서비스를 구상했습니다. 프로그램에 음원을 넣으면 콘텐츠의 목적에 맞게 알아서 음원을 수정해주는 서비스죠. 소음 제거, 악기·음성별 음향 분리, 고음질화, 음량 평준화 등의 기능이 필요했어요. 우선 서비스 기획서를 만들어 여러 창업 육성 프로그램에 지원했습니다. 다행히 글로벌창업사관학교에 선정돼 개발에 들으갔습니다.”

프로그램은 직접 개발했다. 5000만원의 창업 지원금으로 음향 엔지니어를 고용해 인공지능의 성능을 시험했다. “인공지능 프로그램은 개발자가 문제와 답을 제시하면 프로그램이 알아서 문제 해결 방법을 만드는 과정이라고 생각하면 됩니다. 흔히 말하는 ‘머신 러닝’이 이 과정을 의미하는 단어죠. ‘문제’에 해당하는 저음질 음원과  ‘답’에 해당하는 고음질 음원을 입력해 알고리즘을 만들면 되는데요. 알고리즘 품질은 해당 분야의 전문가가 결과물을 들어보면서 판단해야 해요. 이 과정을 1년 동안 반복했습니다.”

2022년 10월 헬로 크리에이터라는 이름으로 음향 엔지니어링 웹 서비스를 출시했다. /웨이브덱

기술 개발 과정에서 음향 분석 역량이 쌓였다. 2022년 7월, 인공지능 온라인 경진대회에서 우승하며 웨이브덱 법인을 설립했다. “인공지능의 화자 인식 성능을 개선하는 과제였어요. 스마트폰의 음성 인식 비서가 스마트폰 주인의 목소리만 인식하게끔 하는 기술이죠. 보안을 목적으로 개발하는 기술인데요. 이미 수십만 건의 음악·음성 파일을 분석해본 경험이 큰 도움이 됐어요.”​

우승하며 받은 2억원의 지원금으로 제품을 출시했다. “2022년 10월, ‘헬로 크리에이터’라는 이름으로 구독형 인공지능 음향 엔지니어링 프로그램을 출시했습니다. 국내에 음원을 자동으로 수정해주는 프로그램은 없기에 출시만 하면 좋은 반응을 얻을 거로 생각했죠.”​

◇제품 출시 2개월 만에 피벗 결심

(왼쪽부터) 볼리 서비스 사전 예약 홈페이지 화면과 정 대표가 직접 서비스를 개발하는 모습. 웨이브덱은 기존 헬로 크리에이터 서비스의 운영을 중단하고 볼리 개발에 집중하고 있다. /더비비드

놓친 것이 있었다. 업계에서 성능을 인정받는 것과 별개로 서비스의 상품성은 또 다른 문제였다. “잠재 고객을 철저히 조사해보지 않은 것이 화근이었습니다. 잠재 고객인 음향 전문가들은 이미 음향 엔지니어링 프로그램의 사용법을 익힌 경우가 많았어요. 신규 고객이 유입되기 어려운 거죠. 비용을 지불하면서 음원을 수정하고 싶어 하는 소비자가 많지 않았던 겁니다.”​

2개월 만에 피벗(Pivot: 비즈니스 모델이나 서비스를 다른 방향으로 돌리는 것)을 결심했다. 시장 조사부터 다시 했다. 핵심 기능은 좁히고, 잠재 고객은 늘릴 수 있는 시장을 찾았다. ‘목소리 시장’이었다. “프리랜서 인력 채용 웹사이트에서 분야별 거래 순위를 보니 성우 녹음이 5위에 올라 있더라고요. 마침 2022년 12월, 국회에서 ‘인격표지영리권’이라는 제도가 입법 예고됐어요. 유명인이 아니어도 개인의 성명이나 초상, 음성을 상품화하고 경제적인 이윤을 취득할 수 있는 권리죠. 좋은 목소리, 혹은 나를 드러내지 않는 가상의 목소리에 대한 수요가 있을거라고 판단했습니다.”

볼리 웹사이트에서 목소리를 상품화해 등록한 모습. /볼리 공식 홈페이지

기존 서비스 운영을 중단하고, 현재 음성 변환·거래 서비스 ‘볼리’ 개발에 집중하고 있다. “헬로 크리에이터를 개발하며 축적한 음향 분석 기술로 가상의 목소리를 만들었어요. 목소리의 톤과 피치(pitch: 음의 높낮이)를 기반으로 음성을 변조합니다. 변조하는 과정에서 생기는 잡음은 인공지능 프로그램이 제거해요. 음성의 언어학적인 부분은 건드리지 않습니다. 표정, 목소리 크기나 높낮이 등 반언어적 표현이 그대로 유지되기 때문에 결과물을 들어보면 어색함이 없죠.”​

인격표지영리권에서 착안해 목소리를 거래할 수 있는 환경도 구현했다. “서비스 화면을 ‘목소리 오픈마켓’처럼 꾸몄어요. 목소리를 판매하고 싶은 이가 10분 내외의 짧은 녹음본을 올리면, 웨이브덱이 제공자의 톤과 피치를 추출해 목소리 상품으로 등록하는 거죠.”​

소비자가 구입한 목소리를 범죄에 악용할 수 없도록 보안 장치를 마련하고 있다. “인공지능 필터링을 통해 범죄를 예방할 계획입니다. 이용자가 올리는 녹음 원본 파일에 특정 단어가 반복되거나, 같은 원본 파일을 지나치게 많은 목소리로 변조할 경우 이용을 차단하는 방식으로요. 메신저 채팅방에서 음란물이 자동으로 차단되는 것과 같은 원리입니다.”

◇엔지니어가 사업할 때 주의할 점

웨이브덱의 정해갑 대표. 오는 4월 볼리를 베타서비스 형태로 출시한다. /더비비드

사업 아이템을 바꾸고 더벤처스로부터 2억원의 초기 투자 유치에 성공했다. 볼리는 구독제로 운영할 계획이다. 오는 4월 베타 서비스를 출시한다. 음성 변환 서비스를 먼저 출시하고 5월 내로 목소리 거래 환경을 구축할 계획이다. “가상 현실 산업이 커질수록 음성 변조 시장도 성장할 거라 판단하고 있습니다. 신원을 밝히지 않고 활동하는 유튜버나 숏폼 콘텐츠 기획자, 메타버스 게임 이용자, 목소리를 판매하고 싶은 성우 등이 잠재 고객이 되겠죠.”​

엔지니어의 창업은 양날의 검과 같다. “보통 프로그램이나 기술 개발에 유능한 사람이 창업하기 유리하다는 말을 많이 합니다. 틀린 말은 아닙니다만, 엔지니어적 사고가 때로는 사업에 독이 될 수도 있다는 사실을 알고 있어야 해요. 기술 개발 욕심으로 기술에 대한 수요 조사나 비즈니스 모델을 구축할 타이밍을 놓칠 수 있거든요.”


/김영리 에디터

300x250