인터뷰

카이스트생들의 한국형 AI 도전, 대기업들 줄세웠다

더 비비드 2024. 6. 21. 11:00
올인원 AI 데이터 솔루션 셀렉트스타 창업기

창업 기업은 한 번쯤 자금 부족에 시달리는 등 큰 시행착오를 겪는 ‘데스밸리(죽음의 계곡)’를 지납니다. 이 시기를 견디지 못하면 아무리 좋은 기술력, 서비스를 갖고 있다고 해도 생존하기 어려운데요. 잘 알려지기만 하면 시장에게 좋은 반응을 얻을 수 있는 중소기업이 죽음의 계곡에 빠지게 둘 순 없습니다. 이들이 세상을 바꿀 수 있도록 응원합니다.

황민영 셀렉트스타 부대표. /더비비드

“AI는 대단한 기술이지만, 아직은 사람이 AI를 교육하는 시대입니다. 저희는 인류와 AI의 안전한 동행을 도모하는 기업이죠.”

지난해 오픈 AI의 챗봇 챗지피티(ChatGPT)가 등장하자 인공지능 업계에 대지진이 일어났다. 대기업, 스타트업 할 것 없이 AI 모델 개발 포기 선언을 한 것. 구글 같은 빅테크 기업조차 정면승부 대신 우회로를 택했을 정도다.

AI 학습용 데이터 플랫폼 스타트업 셀렉트스타는 대혼돈의 시대에도 뚜벅뚜벅 제 갈 길을 걷고 있다. 셀렉트스타가 주목한 것은 데이터다. AI가 학습한 대로 행동하는 것에 착안해 ‘좋은 선생님’ 역할을 자처한 것이다. 셀렉트스타의 황민영 부대표(33)를 만나 착한 AI를 만드는 과정에 대해 들었다.

◇삼성과 LG를 모두 고객사로 유치한 스타트업의 정체

보상형 데이터 축적 앱 '캐시미션'. /셀렉트스타

AI의 성능은 알고리즘과 학습 데이터가 맞물린 결과물이다. AI 모델에 데이터를 학습시켜 특정 서비스에 특화된 AI가 생성되는 구조다. 문제는 챗지피티를 통해 챗봇을 너무 쉽게 만들 수 있게 됐다는 점이다. 이제 AI의 변별력은 학습 데이터가 좌우한다.

셀렉트스타는 2018년 카이스트 출신들이 주축으로 설립한 회사다. AI의 성능을 향상하기 위한 학습 데이터를 기획, 수집, 가공하는 기업이다. 출발은 크라우드 소싱 플랫폼 ‘캐시미션’이었다. 사용자에게 미션을 부여해서 데이터를 축적하는 앱이다. 그렇게 축적한 데이터를 검수를 통해 고품질의 데이터로 재탄생 시켰다. 지금까지 230여개 기업의 AI 학습 데이터를 구축했다. 삼성SDS, 네이버, SK텔레콤, 크래프톤, LG CNS 등 유명 기업을 고객사로 유치했다.

앤드류 응 교수 방한 행사에서 패널 토크를 진행한 황 부대표. /셀렉트스타

데이터 다루는 경험치와 능력치를 쌓은 덕에 이 분야에서 선도적인 역할을 하고 있다. 현재 한국지능정보사회진흥원(NIA)의 '초거대 언어모델 신뢰성 벤치마크 데이터' 사업의 주관 기관으로 활약하고 있다. 황 부대표는 서울경제진흥원(SBA)이 위촉한 스타트업 협의체 서울테크밋업의 기술교류 분과위원장으로 활동 중이다.

AI의 연착륙을 위한 공익 작업도 진행하고 있다. AI분야의 석학인 앤드류 응 교수의 한국 방문 행사를 진행했고, 전세계의 AI 윤리 원칙을 조합해 ‘인공지능 개발 및 활용을 위한 원칙’도 세웠다. 현재 AI를 활용한 어린이 교육용 영상통화 서비스 ‘모모잼’ 출시를 앞두고 있다.

◇창업 천재와 AI 천재의 만남

황 부대표는 학생 창업을 해 실리콘밸리에 진출한 경험이 있다. 그 당시의 사진. /셀렉트스타

황 부대표는 카이스트 컴퓨터공학과 출신이다. 젊은 나이지만 창업에 잔뼈가 굵다. 대학교 2학년 때 숏폼 동영상 플랫폼 기업 ‘비디오팩토리’를 설립했다. 실리콘밸리로 진출해 화제를 모았고 서비스 영역을 미국, 인도, 필리핀까지 확대했다. 100만 다운로드를 기록할 정도로 잘 됐다. 하지만 수익화에 실패해 사업을 접어야 했다.

- 셀렉트스타 합류 계기가 궁금합니다.

“귀국하고 카이스트의 창업 경진대회에 멘토로 참여한 적이 있어요. 그때 처음으로 김세엽 대표를 비롯한 셀렉트스타 팀을 알게 됐는데요. 고객 인터뷰 미션에서 30개 기업을 인터뷰하고, 계약서까지 만들어왔더라고요. 제품도 안 나온 상태였는데 매출 2000만원을 냈더군요. 학생 창업 동아리 수준이 아니었어요. 당연히 1등을 했고요. 이 친구들이라면 뭐든 하겠다 싶어서 합류했죠.”

- 어떤 아이디어였길래요.

“김세엽 대표는 국방과학연구소 AI 연구원 출신입니다. AI 개발을 위해 입사했는데 하루 종일 색칠만 했대요. AI에게 학습시킬 대상을 특정하기 위해 필요한 작업이지만, 다소 비효율적으로 느껴졌다고 합니다. 그때 사람들이 리워드형 광고 플랫폼 캐시슬라이드를 활용하는 모습이 눈에 들어와 둘을 접목한 ‘캐시미션’ 아이디어를 구상했습니다. 이 아이디어로 국방부장관상까지 받았죠.”

◇’좋은’ 데이터를 쌓기 위한 여정

셀렉트스타가 수행한 프로젝트를 소개 중인 황 부대표. /더비비드

셀렉트스타는 AI가 당연해지는 세상이 도래할 것이라고 보고 AI의 자양분인 학습 데이터에 집중한다. 산업 현장에서 AI가 점점 중요한 작업을 수행하게 되면서 맞춤형 데이터로 AI 모델을 고도화하는 작업이 중요해질 것이라고 판단한 것이다.

- 어떤 점에서 이 시장의 가능성을 본건가요.

“현재 상황이 아이폰이 등장한 시기와 비슷하다고 봤습니다. 지금까지는 AI라는 콘셉트를 검증하는 시기였기에 AI가 특별하게 느껴지겠지만, 누구나 쉽게 AI를 만들 수 있는 세상이 곧 펼쳐질 겁니다. 인터넷 기업, 모바일 기업이라는 용어가 사라진 것처럼 AI기업이라는 용어는 없어질 거예요. 앤드류 응 교수는 AI라는 좋은 기술이 개발된 데 끝나는 게 아니라 작금의 흐름이 가치 창출로 이어져야 한다고 조언했는데요. 이 흐름의 본질은 기술이 아니라 비즈니스 모델에 있습니다. 각 플레이어들이 AI로 다양한 비즈니스 모델을 창출하려면 그에 걸맞은 데이터가 필요하죠. 학생들도 좋은 선생님 옆에서 똑똑해지잖아요. 그 좋은 선생님 역할을 하는 게 데이터입니다.”

데이터 가공 예시. /셀렉트스타

- 모든 데이터가 좋은 선생님인 건 아니잖아요.

“책임감 있는 AI라는 용어가 있습니다. AI의 기능이 떨어지는 건 상관없지만, AI가 개인정보를 유출하거나 차별적인 언어를 남발하는 건 문제가 됩니다. 여기서 발생할 수 있는 문제를 잡는 게 책임감 있는 AI입니다. 이런 AI는 사회적 책임이 아니라 기업의 생존 차원에서 필요합니다. 아직 세계 공통의 AI 관련 규제는 없지만 유명 기업이나 각 국가는 저마다의 AI 윤리 원칙을 세우고 있습니다. 저희는 이를 조합해서 ‘인공지능 개발 및 활용을 위한 원칙’을 세우고, 이를 토대로 학습 데이터를 처리합니다. 아동용 챗봇이 술이나 담배 이야기를 해선 안되니까요.”

- ‘착하게’ 정제된 데이터가 AI 성패 유무를 가르겠네요.

“관련해서 자랑할만한 프로젝트가 있습니다. 국내에서는 네이버, 카카오, SK텔레콤 등 다섯 개 기업이 초거대 언어모델을 구축하고 있는데요. 해당 언어모델의 신뢰성 및 윤리기준 적합성을 평가하는 ‘벤치마크 데이터셋’을 구축하고, 관련 사업의 주관 기업으로 참여 중입니다. 벤치마크 데이터란 AI의 성능 평가에 활용되는 데이터인데요. 벤치마크 데이터로 각 언어모델이 생성한 자연어의 신뢰성과 윤리 수준을 점수로 평가할 수 있습니다.”

셀렉트스타에서 활용 중인 데이터 분석 도구. /셀렉트스타

- 흥미로워요. 아이에게 언어를 가르쳐주는 과정과 유사하네요.

“맞아요. 이미 교육이 된 AI를 교정하는 작업도 수행합니다. 최근 ‘AI 레드팀’ 프로젝트를 발족했어요. AI가 의도적으로 헛소리를 하도록 유도하는 작업이죠. 사실 AI는 절대로 욕설을 할 수 없도록 세팅 됐는데요. 우회로를 통해 욕설을 유도할 수 있습니다. 그 유도하는 데이터를 모아서 AI의 성능을 개선할 수 있죠. 일종의 화이트해커 역할이라고 보면 됩니다. 내년에는 AI 레드팀 운영에 집중할 계획입니다. AI의 약점을 잘 파고든 이에게 포상을 하는 해커톤도 열 예정이죠.”

- 지금까지 다뤄본 데이터 중 가장 규모가 큰 데이터는 무엇이었나요.

“서강대, 카이스트 연구진과 함께 진행한 콜드(KOLD)라는 한국어 혐오표현 데이터셋 구축 프로젝트가 떠오르네요. 참가 인력 3000명의 대형 프로젝트였습니다. 혐오 표현을 필터링 하기 위해 온라인 상에 떠도는 온갖 혐오표현을 끌어 모은 다음 하나하나 검증해서 정제했습니다. 끔찍한 표현이 많아서 정신이 피폐해지는 느낌이었어요. 3차에 걸쳐 검증했죠. 사회적 의미가 큰 프로젝트여서 데이터셋이 학회에도 실리고, 한국어 대표 데이터셋으로 자리잡았습니다.”

◇데이터 기업이 ‘뽀로로’ 활용한 신규 서비스 만든 이유

출시를 앞두고 있는 캐릭터 영상 통화 서비스 모모잼. /셀렉트스타

지금까지 구축한 누적 데이터 건수만 1억7000만건. 제 아무리 좋은 데이터도 적재적소에 사용되지 않으면 사장되고 만다. 셀렉트스타는 고객사의 데이터를 다루는 데서 나아가 확보한 데이터로 새로운 가치를 창출한 방안을 찾아 나섰다. 그 과정에서 탄생한 게 뽀로로 같은 인기 캐릭터와 영상 통화를 할 수 있는 교육 콘텐츠 ‘모모잼’이다.

- 모모잼 출시 배경이 궁금합니다.

“캐릭터닷이라는 AI 서비스가 있어요. AI에 내가 원하는 인격을 심어서 대화를 할 수 있는 ‘페르소나 AI’죠. 요즘 업계에서 페르소나 AI가 화두입니다. AI 페르소나를 활용할 방안을 찾다가 어린이 대상의 엔터테인먼트 서비스를 만들기로 했어요. 관련 기술을 가지고 있어서 금방 개발했습니다. 뽀로로, 핑크퐁, 폴리, 신비 같은 인기 캐릭터를 확보한 후 접목했죠. 어린이들은 모모잼을 통해 실시간으로 상호작용하면서 인지 능력을 발달시킬 수 있습니다. 노래를 불러달라고 하면 노래도 불러줘요. 교육 과정에 맞춰서 콘텐츠를 꾸렸습니다. 영어 대화도 가능해 해외 진출도 구상 중입니다.”

황 부대표는 데이터 분야에서는 셀렉트스타가 가장 잘 한다고 강조했다. /더비비드

- 정말 빠르게 사업 영역을 확대했네요.

“AI 기업들끼리 하는 말이 있습니다. 세상이 미쳐 돌아간다고요. 그만큼 AI가 폭발적으로 성장했거든요. 특별한 분기점을 겪었던 건 아니고요. 이 파고 속에서 자연스럽게 성장했습니다. AI라는 파도에 올라탄 것이죠. 살기 위해 발버둥치면서 실력을 쌓았고요. 데이터를 기획하고 구축하는 실력만큼은 저희가 최고입니다. 클라이언트의 연간 계획을 짜주는 수준으로 성장했어요. 누적 투자 금액만 174억원에 달하죠. 속된 말로 ‘노가다’의 외주화로 출발했는데 이제 데이터 분야에서는 셀렉트스타가 제일 잘합니다.”

- 인간과 AI관계는 앞으로 어떻게 발전할까요.

“아직까지 AI가 자의식을 가지고 자체적으로 판단하는 수준까지 발전하지는 않았는데요. 벌써부터 그런 상황을 우려하는 목소리가 있습니다. 반대의 목소리가 존재해도 AI는 발전할 수밖에 없습니다. 우리가 할 수 있는 건 벤치마크 데이터, 필터링 등의 수단을 통해 AI를 안전한 방향으로 이끄는 겁니다. 셀렉트스타의 최종 목표는 AI로 사람들의 삶을 편리하게 만드는 것이니까요.”

/진은혜 에디터