엔씨 AI센터 산하 Speech AI Lab의 음성합성팀은 텍스트로부터 사람의 목소리를 만들어내는 음성합성 기술을 연구합니다. 보다 자연스러운 목소리와 깨끗한 음질의 음성을 만들기 위해 연구개발에 힘쓰고 있는데요, 최근에는 음성합성팀에서 고안한 뉴럴 보코더 기술 ‘VocGAN’이 국제학회에 게재 승인되는 등 그 기술력을 인정받기도 했습니다.
이번 기사에서는 우리의 일상에 조금 더 가까워진 엔씨의 AI 음성합성 기술을 다룹니다. 이제 음성합성 기술은 학술의 차원을 넘어, 유저를 위한 서비스에 활용되는 단계로 나아가고 있습니다. 기계음의 한계를 넘어서기 위한 도전 과정과 실제 음성합성 기술이 적용된 사례를 소개합니다.
일상에 더 가까워지는 음성합성 기술
음성합성 기술이 적용될 수 있는 분야는 무궁무진합니다. 이미 오디오북 서비스나 AI 스피커에서 AI 합성음을 들어본 경험이 있을 것입니다. 여기에 필요한 음성의 발화 스타일은 각 서비스의 성격에 따라 다르며, 이를 실현하기 위한 기술의 난이도에도 차이가 있습니다.
엔씨의 음성합성 기술은 초기 단계부터 게임 캐릭터의 다이내믹한 감정 표현과 발화 스타일을 생성해 내는 데 집중했습니다. 게임 캐릭터의 성격을 입체적으로 표현하기 위해서는 극적이고 다양한 발화 스타일이 필요합니다. 때문에 엔씨의 음성합성팀은 다양한 발화 스타일을 생성할 수 있는 TTS(Text-to-Speech, 음성합성) 기술 개발을 목표로 연구를 해오고 있습니다.
효과적인 기술 개발을 위해 연구의 초반부터 잠재력이 큰 딥러닝 기술을 적극적으로 도입했습니다. 그 과정에서 시행착오를 겪으며 노하우를 얻을 수 있었고, 다수의 음성 데이터와 모델을 구축했습니다. 현재 엔씨는 생동감 있는 발화 스타일과 감정 표현이 중요한 분야에서 타사보다 큰 강점을 가지고 있습니다.
사투리 음성으로 소개하는 소설 ‘위저드 베이커리’. 음성합성팀은 사내 방송을 통해 매주 한 권의 책을 AI 합성음으로 소개하는 ‘엔씨 AI 북스’를 운영했습니다. 약 1년간 서비스를 운영하면서 지속적으로 음질과 자연성(naturalness)을 검토할 수 있었고, 모델을 튜닝하는 과정을 거쳤습니다. 또한 임직원이나 게임 캐릭터 등의 목소리를 생성하고 사투리를 합성하는 등 다양한 시도를 하면서 상용화에 필요한 노하우를 쌓을 수 있었습니다.
이와 함께 깨끗한 음질을 만들 수 있는 뉴럴 보코더 기술 ‘VocGAN’을 개발하면서(관련 기사), 품질과 연구의 효율성이 크게 향상되었습니다. 기존에 사용하던 보코더의 경우, 충분한 성능을 발휘하기 위해선 화자가 추가될 때마다 모델을 추가로 학습해 적응시키는 과정이 필요했습니다. 즉, 화자가 30명이라면 보코더 모델이 30개 필요하고 매번 추가로 학습하는 과정을 거쳐야 했습니다.
하지만 VocGAN을 개발하면서는 새로운 화자가 생겨도 보코더는 별도로 학습할 필요 없이 기존 모델을 공유해 사용할 수 있게 됐습니다. 이러한 변화로 인해 학습에 필요한 시간은 물론이고 GPU 등 보코더를 위한 비용도 크게 줄일 수 있었습니다. 이로써 중요한 연구에 집중할 수 있게 되어 전반적인 연구개발 속도가 빨라졌습니다. 또한 품질도 크게 향상돼 대중에게 서비스할 수 있을 만큼의 추진력을 얻게 되었습니다.
엔씨에서 음성합성 기술을 활용하는 법
올해 초부터 음성합성 기술은 음성 데이터가 필요한 여러 부서에서 사용하기 시작하면서 다양한 활용 사례를 만들어가고 있습니다. 특히 보다 쉽고 편리하게 음성합성 기술을 활용할 수 있도록 시스템도 마련하고 있습니다.
음성합성팀은 REST-API와 웹앱 등을 통해 사내 부서에 ‘합성기’를 제공하고 있습니다. 이 합성기는 사용자가 텍스트를 입력하면 원하는 목소리로 음성을 출력해 주는 시스템으로 게임 개발이나 영상 제작 과정에 활용되면서 업무의 효율성을 높일 수 있게 되었습니다.
1. <블레이드 & 소울> 게임 홍보 영상 내레이션
최근 제작된 영상 ‘[B&S COMPLETE] 캐릭터 성장’ 편에서 들리는 목소리는 음성합성 기술로 만들어낸 AI 음성입니다. <블레이드 & 소울> 프론티어 서버의 게임 튜토리얼 가이드 영상에 더빙된 내레이션은 합성음으로 제작되고 있습니다.
과거에는 내레이션 작업을 위해 영상 내용에 어울리는 목소리를 찾아, 성우가 직접 대사를 익히고 녹음을 진행해야만 했습니다. 음성합성팀의 합성기가 제공된 이후에는 성우를 섭외할 필요가 없어졌고, 이로 인해 대사의 수정도 용이해졌습니다. 영상 제작자는 제작 시간과 비용을 단축시키면서 고품질의 영상을 제작할 수 있게 되었습니다.
앞으로 영상 제작의 수요는 더 커질 것으로 예상됩니다. 누구든 손쉽게 영상을 만들 수 있고, 더 많은 사람이 영상으로 커뮤니케이션할 것입니다. 대화하듯 자연스러운 음성을 출력하는 것이 강점인 엔씨의 음성합성 기술은 앞으로 활용 범위가 더 넓어질 것입니다. 실제로 <블레이드 & 소울> 외에 다른 IP의 게임 공략 영상이나 공지 영상에도 이 기술이 사용될 예정입니다.
2. 게임 캐릭터 음성 시뮬레이션
게임 개발 과정에도 음성합성 기술이 쓰이고 있습니다. 게임 개발 부서는 합성기를 사용해 개발 단계에서 캐릭터의 대사 음성을 사전 테스트하면서, 대사 내용이나 분량을 최적화하고 있습니다.
과거에는 성우가 녹음을 모두 마쳐야 텍스트에 대한 전체적인 파악이 가능했습니다. 그러나 음성합성 기술을 적용한 이후에는, 기획 단계에서부터 녹음 전까지 어느 단계에서나 대사 길이, 타이밍, 분위기 등을 점검할 수 있어 기획 완성도를 높일 수 있게 되었습니다.
또한 간편한 사전 테스트를 통해 성우가 녹음하기 전에 숙지해야 할 부분을 확인할 수 있어, 재녹음을 방지하고 작업 시간을 단축함으로 개발 과정에서 이전보다 효율적인 생산성을 갖추게 되었습니다.
3. <버프툰>의 무빙툰 홍보 영상 내레이션
엔씨의 웹툰 플랫폼 <버프툰>의 홍보 영상에서도 AI 음성합성 기술을 만나볼 수 있습니다. 위 영상은 지난 9월부터 메가박스 코엑스점과 성수점 내 전광판에서 상영되는 무빙툰 홍보 영상 <러브 둥둥 시리즈>입니다.
엔씨의 음성합성 기술을 활용한 덕분에 애니메이션 싱크를 맞추기 위해 발화 스타일이나 어조 등을 유연하게 조절할 수 있었고, 대사를 쉽게 수정할 수 있어서 영상 제작 작업의 효율성을 전반적으로 높일 수 있었습니다
게임 속 캐릭터의 생생한 AI 음성을 향해
음성합성이 상용 서비스 수준에 이르기 위해서는 기본적으로 고품질의 음질과 사람이 말하는 것 같은 자연스러움이 함께 갖춰져야 합니다. 또한 안정적으로 서비스할 수 있도록 인프라를 구축하는 것도 필요합니다.
엔씨는 수백 가지의 각기 다른 합성음을 생성할 수 있는 일련의 과정, 즉 음성 데이터의 축적에서 딥러닝 모델 학습, 합성음 생성 테스트와 서비스의 배포까지가 클라우드에 자동화되어 있습니다. 앞으로는 서버 비용을 절감하기 위해 합성 모델의 경량화와 연산량의 최적화를 목표로 연구에 더욱 노력을 기할 것입니다.
또한 음성합성 기술을 다양한 응용 서비스에 적용해 그 활용 범위를 넓혀갈 계획입니다. 실제 유저들이 사용하는 서비스에 기술을 적용해 본 경험은 새로운 기술의 발전을 가져올 것이며, 음성합성 기술이 한 단계 성숙하는 계기가 될 것입니다.
엔씨의 Speech AI Lab 음성합성팀의 궁극적인 목표는 게임 속 수많은 캐릭터의 음성을 AI 합성음으로 생성하는 것입니다. 게임 캐릭터를 실감나게 만드는 요소 중 하나는 생생하고 자연스러운 목소리입니다. 플레이어들은 게임 속 작은 변화도 금방 감지할 수 있습니다. AI 기술로 만들어진 음성이 귀에 거슬리지 않고, 게임의 몰입감을 높이는 수준까지 도달할 수 있도록 퀄리티를 향한 도전은 계속될 것입니다.
양진혁
AI Center Speech AI Lab 음성합성팀 팀원.
판타지를 수천 권 읽으며
미래에 다가올 게임을 그려보게 되었고,
그 대업에 합류하기 위해 AI를 공부했습니다.
완전한 자유도의 가상 세계를 구축하겠다는
목표를 갖고 있습니다.
AI Center Speech AI Lab 음성합성팀 팀원.
판타지를 수천 권 읽으며
미래에 다가올 게임을 그려보게 되었고,
그 대업에 합류하기 위해 AI를 공부했습니다.
완전한 자유도의 가상 세계를 구축하겠다는
목표를 갖고 있습니다.
김영익
AI Center Speech AI Lab 음성합성팀 팀장.
화자의 감정과 발화 스타일을 자연스럽게 표현하는
고품질 음성합성 기술을 만들고,
NCSOFT가 만드는 다양한 서비스에
적용해 보고 싶은 꿈을 가지고 있답니다.
AI Center Speech AI Lab 음성합성팀 팀장.
화자의 감정과 발화 스타일을 자연스럽게 표현하는
고품질 음성합성 기술을 만들고,
NCSOFT가 만드는 다양한 서비스에
적용해 보고 싶은 꿈을 가지고 있답니다.
조훈영
AI Center Speech AI Lab 실장.
현재 AI 기술은 사회 각 분야에서
흥미롭고 근본적인 변화를 만들고 있습니다.
음성이라는 매력적이고도 편리한 수단을 통해
사람과 사물이 다양한 형태로 교감하는
미래를 만들어 나가고자 합니다.
AI Center Speech AI Lab 실장.
현재 AI 기술은 사회 각 분야에서
흥미롭고 근본적인 변화를 만들고 있습니다.
음성이라는 매력적이고도 편리한 수단을 통해
사람과 사물이 다양한 형태로 교감하는
미래를 만들어 나가고자 합니다.