엔씨 AI 센터 산하 Speech AI Lab의 보이스 컨버젼(Voice Conversion) 팀과 음성합성팀에서는 사람의 다양한 억양을 표현하고 제어하는 운율 제어(prosody control) 기술을 연구하고 있습니다. 이들은 보다 심도 깊은 연구를 위해 합성음이 따라 할 수 있는 ‘가장 역동적이고 다양한 감정을 담은’ 발화 모델을 찾아야 했는데요.
프로 야구 경기를 시청하면 경기를 중계하는 스포츠 캐스터가 있습니다. 캐스터는 경기의 흐름에 따라 다양한 발화의 형태를 선보입니다. 선수를 소개할 때는 글을 읽듯이 말하지만, 타자가 홈런을 치거나 주자가 아쉽게 아웃이 됐을 때는 격한 감정을 표현하기도 합니다. 엔씨는 캐스터의 발화 스타일을 따라 감정 표현의 수준과 강도를 조절하고, 여러 종류의 감탄사를 합성할 수 있도록 기술을 연구했습니다. 그렇게 스포츠 중계체라는 하나의 발화 스타일을 정의하면서 합성음으로 야구를 중계할 수 있는 정도의 모델을 선보이게 되었는데요. 이번 포스팅에서는 이 ‘중계체 음성합성 기술’에 대한 연구 과정을 소개합니다.
보다 풍부한 감정 표현을 담은 합성음의 새로운 발화 스타일 ‘중계체’
음성합성 연구의 시작은 일반적으로 많이 사용되는 ‘낭독체’였습니다. 낭독체는 뉴스를 전하거나, 책이나 안내문 등의 글을 소리 내어 읽어 정보를 전달하는 데 많이 사용됩니다. 그런데 만약 아래와 같은 스포츠 경기 문자 중계를 TTS를 이용해 중계한다면 어떨까요? 아마 낭독체 음성합성으로는 실제 경기에서 캐스터가 경기 상황에 따라 역동적이면서도 다양한 감정을 더해 중계하는 느낌을 살리기 어려울 것입니다. 아니, 오히려 밋밋한 느낌을 줄 것입니다. 그래서 저희는 스포츠 중계가 운율 표현 연구의 꽃이라는 생각으로 중계체라는 발화 스타일을 정의하고 연구하기 시작했습니다.
낭독체, 대화체와는 다른 중계체
중계체는 기존 음성합성에서 많이 사용되는 낭독체, 대화체와는 또 다른 새로운 발화 스타일인데요. 그 차이를 간단히 설명해 드리겠습니다. 낭독체는 글을 읽는 말투(발화 스타일)이며, 대화체는 실제 사람들이 대화할 때 나타나는 발화 스타일입니다. 상대방의 말에 공감하는 감탄사, 말하는 도중 생각할 시간을 갖거나 말을 이을 때 사용하는 ‘음…’, ‘그…’, ‘저…’와 같은 간투어, 감정 표현, 발화 오류, 단어를 반복하는 발화 반복 등을 포함합니다.
중계체는 선수 소개, 경기 진행에 대한 상황 설명 등을 할 땐 낭독체 또는 대화체 성격을 띠지만, 경기가 흥미진진하게 진행될 때는 일반적인 감정 표현 수준을 벗어나 ‘네~ 쳤습니다. 홈런입니다~’ 등 극도의 기쁨을 나타내거나 ‘아~!’, ‘이런!’ 등 허탈감과 격한 감정을 표현하는 다양한 레벨의 감탄사가 포함되기도 합니다.
[그림 2] 발화 스타일별 기술의 난이도: 낭독체 < 대화체 < 중계체 음성합성
3할 1푼 2리의 타율, 138타수 43안타 32타점 7개의 홈런이 있습니다.
1사 주자 1루, 주자 스타트! 아~ 태그 아웃입니다!
이 타구는 센터 쪽 우중간으로 떠서 담장~~~밖으로~~~넘어갑니다~~~!
단숨에 동점 투런 홈런 시즌 10호를 때려내는 엔씨의 양의지입니다.
첫 타석에서 경기 중반에 홈런을 친다는 것이 참 어려운 일인데, 그 어려운 걸 해내네요.
중계체 음성합성 기술은 무엇을 가능하게 하는지 간단히 정리하면 다음과 같습니다.
감정 표현의 강도 (level) 제어 (예: 아쉬움, 매우 아쉬움)
여러 종류의 감탄사 합성
생동감 넘치는 음성 합성
그럼, 현재까지 진행된 엔씨의 중계체 음성합성 기술을 다양한 합성음 샘플과 함께 살펴보겠습니다. “네~ 쳤습니다. 홈런입니다, 홈런~~~! 담장을 훌쩍 넘어갑니다~~~!”라는 예시 문장으로 낭독체 음성합성과 중계체 음성합성의 차이를 샘플을 통해 확인해 보겠습니다.
경기 상황에 따라 다른 발화 스타일
야구 경기 상황에 따라 달라지는 캐스터의 발화 스타일을 몇 가지 세부 범주로 구분해 정의하고 그에 따라 중계체 음성을 합성했습니다. (1) 선수 소개, (2) 볼 카운트 또는 구질 등의 해설, (3) 안타, 홈런, 번트 등의 이벤트 발생에 따른 합성음 샘플을 들어 보겠습니다.
* 해당 글의 영상들은 저작권 문제로 엔씨소프트 블로그에서만 활용 가능합니다.
[영상 2-2] 볼 카운트, 구질 등의 해설 시 중계체 합성음
[영상 2-3] 안타, 홈런, 주자 이동 상황 발생 시 중계체 합성음
안타와 끝내기 안타는 다르니까
야구를 보면 동일하게 타자가 공을 친 상황에서도 안타인지 홈런인지에 따라 캐스터의 상황 전달 분위기는 각각 다릅니다. 만약 9회말 아슬아슬하게 지고 있는 팀이 홈런을 쳤을 때를 상상해보면, 캐스터의 톤에는 조금 더 흥분감이 느껴질 것입니다. 음성 합성은 같은 스타일 내에서도 표현 강도를 세부적으로 조절할 수 있습니다. 따라서 실제 캐스터처럼 상황에 어울리도록 중계체 합성음의 표현 강도를 조절하면 생동감 넘치는 상황을 더 잘 전달할 수 있습니다.
“때렸습니다~ 우중간 안타입니다!” (강도 약하게)
“때렸습니다~ 담장을 넘었습니다~ 박민우의 솔로 홈런!” (강도 강하게)
중계체 합성음으로 만드는 나만의 편파중계
중계체 음성합성 기술을 이용해 아래의 샘플처럼 같은 경기에 대해 편파 중계를 할 수도 있습니다. 예를 들어 내가 응원하는 팀의 짜릿한 홈런이 상대팀에게는 뼈아픈 실책일 수도 있으니까요.
* 해당 글의 영상들은 저작권 문제로 엔씨소프트 블로그에서만 활용 가능합니다.
이 밖에도 중계체 음성합성 기술은 e-Sports 게임 중계나 축구, 농구 등 스포츠 장르 전 분야에 걸쳐 응용될 수 있으며, 여러 가지 종류의 야구 게임에서도 In-game 정보 전달이나 게임 진행 상황에 대한 해설 등 다양하게 활용될 수 있습니다.
마치며: 운율 표현 연구의 꽃, 운율 제어 기술
TTS(Text-To-Speech)와 Vocoder 기술이 발전함에 따라 합성음이 자연스러워지고 음질이 깨끗해짐에 따라 실제 사람이 읽어 주는 것 같다는 평가를 받고 있습니다. 다양한 분야에서 음성합성 기술이 사용되고 있습니다. 이와 더불어 더 사람과 유사한 합성음에 대한 수요도 증가했습니다. 예를 들어 게임 내 영상인 시네마틱 무비(Cinematic movie)와 인게임 컷 씬(In-game cut-scene)에서는 캐릭터(인물) 간의 복합적인 감정이 표현된 대사가 오가거나, 캐릭터 특성에 어울리는 발화 스타일이 필요합니다. 또한 글 내용(의문문, 감탄문 등)에 따라 톤(발랄, 차분 등), 발화 속도, 운율 조절 등이 필요하기도 합니다.
운율 제어는 음성합성 연구 분야에서 점점 더 활발하게 연구될 것으로 전망됩니다. 중계체 음성합성이라는 세부 영역은 운율 연구를 위한 매우 흥미로운 발화 현상들을 포함하고 있는 만큼, 엔씨에서는 앞으로도 더 디테일한 운율 제어 기술들을 확보하기 위해 연구를 부단히 이어가고자 합니다.
** 경기 영상 제공: PAIGE
배한빈
AI Center, Speech AI Lab, Voice Conversion 팀원.
사람이라는 우주를 수학이라는 예술로 표현하고 싶습니다.
현재는 음성 행성을 정복 중입니다.
AI Center, Speech AI Lab, Voice Conversion 팀원.
사람이라는 우주를 수학이라는 예술로 표현하고 싶습니다.
현재는 음성 행성을 정복 중입니다.
배재성
AI Center, Speech AI Lab, Voice Conversion 팀원.
생기 있고 다양한 발화 스타일을 가지는 합성음으로 사람들에게 즐거움을 주고 싶습니다.
나아가 인류 기술이 한 걸음 더 발전하는 데 보탬이 되고 싶은 꿈이 있습니다.
AI Center, Speech AI Lab, Voice Conversion 팀원.
생기 있고 다양한 발화 스타일을 가지는 합성음으로 사람들에게 즐거움을 주고 싶습니다.
나아가 인류 기술이 한 걸음 더 발전하는 데 보탬이 되고 싶은 꿈이 있습니다.
주영선
AI Center, Speech AI Lab, Voice Conversion 팀장.
음성신호 연구자에게 미지의 분야였던 게임 회사에 입사하여
게임 분야에 활용할 수 있는 음성 변환 및 음성 합성 기술을 연구하고 있습니다.
AI Center, Speech AI Lab, Voice Conversion 팀장.
음성신호 연구자에게 미지의 분야였던 게임 회사에 입사하여
게임 분야에 활용할 수 있는 음성 변환 및 음성 합성 기술을 연구하고 있습니다.
조훈영
AI Center Speech AI Lab 실장.
현재 AI 기술은 사회 각 분야에서
흥미롭고 근본적인 변화를 만들고 있습니다.
음성이라는 매력적이고도 편리한 수단을 통해
사람과 사물이 다양한 형태로 교감하는
미래를 만들어 나가고자 합니다.
AI Center Speech AI Lab 실장.
현재 AI 기술은 사회 각 분야에서
흥미롭고 근본적인 변화를 만들고 있습니다.
음성이라는 매력적이고도 편리한 수단을 통해
사람과 사물이 다양한 형태로 교감하는
미래를 만들어 나가고자 합니다.