한국어
    • 한국어
    • ENGLISH
    • 日本語
    • 中文-繁體

    2023.08.18 AI

    2023 INTERSPEECH 게재 논문 3편 소개

    엔씨 AI Center 산하 Speech AI Lab이 음성 분야 Top-tier 국제 학술대회인 INTERSPEECH에 4년 연속으로 논문을 게재하는 성과를 거뒀습니다. Speech AI Lab은 발화와 음성의 퀄리티를 높이는 연구에 관한 논문들을 INTERSPEECH를 통해 선보여왔는데요. 이전에는 자연스러운 발화와 AI 가창 등에 초점을 맞추었다면, 이번에는 ‘사람과 상호작용할 수 있는 디지털 휴먼’을 위해 실제 사람과 소통하는 것에 가까운 경험을 제공하는 다양한 인공지능 모델과 시스템을 연구한 결과를 선보였습니다.

    엔씨는 사용자와 소통할 수 있는 디지털 휴먼을 구현하기 위해 노력하고 있습니다. 사용자에게 최적화된 디지털 휴먼을 만들기 위해, 자연스러운 언어를 구사할 뿐만 아니라 사용자의 음성 및 동작을 인식하는 기술을 개발하는 데 주력하고 있습니다. 이번 INTERSPEECH에서 발표한 흥미로운 연구 성과들은 ‘내가 직접 별명을 붙여줄 수 있고’, ‘언제 어디서나 빠르게 대답하며’, ‘나의 마음을 읽고 공감해주는’ 나만의 디지털 휴먼의 등장을 앞당기는 데 도움이 될 것입니다. 음성 기술의 미래를 엿볼 수 있는 세 편의 연구 내용을 소개합니다.


    디지털 휴먼에게 고유한 이름이 요구되고 있다

    논문 제목: “PhonMatchNet: Phoneme-Guided Zero-Shot Keyword Spotting for User-Defined Keywords”
      
    Speech AI Lab 이용혁, 조남현

    보다 자세한 연구 내용은 NC Research 블로그에서 확인하실 수 있습니다. 바로가기

    우리는 기계에게 말을 거는 것이 이상하지 않은 세상에 살고 있다. 우리 시대에는 사람과 기계가 ‘소통’한다. 사람들은 자동차 외에도 AI 스피커, 스마트폰 등의 각종 가전에 질문하고 정보를 얻거나 명령한다. 이때 우리가 기계를 부르는 ‘시리야’, ‘알렉사’, ‘헤이 구글’과 같은 말이 ‘호출어’다. 호출어를 인식(Keyword Spotting, KWS)하는 기술은 사람-기계 간 소통의 핵심 기술 중 하나다. 최근 ‘호출어’에 대한 사용자화, 즉 나만의 호출어에 대한 연구들이 이루어지고 있다.

    이러한 경향은 개인의 특성에 맞춰진 기계와 소통하며 대화하고 싶어 하는 사용자의 니즈를 반영한다. 본격적인 디지털 휴먼의 시대로 접어들면 이러한 니즈가 더욱 심화될 것이다. 따라서 엔씨에서는 사용자의 다양한 호출어에 대응할 수 있는 인식 기술인 사용자 정의 호출어 인식(User-Defined KeyWord Spotting, UDKWS) 기술을 연구하고 있다.

    사용자 정의 호출어 인식 기술 개발의 어려운 점

    기술을 구현하는 방법은 간단해 보인다. 사용자가 원하는 이름으로 호출어 인식 모델을 학습하면 되지 않을까? 하지만 사용자가 원하는 이름으로 호출어 인식 모델을 학습하는 데는 어려움이 따른다. 호출어와 비호출어를 구별하는 모델을 학습하기 위해서는 수천 개 이상의 학습용 음성 자료가 필요하지만, 이러한 학습 자료를 확보하기가 쉽지 않다. 호출어를 변경할 때 사용자가 직접 추가로 녹음하는 경우 발생할 수 있는 기술 외적인 문제도 고려해야 한다. 커스터마이징 측면에서는 강력한 성능 향상을 가져올 수 있지만 사용자가 번거로워질 수밖에 없고, 나아가 개인정보 보호에 대한 문제가 발생할 수 있다. 더구나 사용자는 빠른 응답을 원하기 때문에 서버-클라이언트 구조보다는 디바이스 내부에서 동작하는 모델을 선호한다. 이로 인해 고성능 음성 인식 모델을 구성하고 백그라운드에서 지속적으로 동작시키는 구조를 배제하게 되므로 활용할 수 있는 자원도 제한된다.

    내가 별명을 붙여줄 수 있는 디지털 휴먼

    엔씨는 개인화 디지털 휴먼 등에 필요한 다양한 호출어와 관련하여 Zero-shot Keyword spotting 모델을 채택했다. 기존의 사용자 지정 호출어 연구와 차별적인 점은 바로 발음열*에 관한 부분이다. 이전 기술이 단어 1 vs. 단어 2가 ‘같냐/다르냐’를 학습했다면, 엔씨가 제안한 모델은 단어 1 vs. 단어 2와 더불어 단어 1의 발음열 vs. 단어 2의 발음열까지 비교하여 발음이 비슷한 단어들도 보다 명확히 구분할 수 있다. 즉, 대량의 일반 발화 DB에서 음성(Speech) 정보와 발음(Phoneme) 정보의 일치성을 학습하여 음성-텍스트 간 동일성을 판단하는 모델을 구성하고, 이를 바탕으로 임의의 호출어에 대해 발화 여부를 판단할 수 있는 PhonMatchNet을 제안한 것이다. 이 연구를 적용하면 Zero Shot, 즉 추가 음성 데이터 수집 및 학습처럼 번거로운 과정을 거치지 않고 사용자 지정 호출어를 유연하게 추가할 수 있다. 호출어 하나를 온전히 학습하기 위해 방대한 데이터를 수집하고 학습하는 데 드는 시간과 비용을 대폭 절감할 수 있다. 특히 이 연구는 제2 외국어 교육에서 발음 수준을 평가하는 데 활용할 수도 있어 활용도가 높기 때문에 8월 말을 목표로 특허 출원을 진행하고 있다.

    * 정확히는 phoneme, 음소라고 한다. 단어는 여러 발음의 합으로 하나의 단어를 구성하는데, 이 발음 구성들의 최소 단위를 음소라고 한다. 

    제안 모델 구조

    언제 어디서나 빠르게 대답하는 디지털 휴먼

    논문 제목: “Fast Enrollable Streaming Keyword Spotting System: Training and Inference using a Web Browser”
      
    Speech AI Lab 조남현, 김선민, 강요셉, 김희만

    보다 자세한 연구 내용은 NC Research 블로그에서 확인하실 수 있습니다. 바로가기

    엔씨는 더 나아가 이러한 음성 인식 모델이 소비자와 보다 가까운 곳에서 빠르게 응답하도록 만들기 위한 연구를 진행했다. 그중 하나로 웹에서 구동할 수 있는 호출어 학습 및 인식 프레임워크 플랫폼을 개발함으로써, 딥러닝 모델은 서버에서만 돌릴 수 있다는 기존 한계점을 극복한 연구 사례를 발표했다.

    디바이스 내부에서 빠르게 응답하는 모델을 만들기 위해서는 데이터 경량화가 필수적이다. 그러기 위해 우선 keyword spotting system 구축에 음성 임베딩 모델을 사용함으로써 음성 신호의 특징에 대한 사전 정보를 활용하는 방식을 통해 학습 자료가 무척 적더라도 호출어 인식 모델을 학습하도록 했다. 또한 새로 입력된 음성 정보로 인해 재계산해야 하는 영역만 새로 계산하고, 중복 연산 영역은 이전 프레임의 연산 결과를 그대로 사용하는 stream-able 형태로 모델을 개선하여 중복 연산을 제거했다.

    이렇게 경량화한 호출어 모델을 구동하기 위해서, 기존에는 반드시 서버를 거치는 구동 환경을 갖춰야 하는 문제가 있었다. 딥러닝 모델과 라이브러리가 웹 브라우저에서 이해할 수 없는 형태로 작성되어 있기 때문이다. 하지만 엔씨가 생각하는 디지털 휴먼은 가장 범용적인 플랫폼에서 가볍게 구동할 수 있어야 했다. 따라서 현재 배포 중인 웹 브라우저들이 딥러닝 관련 코드들을 이해할 수 있도록 WebAssembly를 활용하여 웹 브라우저에서 실시간으로 inference하도록 하여 문제를 해결했다. 이 환경을 사용하면 웹 브라우저에서 딥러닝 모델을 구동할 수 있다. 즉, 사용자는 어떤 OS와 플랫폼에서든 웹 브라우저를 통해 키워드 호출 모델을 직접 생성하고 독립적으로 구동까지 할 수 있다. 또한 서버를 거치지 않고 웹에서 바로 모델을 돌리기 때문에 압도적으로 빠른 반응 속도를 기대할 수 있다.

    제안 모델 구조

    개인화된 디지털 휴먼을 위해 꼭 필요한 기술

    앞서 소개한 “PhonMatchNet: Phoneme-Guided Zero-Shot Keyword Spotting for User-Defined Keywords” 연구와 이번 연구는 ‘호출어’를 키워드로 세트를 이룬다. 엔씨가 개발하고자 하는 ‘개인화된 디지털 휴먼’이란 각각의 사람에게 맞춤화된 디지털 휴먼을 의미한다. 위의 두 연구는 소량의 학습 자료로 개별적인 이름을 쉽게 부여받고 적은 비용으로도 좋은 성능을 구현하는 디지털 휴먼에 관한 것들이다. 이로써 디지털 휴먼들은 사용자가 지어준 이름으로 불릴 수 있게 되었다. 또한 이들은 우리와 보다 가깝고 친숙한 플랫폼을 통해 실시간에 가깝게 소통할 수 있을 것이다. 그럼으로써 사용자들에게 더욱 ‘개인화된 경험’을 제공할 수 있을 것이다.

    앞으로 엔씨는 다양한 최적화 기법을 통해 디지털 휴먼이 더 빠르고 가볍게 동작하도록 할 것이다. 디지털 휴먼은 영어 외에 한국어, 일본어, 중국어, 스페인어 등의 언어에 대한 종속성이 없기 때문에 무한히 확장할 수도 있다. 내외부의 잡음으로부터 가장 강한 모델을 만드는 것도 중요하다. 텍스트와 소리 외에 영상 정보를 같이 입력하면 잡음이 많은 극한의 환경에서도 강건성을 발휘할 수 있다.

    나의 마음을 읽고 공감하는 디지털 휴먼

    “Focus-attention-enhanced Crossmodal Transformer with Metric Learning for Multimodal Speech Emotion Recognition”
      
    Speech AI Lab 김글빛, 조남현

    보다 자세한 연구 내용은 NC Research 블로그에서 확인하실 수 있습니다. 바로가기

    지금까지의 사람-기계 간 소통은 대화라고 할 수 없을 정도로 수직적이고 일방적인 의사소통에 가까웠다. 사람이 궁금한 것을 묻거나 필요한 사항을 지시하면 기계가 반응하는 목적성 대화 관계에 그쳤다. 그러나 엔씨는 사람의 감정을 읽고 보다 의미 있는 반응을 주고받을 수 있는 디지털 휴먼을 추구한다. 그러기 위해서는 감정 인지 능력이 필수적이다. 하지만 감정을 인지하려면 음성은 물론이고 몸짓, 표정, 맥락 등을 복합적으로 인지한 후 종합적으로 판단해야 하기 때문에 사람에게도 고난이도 영역이다. 즉, 음성, 얼굴 표정 각각의 단일 모달리티만 고려하는 것이 아니라 멀티모달 기술*에 대한 연구가 필요했다. 이러한 배경에서 출발하여 텍스트와 음성 두 가지의 모달리티를 가지고 멀티모달 감정 인식 연구를 시작했다.

    * 여러 종류의 데이터를 조합해 서로의 관계성을 학습 또는 표현하는 기술

    사람의 감정 인식, 초고난이도 문제에 대한 도전

    이 연구에서는 세 가지 문제를 해결할 수 있었다. 우선 멀티모달 감정 인식 연구에서 어려운 점은 단일 모달리티가 아닌 여러 모달리티가 공존하는 paired data가 부족하다는 것이다. 이러한 데이터를 충분히 수집하거나 레이블링할 때는 많은 비용이 든다. 때문에 레이블링되지 않은 대용량 데이터로 사전 학습된 음성과 텍스트 SSL(Self-Supervised Learning) 모델을 활용하는 방법을 통해 데이터 부족 문제를 극복하고자 했다.

    다음으로, 멀티모달 감정 인식에서는 두 모달리티(음성과 텍스트)를 통해 감정을 판단할 때 ‘중요한 부분’을 파악하는 것이 어렵다. 예를 들어 “하아, 주식이 폭락해서 정말 미치겠다”라는 문장에서 감정을 인식할 때 텍스트에서는 ‘폭락’, ‘미치겠다’라는 부정적 단어에서 감정을 판단하고, 음성을 들을 때는 문장 앞의 한숨과 어미의 힘없는 발화에서 감정을 판단한다. ‘사람 같은’ 인지 메커니즘을 모방하기 위해서는 각 모달리티의 서로 다른 부분에 직관적으로 포커스를 맞추어 감정을 인식하는 방식을 모델링하는 네트워크 설계가 필요했다. 이를 위해 새로운 focus-attention 메커니즘을 적용한 fusion network를 설계하여 각 모달리티에서 감정을 판단하는 데 중요한 부분을 파악했다. 마지막으로 metric learning 기법을 적용하여 서로 다른 감정들이 서로 다른 분류 공간에 위치하고, 비슷한 감정들이 비슷한 분류 공간에 위치하도록 했다. 이러한 방법을 통해 감정을 분류하는 분류기의 설계를 개선하고, 감정 인식의 정확도와 성능을 향상시키고 이를 증명했다. (최고 수준: 80, 논문 수준: 78).

    제안 모델 구조

    Multimodal 디지털 휴먼 연구의 첫 단추

    디지털 휴먼을 발전시키는 과정에서 가장 중요한 목표 중 하나는 사람처럼 감정적으로 대화할 수 있는 능력을 갖추는 것이다. 논문에서는 사람이 멀티모달 정보를 인지하는 방식을 모방하여 상대방의 감정을 파악하고 자연스럽고 적절하게 응답하는 감성 대화 기능을 구현했다. 이러한 기능은 기존의 목적성 대화 관계에서 벗어나 사람의 감정을 더욱 자연스럽게 이해하고 반영하여 대화하도록 해준다. 이는 디지털 휴먼이 사용자와 수평적 관계를 구축하고, 나아가 사용자의 진정한 조력자로서의 역할을 수행하는 데 도움을 줄 것이다. 멀티모달 입력에 기반한 감정 인식 모듈에는 음성과 텍스트 정보가 활용되었다. 앞으로 엔씨는 이미 보유한 Vision, NLP 분야를 포함하여 연구를 확장하고, 수준 높은 감정 인지 능력을 갖춘 디지털 휴먼을 개발하는 데 활용할 계획이다.

    깊이 상호작용하는 디지털 휴먼을 위한 끊임없는 도전과 연구 개발

    작년 NC Speech AI Lab의 연구 목표는 AI 음성 합성 기술 개발을 넘어 음악 등 다양한 분야와의 융합을 통해 엔씨만의 디지털 휴먼 관련 핵심 기술로서 경쟁력 높은 음성 AI 기술을 구축하는 것이었다. 다양한 언어를 구사할 뿐만 아니라 목소리와 어투만으로도 상황을 파악할 수 있을 만큼 풍부한 감정 인식과 표현, 특색 있는 목소리, 음성 요소들을 자유롭게 조작할 수 있는 음성 AI 기술을 구현하는 것이 중심이었다. 그에 비해 올해는 좀 더 나아가 인간과 디지털 휴먼의 상호작용 수준을 높이기 위한 연구를 진행했다.

    엔씨의 지향점은 높은 수준의 상호작용을 바탕으로 사용자마다 개인적으로 맞춤화할 수 있는 ‘나만의 디지털 휴먼’이다. 이를 위해 다양한 감정과 실제 데이터를 수집하고 성능을 개선하기 위한 연구와 노력을 지속하고 있다. 이러한 연구들은 미래의 인공지능과 인간의 상호작용을 더욱 풍부하게 하고 더 나은 사용자 경험에 기여하며, 우리 일상 속의 디지털 휴먼이 더욱 자연스러운 파트너로 성장할 수 있도록 도울 것이다. ‘더 사람다운’ 디지털 휴먼을 개발하기 위한 엔씨의 고민과 도전은 끊임없이 계속된다.

    자세한 논문 내용은 NC Research에서 확인하세요. 바로가기