연구가 즐겁다! 소리를 탐험하는 전문가들
지난 WE PLAY 시리즈 1편에서는 TAD팀, 2편에서는 2023년 신입사원들의 모습을 통해 다양성으로 하나 되는 엔씨의 문화를 조명했는데요. 이번 WE PLAY 3편에서는, 즐기며 일하는 엔씨의 DNA를 탑재한 ‘음성AI응용기술 팀’을 소개하겠습니다.
음성AI응용기술 팀은 각기 다른 연구를 하던 전문가들이 모인 곳으로, 각자의 전문성을 최대로 발휘할 수 있도록 편안한 환경을 조성하고 선호도를 반영하여 프로젝트를 분배함으로써, 일하는 즐거움을 공유하고 있습니다.
소리의 가능성을 높이는 전문가 모임
음성AI응용기술 팀은 인간의 감각, 그중에서도 청각과 관련된 분야를 다룬다. 즉, 소리의 신호를 인식하고 생성하며, 유용한 정보를 추출하여 품질을 향상하는 일을 한다.
청각 요소 기술은 특히 ‘디지털 휴먼’을 구성하는 데 필수적이다. 팀은 현재, 연구원 한 명이 하나의 프로젝트를 맡아 전문적으로 진행하고 있다.
프로젝트는 디지털 휴먼의 호출어를 인식하는 호출어 인식(Keyword spotting), 사용자의 감정을 인식하는 멀티모달 감정 인식(Multimodal emotion recognition), 여러 목소리가 섞여 있더라도 각 개인들의 음성을 분리할 수 있는 화자 추출(Target speaker extraction), 환경 소음 제거(De-noise & De-reverberation)로 나뉜다.
향후에는 두 개의 프로젝트를 집중적으로 진행할 예정이다. 주변에서 어떤 소리가 발생했는지 인식하는 음향 이벤트 인식(Sound event detection) 그리고 음향 이펙트 생성(Sound effect generation) 연구에 초점을 맞출 계획이다.
그야말로 소리에 관한 가능성을 키우는, 음성AI응용기술 팀이다.
일할 맛 나는 환경이 효율을 높인다
선호를 존중하는 프로젝트 배정
음성AI응용기술 팀의 프로젝트는 보통 1년 이상 장기간 진행된다. 그렇다 보니 한 프로젝트를 시작할 때 ‘누가 이 프로젝트를 맡을 것인가’를 결정하는 것이 중요하다. 이에 팀은 연구원 개인의 선호 의사를 최대한 존중하여 프로젝트를 할당하고 있다.
프로젝트를 세팅할 때 팀원들은 각자 하고 싶은 연구에 지원하고, 협의하여 각 프로젝트를 맡을 사람을 결정한다. 시키는 일이 아닌 ‘내가’ 하고 싶은 일을 하면서 흥미, 호기심, 재미를 느끼는 사람이 가지는 힘을 믿기 때문이다. 실제로 팀원들이 원하는 주제의 프로젝트를 맡게 되면 신이 나서 더 적극적으로 연구하게 된다. 그리고 스스로 선택한 일인 만큼 더 책임감 있게 연구에 집중할 수 있게 된다. 소위 ‘일할 맛 나는’ 분위기를 팀원들 모두의 선택으로 함께 만들어가는 것이다.
함께 답을 찾아가는 문화
연구를 하는 팀이기에, 연구원들에게 문제 해결 능력은 필수적으로 요구된다. 이들이 문제를 해결하는 방법은 생각보다 간단하다. 서로에게 자유롭게 질문을 하는 것이다.
‘모름’을 부끄러워하지 않는 분위기가 조성되어 있는 덕분에 가능한 일이다. 업무 중 이해가 잘 되지 않는 부분이 있거나 확신이 서지 않는 부분이 있을 때면, 연구원들은 동료들에게 편하게 질문하고 또 편하게 답변을 하면서 함께 답을 찾아간다.
전문성과 효율성을 높이는 문화
일주일에 한 번은 개인의 업무 진행 상황을 공유하는 시간을 갖는다. 한 명씩 돌아가면서 그 주의 순번을 맡아 발표하는데, 그 내용은 여타 보고 회의 때보다 상세하다. 이때 팀은 문제에 대한 의견을 자유롭게 나누고 아이디어를 교환하면서, 보다 빠르고 정확한 방향을 향해 나아간다.
한편 공유회의 발표 자료는 1년간 누적하여 작성한다. 연말에 개인의 연구 포트폴리오가 자연스럽게 완성될 수 있도록 독려하는 차원이다. 이는 평가 대비 업무를 줄이는 효과를 내며 일의 효율성을 증대하고 있다.
즐기는 연구에 뒤따르는 결실
세계 최고 수준 기술임을 인증 받다
눈에 보이는 성과 역시 주목할 만하다. 음성 분야에서 세계적인 규모를 자랑하는 2023 INTERSPEECH 학회에 팀의 논문 총 3편이 등재된 것이다. 이는 개발한 기술이 세계 최고 수준임을 공식적으로 인정받은 것이므로, 5명의 연구원으로 구성된 신설 팀에게는 매우 특별한 일이다.
팀은 프로젝트가 어느 정도 결실을 맺고 종료가 되는 연말과 연초의 시간을 ‘논문 시즌’이라는 애칭을 붙여 운영하고 있다. 팀원들 각자의 연구 성과들이 공식적으로 인정받는 기회를 부여하여, 보다 ‘즐거운’ 연구가 될 수 있도록 최대한 지원하는 것이다.
이번 성과에 대해 조남현 팀장은 “유능한 동료들이 자신들의 가치를 직접 증명해주어서 기쁘다. 연구가 즐거운 팀 문화 속에서 좋은 성과가 뒤따르고 있으니 고양감과 안도감이 든다”고 전했다.
‘진짜 사람’에 가까워지다
음성AI응용기술 팀은 수많은 음성 관련 기술 중에서도 ‘디지털 휴먼’이 ‘진짜 사람’에 가까워질 수 있는 청각 관련 기술 연구에 초점을 맞추고 있다.
주요 연구 주제인 호출어 인식 기술과 멀티모달 감정인식, 특정 화자 음성 추출, 거리 기반 음성 분리 기술은 모두 그 연구 가치가 크다. 음성 추출 기술의 경우에는 음성 인식 기술의 최대 난제인 ‘칵테일 파티 효과’를 해결할 수 있을 것으로 기대되고 있다.
*칵테일 파티 효과(cocktail party effect): 파티 참석자들이 주변 소음이 있는데도 대화 상대방과의 이야기를 선택적으로 잘 받아들이는 현상에서 유래한 용어로, 주변 환경에 개의치 않고 자신에게 의미 있는 정보만 선택적으로 받아들이는 심리적 현상을 말한다.
특허 준비로 지적재산에 기여
해외 특허가 출원된 기술도 보유하고 있다. 디지털 휴먼과 대화할 때 첫 단계가 될 호출어 인식 기술, ‘Zero-shot keyword spotting(ZKWS)’이다. 이 기술은 호출어 모델 생성을 위해 추가 학습이 필요하지 않아 주목받고 있다. 이는 동시점에 발표된 글로벌 빅테크 기업들의 동일 목적 기술보다 모델 크기가 6.5배 더 작음에도, 더 높은 성능을 보였다.
ZKWS 기술은 디지털 휴먼 이외에도 게임 화면 내의 여러 캐릭터들을 음성으로 타겟팅 하기 위한 용도로 활용할 수 있을 것으로 보인다. 또, 함께 출력되는 음소별 정합 점수를 활용하여 언어 학습용 플랫폼에서도 활용할 수 있을 것으로 기대된다.
청각 지능의 완성을 위한 도전
음성AI응용기술 팀은 실제 사람에 가까운 청각능력을 갖춘 디지털 휴먼을 꿈꾼다. 이를 위해 지금까지 사람의 음성 신호를 타겟으로 한 주제들을 연구해왔다면, 앞으로는 음성을 포함한 모든 소리 신호를 아우르며 연구를 진행할 예정이다.
그 첫 번째 단계로, 현재 음성AI응용기술 팀은 수백 종에 달하는 음향 이벤트 인식을 위한 연구를 하고 있다. 이 연구와 연계하여, 음향 이벤트의 발생 위치를 추정하거나 음향 이벤트를 직접 생성하는 생성형 AI 연구도 계획 중이다. 이러한 기술들이 적용되면 디지털 휴먼은 진짜 사람 같은 청각을 갖출 수 있다. 이를테면 소리로 위급 상황을 감지하거나, 들려오는 아기 울음소리에 대한 질문을 사용자에게 먼저 건넬 수 있는 것이다. 나아가, 사용자의 의도대로 소리를 생성하는 생성형 AI 연구를 통해, 사용자의 창작 활동을 지원할 수 있는 보다 사람 같은 디지털 휴먼으로의 도약도 준비하고 있다.
디지털 휴먼의 진정한 청각 지능이 완성될 때까지, 음성AI응용기술 팀의 즐거운 연구는 계속될 것이다.