한국어
    • 한국어
    • ENGLISH
    • 日本語
    • 中文-繁體

    2022.09.16 AI

    예술에 뛰어든 AI 연구자들, Music AI팀

    2022년 엔씨는 AI센터 산하 Speech AI Lab에 Music AI팀을 신설했습니다. Music AI팀은 딥러닝 전문가와 실용음악 전문가들이 모인 팀입니다. 서로 다른 분야의 전문가들이 음악을 주제로 협력하며 AI를 연구하고 있는데요. 최근에는 인천 송도에서 열린 음성 분야 국제학회 Interspeech에서 논문 게재 승인을 받기도 했습니다.

    이번 기사에는 Music AI팀의 인터뷰를 담았습니다. 특히 확장 가능성이 무한한 음악이라는 주제로 어떤 연구를 하고 있는지, 각자의 분야가 다른데 어떻게 소통하며 협업하는지, 그리고 인공지능을 음악에 적용하는 기술이 앞으로 어떤 모습이 될지에 관한 이야기를 들어보았습니다. 

    왼쪽부터 김태우, 강민수, 이현무, 이경훈, 이양선, 나윤진


    2인 3각 달리기

    Music AI팀이 어떤 팀인지 소개해달라.

    경훈   Music AI팀은 음악과 관련된 AI를 연구하는 팀이다. 주요 연구 분야는 가사와 악보를 통하여 가창 음성을 생성하는 Singing Voice Synthesis(SVS)*, 가창 음성의 운율이나 음색을 변환하는 Singing Voice Style Transfer(SST)**, 노래를 부르면 조성과 코드 진행에 따라 화음을 만들어주는 Harmony Generation, 특정 입력 값(이미지 혹은 코드 진행 등)을 넣어주면 멜로디를 생성하는 Melody Generation 등이다.

    *Singing Voice Synthesis(SVS): 가사와 미디(음 높이, 길이가 포함된 정보)를 입력하면 가창 음성(Singing Voice)을 만들어주는 모델

    **Singing Voice Style Transfer(SST): 프로 가수의 음성을 이용하여 아마추어의 음성 스타일을 전이하는 모델

    작년에는 Singing Voice TF였는데 올해부터 Music AI팀이 되었다. 팀에 어떤 변화가 생겼나.

    경훈   처음 시작할 때는 ‘가창 음성을 연구해보자’는 뜻에서 Singing Voice로 팀 이름을 지었다. 그러나 음악적 요소를 기반으로 가창뿐 아니라 더 다양한 음악과 관련된 AI 연구를 하기 위해 ‘Music AI’로 바꿨다. 이름이 뜻하는 범위가 넓어진 만큼 다루는 주제도 확장되었다. 아직은 Singing Voice 쪽이 더 큰 비중을 차지하지만 점차 주제를 넓히려고 계획하고 있다.

    음악과 AI는 생경한 조합으로 느껴진다. 팀 구성원이 궁금하다.

    경훈   Music AI팀은 일반적인 음성과 다르게 음악적 요소를 다룬다. 그래서 실용음악 전문가 이양선 님, 이현무 님, 나윤진 님과 딥러닝 연구자인 저, 김태우 님, 강민수 님 이렇게 총 여섯 명으로 이루어져 있다. 연구자들은 주로 모델을 연구•개발하고 음악가들은 데이터를 구축하고 분석한다. 이 작업은 서로 협업하며 진행한다.

    다른 분야의 리소스가 필요한 경우 외부에 의뢰할 수도 있는데, 실용음악 전문가를 직접 팀원으로 뽑은 이유가 있는가.

    경훈   음악을 주제로 AI를 연구하면서 가장 고민하는 부분은 ‘음악적 전문성’이다. 성능이 우수한 AI를 만들려면 질 좋은 데이터가 필요하다. 어떻게 하면 품질 높은 데이터 셋을 확보할 수 있을지를 늘 고민했다. 예를 들어 음성(speech)과 노래(singing voice)를 모델링하는 일은 크게 다르다. 대화할 때의 음성과 달리 노래는 가사 정보뿐만 아니라 악보 정보에 기반한 음높이(pitch)와 박자(beat)에 맞도록 합성해야 한다. 또한 가수의 개성과 작곡가의 의도에 따라 보컬 테크닉이 다르게 적용되기 때문에 음악적 지식이 필요하다. 이렇듯 곡을 선정하는 일 외에도 가수가 노래할 때 어떻게 디렉팅해야 할지, 녹음 파일은 어떻게 정제할지 등 음악적 전문성이 필요한 과정이 많다. 외주를 맡기면 시간과 비용을 절약할 수 있지만 전사에 오류가 많이 발생할 수 있다. 그래서 연구에 더 집중하기 위해서 실용음악 전문가 세 분과 함께하게 되었다.

    ‘음악적 전문성’이 더해져서 이전과 어떤 점이 달라졌는가.

    경훈   데이터를 더 치밀하게 준비할 수 있게 되었다. DB를 구축하고 분석하는 과정에서 음악 전문가들이 음악적 요소까지 고려하기 때문이다. 예를 들어 기존에는 스타일을 통일하기 위해 어느 한 스타일을 기준으로 노래를 선택했다. 지금은 하나의 스타일로 노래들을 선정하는 것으로 끝나지 않고 그 안에서도 곡의 형식에 따라 verse, bridge, chorus 등으로 스타일을 세분화할 수 있다.

    노래하는 인공지능

    실용음악 전문가들과 딥러닝 전문가들이 아이디어를 만들고 모델을 개발하는 과정에 대해 설명해달라.

    [그림1. Music AI팀 Workflow]

    경훈   크게 리서치→녹음 계획 및 곡 준비→녹음→DB→개발 단계로 진행된다. 먼저 다 같이 시장동향 분석, 논문 리뷰 작업 등을 통해 아이디어를 만든다. 이후 장르와 곡들을 준비해서 녹음한 후 녹음 데이터들을 정리하고 모델을 개발한다. 이 과정에서 모든 팀원이 많은 의견을 주고받지만 데이터 구축 및 분석 작업은 음악가들이 주도하고, 모델 개발은 연구자가 중심이 된다.

    리서치 부분에서 논문뿐만 아니라 시장 동향까지 본다고 들었다.

    경훈   논문은 대부분 성능 향상에만 초점을 두고 있다. 그래서 논문만 보고 실용화의 방향을 정하기는 어렵다. 시장 동향을 보면서 해당 기술이 상용화되어 있는지를 확인하고, 어느 정도로 수준을 끌어올려야 하는지 기준을 정한다. 또한 AI Center의 디지털 휴먼 프로젝트에서 Music AI팀이 기여할 수 있는 부분에 관한 아이디어를 만드는 데도 참고하고 있다.       

    윤진   연구할 때는 유저들이 경험할 서비스를 고려하는 것이 중요하다. 그래서 매일 시장 동향을 파악하고 있다. 팀 전체가 알면 좋은 이슈들은 따로 정리해서 매주 한 번씩 공유하고 아이디어 회의를 한다. 업계 동향을 보면 다양한 디지털 휴먼들이 나오고 있는데, 대체로 사람이 노래한 음성을 약간 튜닝해서 쓰는 경우가 많다. 반면 Music AI팀은 가창 음성 합성을 연구하고 있다 보니 스스로 노래할 수 있는 디지털 휴먼을 만드는 작업도 생각해보고 있다. 이처럼 여러 가능성을 열어둘 수 있다는 점 때문에 시장 동향 파악이 중요하다.

    데이터 구축과 분석 작업이 까다롭다고 알고 있다. 데이터 준비는 어떻게 하는가.

    양선   정말 할 일이 많다(웃음). 데이터 작업의 첫 단계는 장르 결정이다. 장르를 선정하고 그 장르라고 생각되는 곡들을 리스트업한다. 그다음에는 곡을 선별한다. 요즘 나오는 음악들은 개성이 무척 강해서 하나의 장르로 구분하기 어려운 경우가 많다. 그래서 몇 가지 곡을 레퍼런스로 정하고 분위기를 기준으로 1차 구분을 한다. 예컨대 A. 밝은 분위기, B. 좀 어두운 분위기 등으로 나눈다. 그다음에는 모은 곡들을 팀원들 각자가 본인의 생각대로 A 혹은 B로 분류한다. 분류 작업을 마치고 나면 모두가 ‘A 분위기는 이 노래들이구나!’ 하고 공통적으로 느끼는 윤곽이 잡힌다. 그럼 그 노래들의 공통 요소들을 뽑아 먼저 학습시키고, 차별점들을 갖고 다른 스타일로 가창하는 모델을 만든다.

    자연스러움을 높이는 방향으로 연구한다고 들었다. Music AI팀이 정의하는 ‘자연스러움’은 무엇인가.

    양선   사람에 가까운 모습, 감정선이 살아 있는 가창 음성이다. 쉽게 말하면 AI가 노래하는데 감정선이 느껴지면서 그 곡의 분위기가 완전히 전달되는 것이다. 물론 ‘분위기’란 말은 너무 주관적이니까 객관적 평가를 위해 분석 기준들을 마련해서 곡을 분석하고 있다. 또한 녹음과 후반 작업에도 집중하고 있다. 가수를 섭외할 때도 아마추어가 아닌 프로 가수들을 섭외하고 후반 작업도 당장 앨범으로 내도 될 만한 수준으로 한다. 퀄리티 높은 데이터를 모델에게 학습시켜야 하기 때문이다. 결국 자연스러움은 데이터 퀄리티를 높이기 위해 노력하는 과정에서 나온다고 생각한다.

    다름을 아우르는 존중과 공감

    음악과 인공지능은 서로 대척점에 서 있는 것 같다. 함께 일하면서 어려운 점은 없었나.

    경훈   이제는 워크플로우가 자리 잡았지만 작업 초반에는 용어를 서로 다르게 이해하는 경우가 많았다. 음악에 사용되는 용어와 Music AI 모델 연구에 사용되는 용어는 뜻이 같은 것들도 있지만 다른 점도 있다. AI 연구는 음악보다 더 단순한 형태의 데이터를 사용하기 때문에 한 용어에 대해 서로가 이해한 개념이 달랐다. 자신이 알고 있는 개념을 다른 분야의 사람에게 어떻게 전달할지가 어려웠던 것 같다.

    그리고 경험의 차이도 어려운 점 중 하나였다. 가령 음악가는 합성된 가창 음성을 들으면 어색한 부분을 직관적으로 알 수 있다. 하지만 그 부분을 연구자들에게 명확히 설명하려면 많은 고민이 필요하다. 반대로 연구자는 음악가가 설명해주는 부분들을 어떻게 모델이 받아들일 수 있는 논리로 학습시킬지를 고민해야 했다.

    실제 서로를 이해하지 못해 생긴 에피소드가 있다면?

    태우   연구자 입장에서 모델 성능이 더 나아지면 일단 이전 모델의 결과와 비교한다. 그래서 결과가 더 나으면 만족스러워서 음악가들에게 자신 있게 전달한다. “어때요?” 하고 물으면 다들 절레절레한다(웃음).

    현무   음악가는 가창 음성 합성을 직관으로 구분한다(웃음). 사람이 고양이를 보고 ‘음, 쟤는 발 네 개에 수염이 있으니까 고양이다’라고 판단하지 않고 직관적으로 ‘고양이’를 떠올리는 것과 비슷하다. 이제는 사실성에 대한 기준이 서로 많이 맞춰져서 설명하지 않아도 더 사실적인 결과에 대한 생각이 같아졌다.

    양선   연구자들이 가져오신 결과를 들으면 “별로…”라고 말하곤 했다(웃음). 직관적으로는 별로인데 어떻게 별로인지 설명하려고 많이 노력했다(웃음). 서로의 분야에서 당연하게 쓰는 용어들이 있기 때문에 그 부분을 서로가 이해하기 위해 애썼다.

    팀원끼리 서로 배려하고 존중하는 문화가 있는 것 같다.

    경훈   팀 안에서 ‘근데’라는 표현을 쓰지 않기로 했다. 어떻게 하면 다 같이 즐겁게 일할 수 있을까 고민하면서 세운 몇 가지 약속 중 하나다. A라는 사람이 어떤 주장을 했는데 “근데요…” 하고 B가 바로 자기 의견을 펼치면 앞서 말한 사람은 자신의 주장을 무시된다고 느낄 수 있다. 그러면 다음번에는 자신의 의견을 말하기 어려워질 수 있다. 이런 부분들을 서로 배려하고 싶었다.

    윤진   확실히 몇 가지를 약속하고 나서부터는 표현 외에도 상대방의 의견을 더 존중하려고 노력하게 되는 것 같았다.

    팀워크에서 또 중요하게 여기는 것이 있다면 말해달라.

    경훈   팀 초창기부터 ‘공유’를 중요하게 생각했다. 분야가 다르다 보니 서로의 지식을 적극적으로 공유하는 장이 필요했다. 그래서 먼저 음악가 팀원분의 음악 이론 스터디를 시작으로 서로의 지식을 공유하게 되었다.

    양선   서로의 분야를 알면 연구를 더 잘할 수 있겠다 싶어서 음악 이론 스터디를 진행하게 되었다. 몇 주 전부터는 이제 연구자분들이 AI 스터디를 열어서 진행하고 있다.

    민수   스터디로 지식을 쌓는 것 외에 그 분야 자체를 알아가고 있다. 이해의 폭을 확장하고 지식의 균형도 맞춰가며 서로 보완해주고 있는 것 같다.

    AI와 음악, 어디까지 가능할까

    앞으로 Music AI팀이 연구하는 가창 음성 합성 기술이 더 발전해서 완벽해진다면 어떤 일들을 기대할 수 있을까.

    민수   대중적으로도 ‘음악을 한다’고 하면 암묵적으로 문턱이 높다고 생각한다. 예를 들어 대부분의 사람들은 노래를 잘하려면 여러 음악적 지식과 테크닉을 갖춰야 한다고 생각한다. 그렇기 때문에 가창 음성 합성 기술이 더 발전하면 ‘음악’에 대한 진입 장벽을 낮출 수 있을 거라고 기대한다. 발성법을 모르거나 음악적 지식이 없어도 기술의 도움을 받아 음악을 만들 수 있는 것이다. 그렇게 틀을 벗어난 새로운 음악이 나온다면 또 새로운 기술적 필요가 생길 수도 있을 것 같다.

    현무   어떤 사람들은 기술 발전에 대해 막연한 공포를 느낄 수도 있지만, 새롭게 해볼 수 있는 것들이 많아질 것 같다. 프로듀서라면 여러 종류의 가창 음성 합성으로 자신이 원하는 아이돌 그룹을 만들 수 있고, 더 나아가 2차 콘텐츠를 만들어 수익을 기대할 수도 있다. 음악의 세부 요소들이 모두 하나의 데이터로 취급된다면 표현할 수 있는 것들이 지금보다 많아질 거라고 생각한다. 그 지점에서 사람들이 새로운 재미를 느낄 수도 있을 것이다. 예를 들어 사용자가 비브라토*가 굉장히 뛰어나다면 그 부분만 따로 데이터로 뽑아서 판매할 수도 있을 것이다.

    *비브라토(vibrato): 음악 연주에서 목소리나 악기의 소리를 떨게 하는 기교

    경훈   디지털 휴먼의 목소리가 되어 사람들과 소통하며 노래하는 서비스도 생각할 수 있다. 가령 호응이 좋은 사람들 앞에서는 더 신나게 노래 부르고, 우울하거나 가슴 아픈 이별을 한 사람들 앞에서는 위로해주는 노래를 부르는 것처럼 말이다. 궁극적으로 음악과 AI를 결합하여 다양한 장르의 노래를 부르고 만들 수 있는 싱어 송 라이터를 만들고자 한다. 실제 사람처럼 감정을 넣어 노래 부르고 이 세상에 없었던 음악을 만들어 사람들에게 감동을 줄 수 있는 AI 목소리와 음악을 만드는 것이 바로 Music AI팀의 목표다.