한국어
    • 한국어
    • ENGLISH
    • 日本語
    • 中文-繁體

    2023.04.04 Game

    TECH Standard | EP03. 미래 게임 기술, 디지털 휴먼과 AI

    엔씨는 10여 년간 꾸준히 AI 기술에 투자해 모든 AI 분야에서 뛰어난 연구 실적을 거두고 있습니다. 현재는 게임을 포함해 여러 크리에이티브한 산업 영역과 결합해 많은 시너지를 일으킬 수 있는 수준으로 성장했습니다.

    앞서 ‘TECH Standard’는 게임 업계를 선도하는 독보적 기술력을 조명했습니다. 이번 편에서는 기술력을 넘어 새로운 가치를 만들어가는 엔씨의 미래를 이야기합니다. 디지털 휴먼과 AI 기술의 방향성, 그 비전에 대한 생각들을 담았습니다.

    R&D, 그 탐험의 가치

    만약 미래가 명확히 정해져 있다면 R&D 조직은 필요 없을지도 모른다. 하지만 현실에는 언제나 예기치 못한 일들이 일어나기 마련이다. 그렇기 때문에 미리 미래를 탐험해보고 방향을 설정할 조직이 필요하다. 엔씨에서는 바로 R&D 조직이 그 역할을 한다. 현재 이후의 미래를 내다보고 불확실한 세계를 미리 탐험하고 있다.

    10년 전부터 역사를 이어온 엔씨 R&D 센터는 많은 결과물을 게임에 적용해왔다. 예를 들어 〈리니지 W〉는 MMORPG 장르에서 세계 최초로 ‘글로벌 원빌드’로 서비스하고 있다. 여기에는 AI 번역 기술이 매우 중요한 역할을 했다. 게임 채팅창을 자동 번역하는 기능으로, 글로벌 플레이어들 간의 언어 장벽을 허물어 진정한 ‘연결성’을 확보했다. 이처럼 R&D, ‘탐험’에 꾸준히 투자했기에 엔씨는 기존 게임에서 볼 수 없었던 새로운 기준을 계속 제시할 수 있었다.

    엔씨의 다음 목표는 실시간으로 상호작용하며 인간의 창의력과 즐거움의 가치를 발전시킬 ‘디지털 휴먼’이다. 이미 연구 조직을 구성해 AI, NLP 등 디지털 휴먼 개발에 필요한 모든 기술 요소를 갖추고 미래를 향해 나아갈 준비를 마쳤다.

    엔씨의 디지털 휴먼을 처음 선보이다: 디지털 TJ가 〈프로젝트M〉 게임 속으로

    매년 3월 샌프란시스코에서 개최되는 GDC(Game Development Conference)에서 에픽게임즈는 언리얼 엔진을 적용한 게임들을 발표하고 있다. 올해는 이 발표회에 엔씨가 초청받았다. 아직 공개하지는 않았지만, 새로 나온 언리얼 엔진 5를 이용해 개발하고 있는 게임들이 있기 때문에 엔씨의 혁신적인 기술력을 전 세계 사람들에게 선보일 좋은 기회였다.

    GDC에서는 엔씨의 디지털 휴먼과 앞으로 출시될 게임 프로젝트M〉을 공개하고 싶었다. 두 가지를 어떻게 효과적으로 선보일지 고민한 끝에 디지털 TJ가 프로젝트M의 게임 속으로 들어가는 시나리오를 기획했다.

    이번 디지털 TJ 캐릭터는 사실적으로 재현하는 정도에서 더 나아가 게임에 맞추어 재구성했다. 이를 구현하기 위해 엔씨의 3D 스캔, 4D 스캔 등 차세대 하드웨어 장비와 AI 보이스, AI Voice-to-face 기술 등 다양한 AI 기술을 접목했다.

    이처럼 엔씨가 개발하고 있는 기술을 총동원해 사람의 얼굴 표정을 사실적으로 끄집어내기도 하고 원하는 대로 변형하기도 했다. 엔씨의 기술력을 집약한 결과 이 모든 것이 가능했다.

    엔씨가 디지털 휴먼에 주목하는 이유

    게임 속 세상은 가상공간 그 자체이고, 게임과 디지털 휴먼은 본질적으로 떼려야 뗄 수 없는 관계다. 디지털 휴먼이 활동할 수 있는 영역인 가상공간의 세계관을 더욱 매력적으로 만들 존재는 잘 구현된 디지털 휴먼이기 때문이다.

    하지만 그동안 선보인 디지털 휴먼 기술은 사용자에게 일방적으로 정보를 주입하고 전달하는 역할에 머물러 있었다. 내가 어떤 행동을 했을 때 보이는 반응이 단순했기 때문에, 공감대를 형성하거나 예상치 못한 반응에서 오는 재미를 느끼기 어려웠다.

    혼자보다 여럿이서 MMORPG 장르를 함께할 때 보다 차원 높은 재미를 얻을 수 있는 이유는 서로 상호작용을 하기 때문이다. 그렇기에 디지털 휴먼과의 상호작용은 게임에서 놓칠 수 없는 중요한 요소다. 사람들과 소통하는 것과 유사하게 어떤 행동을 했을 때 디지털 휴먼이 여러 요소를 고려하는 깊은 사고 과정을 거친다면 반응의 결과값은 상황에 따라 달라질 것이다. 즉, 즐거움을 줄 수 있는 존재를 만들어내는 것은, 상호작용하는 대상이 얼마나 수준 높은 사고를 할 수 있는지에 따라 판가름 난다. 따라서 앞으로의 디지털 휴먼은 사람 간의 소통만큼 깊이 있게 상호작용할 수 있도록 만드는 것이 중요하다.

    AI 센터를 10년 넘게 유지해온 엔씨는 AI와 최신 그래픽스 기술, 훌륭한 아트 인력 등 디지털 휴먼에 필요한 역량을 풍부하게 갖추고 있다. 이를 유기적으로 결합하여 보다 고도화한 디지털 휴먼을 만드는 일만 남았다.

    디지털 휴먼 제작의 핵심 키워드: 인터랙션을 위한 AI 기술

    GDC에서 엔씨가 공개한 디지털 TJ는 앞으로 선보일 여러 기술의 예고편이다. 앞으로 선보일 디지털 휴먼의 최종 목표는 사람처럼 듣고 말하고 움직이는 것은 물론 상황에 따라 스스로 생각하고 판단에 따라 말하거나 행동하는 존재다. 사람과 상호작용이 가능한 존재인 것이다.

    디지털 휴먼을 실현하기 위한 기술의 목표는 ‘실재감(Presence)’, 그리고 몰입감(Immersive Experience)을 줄 수 있는 ‘인터랙션’이다. 실재감은 현실에 실재하는 사람이 움직이는 듯한 비주얼을 전달하는 것이다. 인터랙션은 자연스러운 얼굴 표정, 동작 및 사소한 몸짓과 생체 반응까지 ‘사람처럼’ 만드는 것으로, ‘진짜 사람과 대화하고 있는’ 것처럼 몰입감을 높이는 기술이다.

    현실의 존재 같은 ‘실재감’을 위한 핵심 기술: 4D 스캔

    여기에는 뛰어난 스캐닝 기술이 필수적이다. 엔씨는 4D 스캐너를 자체적으로 제작해 적극 활용할 준비를 마쳤다. 3D 스캔의 차세대 기술인 4D 스캔은 얼굴의 3D 정보를 이미지로만 추출할 수 있었던 이전 기술에서 나아가 동영상으로 스캔하는 기술이다.

    4D 스캔 기술은 3D 스캔처럼 이미지 정보를 활용하지만, 연속 촬영으로 얼굴 주름살, 작은 근육의 미세한 움직임까지도 캡처할 수 있다. 연속적으로 촬영하는 동안 모든 카메라의 허용 오차는 1밀리초(1/1,000초) 이내고, 조명도 균일하게 광량을 조절해야 한다. 이렇게 까다로운 과정을 통해 추출한 데이터로 보다 자연스러운 얼굴 표정, 동작을 얻을 수 있다.

    진짜 사람과 소통하는 것처럼 '‘몰입감’ 높이는 핵심 기술 세 가지

    앞서 언급했듯이 몰입감을 높이는 것은 ‘인터랙션’이다. 디지털 휴먼이 인터랙션을 잘하기 위해서는 크게 복합 인지 기술(Multimodal Recognition AI), 챗봇 기술(Conversational AI), 액팅 기술(Visual Acting AI) 세 가지가 중요하다.

    복합 인지 기술은 대화하는 상대의 상태, 감정 등 여러 요소를 감지하고 분석하는 기술이고, 챗봇 기술은 상대의 말을 분석해서 적절한 답변을 생성하는 기술이다. 액팅 기술은 이러한 것들을 효과적으로 표현하는 기술로, 음성 합성이나 그래픽스 기술 등이 포함된다. 이를 통해 상대방의 이야기뿐 아니라 컨디션까지 파악해 종합적으로 적절하게 답변하고, 그 과정에서 표정이나 사소한 몸짓 등 비언어적 커뮤니케이션까지 표현할 수 있다.

    대량생산이 가능한 디지털 휴먼 생성 파이프라인

    엔씨는 이러한 디지털 휴먼을 일회성으로 만드는 것에 그치지 않고, 고도화한 디지털 휴먼을 더 쉽고 빠르게 대량생산하도록 파이프라인을 형성하는 데까지 나아가고자 한다. 궁극적으로는 디지털 휴먼이 모든 분야에서 활약하는 IP로서 일반 사용자도 대중적으로 활용할 만큼 효율적인 기술로 자리 잡도록 하고, 그 과정에서 만들어진 기술 등 리소스들도 다양하게 사업에 활용하고자 한다.

    이를 위해 엔씨는 시간과 비용이 많이 드는 복잡한 과정을 여러 AI 기술로 자동화, 효율화하는 데 초점을 맞추고 있다. 특히 ‘실시간 인터랙션’이 가능한 디지털 휴먼 생성 파이프라인은 두 가지로 나누었다. 하나는 주로 영화나 게임에 쓰이는 고품질 디지털 휴먼을 만들기 위한 AI 기반의 그래픽스 파이프라인이다. 이 파이프라인을 통해 디지털 휴먼이 게임, 영화, 드라마, 엔터테인먼트, 현실 세계 서비스 등 모든 분야에서 활약할 수 있도록 만들 계획이다. 다른 하나는 디지털 휴먼의 품질을 일정하게 유지하되 대량생산하는 Vision AI 기반의 파이프라인으로, AI 기술을 기반으로 비용 및 시간을 효율화하는 데 중점을 둔다. 일반 사용자도 쉽게 자신만의 디지털 휴먼을 보유할 수 있는 기술을 목표로 하고 있다.

    여러 목적의 파이프라인을 만들고 있지만 공통적인 목표는 디지털 휴먼을 이전보다 효율적으로 생산하는 것이다. 이런 관점에서 아래와 같이 핵심적인 기술들을 뽑아볼 수 있다.

    AI 기반 파이프라인의 핵심 기술 1: NFace

    엔씨에서 개발한 Voice-to-Face 기술 NFace는 대사나 목소리를 넣으면 상황에 알맞은 얼굴 표정과 입술 움직임 등을 자동으로 생성하는 AI 기술이다. 음성과 키포즈만 있으면 AI가 모션 캡처 수준의 고품질 Lip Sync 애니메이션을 적은 비용으로 생성해준다. 부가적으로 시선, 고개 움직임, 눈 깜빡임 등의 모션도 생성할 수 있고, 간단한 감정 상태까지 얼굴에 반영한 애니메이션도 만들 수 있다. 엔씨는 이 기술로 한국어에 최적화된 Lip Sync가 가능하도록 자체 시스템을 구축했다. 차후 게임뿐 아니라 영화, 애니메이션 등의 분야에서도 활용될 것이다.

    AI  기반 파이프라인의 핵심 기술 2: TTS

    TTS(text-to-speech, 텍스트 음성 변환)는 입력된 텍스트를 AI가 상황에 맞는 음성으로 말해주는 기술이다. TTS가 글자를 말할 수 있으려면 텍스트와 음성이 쌍(pair)으로 된 데이터를 학습시키는 과정이 필요하다. 예를 들어 ‘안녕’이라는 글자를 음성으로 말하는 것과 관련하여 둘의 관계를 학습하는 과정이다. 이때 TTS는 녹음한 사람의 목소리 특징, 즉 말투, 음색, 톤, 발화 속도도 학습한다. 이렇게 학습을 마친 TTS는 데이터를 녹음한 사람의 목소리, 말투로 어떤 글자든 읽을 수 있게 된다. 30분 정도의 음성 데이터면 TTS 생성이 가능하다. 이렇게 만든 TTS는 내비게이션, 안내 방송, 오디오북, 유튜브 콘텐츠에도 활용할 수 있다. 앞으로의 연구 목표는 TTS가 글자를 보다 자연스러운 억양으로 정확히 발음하고 잡음 없이 깨끗한 음성을 생성하도록 하는 것이다.

    우리가 만날 디지털 휴먼

    엔씨는 여러 불확실한 상황과 다양한 주제에 대해서도 자연스럽게 대화하고 사람과 인터렉션할 수 있는 디지털 휴먼 개발에 총력을 다하고 있다. 특히 상호작용이 중요한 게임에서 이런 기술력이 빛을 발할 수 있다. 게임에서 만나는 모든 캐릭터가 같은 대답만 반복하는 NPC가 아니라 나와 함께 즐기는 게임 파트너 또는 내 일생에 다시없을 경쟁자, 다시 만날 수 없는 특별한 영웅이 될 수 있다는 이야기다. 이렇게 디지털 휴먼 기술은 지금까지 본 적 없는 새로운 게임 장르를 개척하는 데 일조할 것이다. 사람들이 원하는 디지털 휴먼을 만든다는 공통의 목표를 위해 엔씨는 앞으로도 노력과 시간을 아끼지 않을 것이다.