엔씨 AI 센터 산하 Game AI Lab에서 MMORPG로는 처음으로 강화학습 기반 AI 콘텐츠를 리니지 리마스터에 선보였습니다. 이 콘텐츠는 세계 최고 권위의 게임 개발자 콘퍼런스인 GDC 2022에서 발표가 확정될 정도로 전세계적인 주목을 받고 있는데요. 이번 포스트에서는 다년간 쌓아온 Game AI Lab만의 핵심 기술을 알아보고 그 기술이 접목된 ‘거울 전쟁’과 ‘전설 vs 현역’에 대해 이야기하겠습니다.
2015년, 알파고(AlphaGo)의 출현을 시작으로 기존 AI 학습이 변화했다. 기존 AI 학습은 목표 달성 과정을 인간이 하나씩 모델링하고 구현해야 했다. 하지만 ‘강화학습’이 대두한 후 AI 학습법은 스스로 현재 환경을 인식하고 행동하여 목표를 달성하는 법을 배우게 되었다.
강화학습이란 알려지지 않은 환경에서 액션(action)을 수행하는 경험을 반복하여 얻은 보상(reward)을 통해 AI가 학습해가는 방법이다. 강화학습으로 훈련된 AI는 현재 상태에서 앞으로 얻을 수 있는 보상(reward)이 얼마인지 인지한 상태에서 기대 보상이 가장 높은 선택(action)을 하는 특성이 있다.
사람이 미리 데이터를 준비해야 하는 다른 딥러닝(Deep Learning) 기술과 달리 게임은 시스템만 제공되면 AI가 스스로 필요한 데이터를 수집해가며 학습하기에 학습을 위한 사용자 로그가 따로 필요하지 않다는 장점이 있다. 이번 콘텐츠엔 ‘Self-Play Learning’ 기술이 도입되었는데, 쉽게 말해 ‘자기 자신과 전투하며 학습하는 것’이다. 학습이 진행될수록 더 강해진 수많은 버전의 자신과 전투를 벌인다. 이에 따라 자신을 ‘가상의 적’으로 둔 강화학습 AI는 어떠한 적을 만나도 이길 수 있는 전략을 스스로 찾게 된다. ‘Self-Play Learning’은 다양한 변수에 유연하게 대응할 수 있는 AI를 탄생시켰다.
특히, 이번에 개발된 NC의 AI는 최초로 수십 명 단위로 전투를 수행할 수 있으며, 이를 콘텐츠로써 상용화 수준까지 구현할 수 있는 세계 최초의 사례라고 할 수 있다.
스스로 판단하고 학습하며 성장하는 강화학습 기반 AI가 적용된 ‘거울전쟁’과 ‘전설 vs 현역’의 가장 큰 특징은 외부 세력, 즉 AI가 사냥터를 침공하여 통제하는 시도에 맞서 Group PVP를 즐길 수 있다는 점이다. 조직적이고 지능적인 움직임으로 플레이어들을 공격하고 사냥터를 통제하는 AI 집단의 등장은 플레이어들의 큰 흥미를 불러일으킬 만하다. 리니지 리마스터는 세력이 고착화되어 Group PVP를 경험하기 어려운 경우가 많은데, 침공한 AI 집단과의 전투를 통해 Group PVP를 경험할 수 있다. ‘거울전쟁’의 경우, 기란 감옥 2층에 AI로 구성된 혈맹이 침공하는 정규 콘텐츠다. 다양한 클래스로 구성된 AI 혈맹은 유저를 찾아 전투를 벌이기도 하고, 보스가 있으면 보스를 공략하기도 한다. 특이한 점은 플레이어가 없는 경우 주요 사냥터를 순회하며 NPC를 사냥한다는 것이다.
‘전설 vs 현역’은 이벤트 콘텐츠로 개활지 콜로세움에서 벌이는 8 vs 8 대전이다. 전설의 ‘훅’혈맹 모습의 AI와 켈트성을 소유한 혈맹이 대결하는 구도다. 일반 플레이어의 관람이 가능하며 3판 2선제로 GM 통제 하에 전투가 진행된다. 상중하 3개의 등급 팀을 GM이 상황에 따라 다르게 투입할 수도 있다.
‘거울전쟁’과 ‘전설 vs 현역’에 등장한 AI는 패턴이 똑같은 단순 AI가 아닌 강화학습 AI이므로 혈맹들은 다양한 상황에 맞게 지능적인 전투를 선보이며 플레이어의 긴장감을 극대화한다. 생존력을 높이기 위해 여러 스킬을 구사하거나, 플레이어가 수적 열세를 극복하기 위해 1:1존으로 유인할 때 이를 간파하고 다른 적을 찾아가거나, 강한 상대를 만나면 좁은 방으로 이동하여 유리한 전투 상황을 만들려고 하는 등 사람이 플레이하는 것 같은 고난도의 전략을 보여준다.
새로운 방식의 AI 플레이는 플레이어들에게 큰 호평을 받았다. 플레이 자체에 매료되어 보상 없이도 AI를 공략하기 위해 ‘거울전쟁’과 ‘전설 vs 현역’에 참여하는 플레이어들도 있을 정도다. 이처럼 완성도 높은 강화학습 기반 AI를 만든 배경에는 엔씨의 과감한 도전이 있었다. 리니지 캠프는 기술에 의한 과감한 혁신을 항상 고민해오고 있었고 리니지 리마스터에 AI 콘텐츠를 출시하여 MMORPG의 새로운 가능성을 시험해보고자 하는 의지가 있었고 Game AI Lab은 기술적으로 1:1 PVP를 넘어 Group PVP로 기술 역량을 확대할 적절한 시점이라고 판단하여 두 조직의 협업이 시작되었다. 리니지 캠프의 아이디어를 바탕으로 ‘거울전쟁’이 기획 및 개발되었고, Game AI Lab의 강화학습 팀, AI System 팀이 이에 필요한 강화학습 기반 AI를 제공하는 유기적인 협업을 통해 성공적으로 콘텐츠를 만들었다.
이번 강화학습 AI 연구에서는 단순한 기술 연구뿐 아니라 AI 시스템 환경을 구축하는 데도 큰 공을 들였다. AI System 팀은 표준 AI 프레임워크를 도입하여 다른 팀과 커뮤니케이션할 때의 정확도를 높이고 요구 사항이 바뀌는 데 따라 수정하는 시간을 줄였다. 게임 서비스 업데이트에 맞춰 AI를 개선하기 위해 클라우드 기반 AI 학습 시스템을 적용했고, AI 로그 시스템을 시각화하여 게임 서버, AI 간 주고받은 데이터를 쉽게 볼 수 있도록 했다.
‘거울전쟁’과 ‘전설 vs 현역’ 콘텐츠는 단발성 결과물이 아니라 엔씨가 오랫동안 꾸준히 개발해온 AI 기술의 결과물이다. 게임 내에 강화학습이 적용된 첫 사례는 2016년 B&S ‘무한의 탑’ AI 개발이다. 강화학습 초기 모델로 AI를 처음 콘텐츠화 했기 때문에 많은 시행착오를 거쳤지만 2018년 B&S ‘월드챔피언십 블라인드 매치’에서 ‘B&S AI 2.0’(이하 비무 AI)가 프로게이머를 상대로 승리하면서 엔씨의 AI 연구는 박차를 가했다.
엔씨 Game AI Lab 강화학습 팀은 오랫동안 강화학습 분야를 연구했다. 2018년 당시 프로게이머 수준의 비무 AI를 만들기 위해 다양하게 시도한 결과 네 가지 도전 과제에 직면했다. 첫 번째는 ‘높은 복잡도’였다. 게임 내 스킬 시스템이 클래스마다 다양하기에 복잡도가 높은데, 한 게임당 평균 사용 스킬, 이동 선택지, 상대 타겟팅, 평균 게임 시간을 계산하여 행동 공간 복잡도가 10의 1,800승으로 높았다. 이는 10에 170승의 행동 공간값을 가진 바둑보다 높은 수준이었다. 강화학습 팀은 높은 복잡도에 따른 경우의 수를 줄이기 위해 행동 공간을 축소하는 방법을 강구했다. 두 번째는 ‘실시간성’이었다. MMORPG는 0.1초 단위로 행동을 취해야 하기에 빠른 계산과 행동을 할 수 있도록 인공신경망을 활용했다. 세 번째는 ‘일반화’였다. 플레이어의 스타일은 가변적이기에 유연한 AI가 필요했다. 이 문제에는 앞서 언급한 ‘Self-Play Learning’을 도입하여 대응했다. 마지막으로 ‘전투 스타일 부여’가 있다. 특정한 Rule을 정하기보다 강한 성능을 유지하며 스타일을 부여할 수 있게 보상을 변형하여 적용했다.
위의 도전 과제들을 해결하는 과정에서 200여개의 시뮬레이션을 동시에 진행하며 로그를 쌓았고 2017년 도입한 알고리즘 ‘에이서(ACER)’로 신경망을 주기적으로 업데이트했다. 최상의 환경을 위해 고성능 그래픽 카드를 4대 삽입한 3개의 서버를 운용했으며, 추가 시뮬레이션을 위한 PC도 다수 활용했다. 강화학습 팀은 그간 NPC AI와 같이 게임을 플레이할 수 있는 AI를 개발하기 위해 역량을 집중했고, 1:1 PVP AI를 넘어 다대다 PVP AI까지 만들어내며 또 다른 분야로도 R&D 영역을 확장하고 있다.
특히, 이번에 AI System 팀이 도입한 ’표준 AI Framework’를 통해 다양한 확장을 가능케 했다는 것이 인상적이다. ’표준 AI Framework’란 서버와 서비스를 잇는 통로이자 AI가 필요로 하는 명령과 데이터에 대한 정의를 추상적으로 모아둔 매개체로, 이번 강화학습 기반 AI 콘텐츠를 개발하는 과정에서 얻은 큰 수확이다.
강화학습 기반 AI 콘텐츠는 기술적 측면이나 게임 콘텐츠적 측면에서 많은 도전을 맞이했고, 그 과정에서 다방면으로 성장했다. 기술적 측면으로는 리니지와 같은 대규모 집단 전투가 필수적인 MMORPG에 강화학습 기술을 접목한 첫 시도였다는 점에 중요한 의미가 있다. PVP뿐 아니라 보스 레이드, NPC 사냥 등 복합적인 플레이를 수행하는 AI의 개발은 게임 분야 AI 산업에 크게 공헌할 수 있다.
이번에 공개된 콘텐츠의 의의는 게임에 색다른 긴장감을 부여하는 수단으로 AI를 활용할 가능성을 확인했다는 것이다. MMORPG의 특성상 패턴이 반복된 사냥으로 플레이어가 피로감을 느끼기 쉬운데 이 점을 보완하는 좋은 수단이 되었다. 이 성과들은 앞으로 AI 콘텐츠를 개발하는 데 마중물 역할을 할 것이다.