한국어
    • 한국어
    • ENGLISH
    • 日本語
    • 中文-繁體

    2023.04.04 Game

    TECH Standard | EP02. 끊기지 않는 게임, 안정적인 서비스를 위한 노력

    MMORPG 서비스는 전 세계에서 동시에 접속한 플레이어들의 미세한 액션까지도 세밀하게 처리해야 하고 민감도가 높습니다. 게임이 끊기지 않고 플레이어들이 원활하게 플레이하도록 해주는 ‘연속성’은 엔씨의 기술력을 이야기할 때 빼놓을 수 없는 키워드입니다.

    ‘연속성’ 있는 게임 서비스를 제공하기 위해 노력하고 있는 곳 중 하나가 바로 엔씨의 I&O(Infrastructure&Operation) 센터입니다. 게임 플레이 환경을 구성하는 기초 인프라를 구축하고 플랫폼을 쌓아 올려 안정적인 서비스 운영을 지원합니다. 게임 서비스의 안정성을 유지하기 위한 노력과 진정성에 대한 이야기를 시작합니다.

    안정적인 서비스의 기본: 이중화・이원화・다원화

    게임 서비스의 기본은 끊김이나 지연 없는 최적의 플레이 환경을 플레이어에게 제공하는 것이다. I&O 센터는 ‘연속성’을 방해하는 장애 요소를 차단하기 위해 인프라와 시스템을 이중화・이원화・다원화하는 다양한 기술적 전략을 세웠다. 시스템을 단일하게 운영하면 장애나 재해가 생겼을 때 전체 서비스가 지연되거나 중단될 수 있다. 이를 방지하기 위해 여러 시스템과 인프라를 분산 배치하여 어떤 장애가 발생하더라도 문제없이 게임을 서비스하고, 나아가 플레이어가 인지하지 못하도록 한다. 이것이 이중화・이원화・다원화의 핵심이다.

    이중화는 시스템 장애 발생을 대비해 동일한 시스템을 두 개 구축하는 것을 뜻한다. 서버, 네트워크, 전원 등 특정 장비에서 장애가 발생하더라도 서비스를 유지할 수 있도록 페어 또는 여러 장비를 조합하여 시스템을 구성하는 것이다. 예기치 못한 위험 요소에 대비하고 빠르게 대응하기 위해 엔씨는 작은 부품부터 장비, 랜 케이블, 심지어 해저케이블에 이르는 수많은 영역에 이중화를 적용하고 있다.

    이원화・다원화는 인프라 및 운영 환경에 사용되는 기반 서비스, 예를 들어 데이터 센터나 인터넷 회선 시설 등을 두 개 이상의 독립적 거점으로 구성하는 것이다. 또 글로벌 게임 서비스의 인터넷 회선도 다양한 국가에서 장시간 테스트하여 검증한 결과를 바탕으로 회선 사업자를 다원화하여 페어로 운영하고 있다. 특정 사업자의 장애가 발생해도 우회할 수 있는 경로를 사전에 확보하여 외부 장애 요소 자체를 최소화하고 신속히 대응하게 한 것이다.

    이중화・이원화・다원화의 대표적 사례로 멀티 데이터 센터를 들 수 있다. 먼저 한 데이터 센터에 서버나 네트워크 DB 같은 여러 요소를 두 개씩 만들어서 시스템 장애가 생겨도 백업할 수 있게 이중화한다. 데이터 센터 자체도 두 지점으로 분산 배치해 하나의 센터에 문제가 생기면 바로 다른 지점으로 대체하여 운영할 수 있게 이원화한다. 이렇게 이원화한 데이터 센터를 마치 하나의 데이터 센터처럼 상호 백업할 수 있게 운영한다. 나아가 각 데이터 센터의 네트워크나 서버망도 서로 다른 업체를 이용하는데, 외부 업체로 인한 피해도 최소화하기 위한 다원화의 일환이다. 이처럼 멀티 데이터 센터는 모든 경우의 수에 대비해 이중화, 이원화, 다원화 작업을 한데 집결한 집합체라고 할 수 있다.

    이를 통해 엔씨는 핵심 게임 서비스의 안정성을 높일 뿐만 아니라 서비스 이전 기술력과 노하우를 얻을 수 있었다. 아시아 권역에 대한 국내 서비스의 최소 지연 기술과 최대 규모의 유저 트래픽 게임 서비스에 대한 서버 가상화 적용 기술을 확보했다. 또한 서비스 이전 과정의 다운타임을 최소화하면서 고가용 서비스 운영 및 이전, DR 실행 노하우를 얻었다.

    현재 엔씨는 두 개 이상의 데이터 센터를 추가로 구축하고자 준비하고 있으며, 멀티 데이터 센터 같은 대규모 이중화・이원화에도 적극 투자하고 있다. 앞으로도 보다 견고하고 빈틈없이 장애에 대응할 수 있는 운영 환경을 만들기 위해 이중화, 이원화, 다원화를 확장할 계획이다.

    글로벌 서비스와 안정성을 동시에: 엔씨 클라우드(NC CLOUD)

    엔씨가 게임 서비스의 무대를 해외로 확장하고, 하나의 서비스를 제공하는 글로벌 원빌드를 구현하기 위해 택한 또 다른 운영 전략은 ‘엔씨 클라우드(NC Cloud)’다. 엔씨 클라우드는 앞서 말한 ‘멀티 데이터 센터’와 여러 해외 업체의 ‘퍼블릭 클라우드’, 엔씨의 프라이빗 클라우드를 혼합하여 사용하는 것을 의미한다.

    국내 단일 클라우드만 사용했을 때는 해외에 물리적 거점이 없었기 때문에 지연 없는 원활한 플레이 환경을 해외 플레이어에게 제공하기가 사실상 힘들었다. 엔씨는 해외 서비스를 지원하기 위해 현지 퍼블리셔와 계약하고 데이터 센터를 섭외하는 등의 과정에 오랜 시간과 리소스를 소요하는 불편을 겪었다.

    그러나 해외를 거점으로 활용할 수 있는 퍼블릭 클라우드가 보편화되면서 엔씨의 데이터 센터와 해외 클라우드 간 연계가 가능해져 마치 하나의 데이터 센터에서 서비스하는 것처럼 통합된 인프라 환경을 구축했다. 그 결과 플레이어는 국내외 할 것 없이 하나의 환경에서 서비스하는 듯한 게임을 원활하게 즐길 수 있었다.

    〈리니지W〉도 론칭 전에 만족할 만한 엔씨 클라우드를 구축하기까지 다양한 시행착오를 거쳐야 했다.

    〈리니지W〉를 서비스한다는 것은 Latency(지연) 없이 동일한 게임 환경을 12개국 어디에든 제공해야 한다는 뜻이다. 이를 실현하기 위해 I&O 센터는 규모가 기존 모바일 게임의 두 배 이상인 인프라 환경 구축을 준비했다. 200만 명 이상의 동접을 목표로 12개 국가에 최적화된 게임 서버 거점을 선정하고, 시스템들을 복수의 IDC 안에서 동일한 수준으로 운영할 수 있어야 했다. 퍼블릭 클라우드를 확장하고, 여러 클라우드를 전략적으로 배치한 후 운영 자동화를 통해 선제적으로 대응할 수 있게 했다.

    적합한 해외 클라우드를 선정하는 과정부터 인프라의 성능, 지연 시간, 해저케이블의 특수성 등 엔씨의 기준에 맞추기 위해 고려해야 할 사안이 수없이 많았다. 해외 거점을 선정한 후에도 예상보다 노이즈가 심하거나 서버 지연의 변동 폭이 커지는 등 난관이 있었다. 원하는 결과를 끌어낼 때까지 테스트하고 검증하는 과정을 마치고서야 비로소 지금의 엔씨 클라우드를 구축할 수 있었다. 덕분에 〈리니지W〉는 전 세계 사람들이 동시에 접속해도 지연 없이 플레이할 수 있는 새로운 지점에 다다랐다.

    안정적인 운영 효율화를 위한 필수 키워드: 자동화 서비스

    엔씨의 게임 서비스가 글로벌로 확장하고 서비스를 제공하는 플랫폼도 다양해지면서 자연스럽게 인프라의 규모와 복잡성도 커질 수밖에 없었다. 이처럼 거대해진 인프라에 제한된 리소스를 바탕으로 대응하기 위해서는 자동화 기술이 필수적이었다.

    자동화 서비스는 주로 모니터링, 배포, 조치 영역 등에만 활용하고 있었다. 현재는 안정성과 생산성 향상을 목표로 적용 범위를 늘려가고 있다. 케이블과 네트워크 인터페이스(NIC)에 일어난 단순한 문제는 사람보다 조작이 빠른 자동화 서비스로 대응하고 있다.

    서버 구축 업무의 경우, 기존에는 서버 상면을 할당하는 인력부터 IP 할당, OS 설치 등을 위한 여러 인력이 필요했는데, 현재는 자동화 시스템으로 지원할 수 있다. 그러다 보니 해당 업무를 진행하던 휴먼 리소스를 다른 업무에 분배할 수 있고, 대규모 서버를 구축하는 시간도 대폭 단축할 수 있게 됐다. 또한 글로벌 서비스를 제공하기 위해 서버들을 자동적으로 안정적인 영역으로 라이브 마이그레이션(migration)할 수 있도록 설계해 운영하고 있다. 이를 통해 글로벌 지역의 플레이어에게도 안정적인 플레이 타임을 제공하고 있다.

    데이터 센터 내 수만 개의 케이블 중 네트워크 인터페이스에 문제가 발생하면 이를 모니터링하여 자동 조치할 수 있는 기능(Auto Recovery)을 개발하고, 데이터 센터 간 서비스 이전 자동화 환경을 구축하여 게임월드 서버를 원하는 데이터 센터로 수 분 내에 이전할 수 있도록 만들었다. 나아가 장애가 발생하면 원 버튼만으로 이원화한 거점의 동일한 시스템을 불러와 자동으로 조치할 수 있는 시스템도 개발 중이다.

    I&O 센터의 궁극적 목표는 자동화 서비스를 통해 인력의 손길을 최소화하는 것이다. 앞으로도 최대한 많은 영역에 자동화 환경을 구축하고자 한다.

    집요함으로 견고하게 쌓아 올린 엔씨 서비스의 표준

    엔씨는 플레이어에게 안정적인 서비스를 제공하기 위해 모든 경우의 수를 고민하고 어떤 장애에도 대비할 수 있는 견고한 인프라 환경을 구축하고 있다. 그래야만 전 세계 플레이어들이 끊김 없이 원활하게 게임을 즐길 수 있기 때문이다. 그 배경에는, 하나의 문제점도 허투루 넘어가지 않고 작은 문제라도 해결점을 찾아내기 위해 최선을 다하는 I&O 센터의 집요한 노고가 있다. 앞으로도 이 ‘집요함’이 견고하게 쌓인다면 더욱 안정적으로 게임을 서비스할 수 있을 것이다.

    가까운 미래에 게임 서비스의 트렌드가 될 AR/VR을 지원할 품질 높은 환경과 게임 서비스 에뮬레이팅 등 다양한 운영 환경에 적용할 수 있는 기술들을 발굴하고 적용할 예정이다.

    기술의 연속성을 확보하기 위해 엔씨는 끝없이 기술에 대해 고민하고 개선하며 미래를 더욱 기대하게 만드는 행보를 멈추지 않을 것이다.