엔씨는 세상 모두가 즐거움으로 연결되는 미래를 꿈꿉니다. 그 미래에는 올바른 즐거움을 위해 안전하면서도 투명하고 편견 없는 기술 윤리를 실천하는 것도 포함되어 있습니다. 이를 위해 엔씨는 인공지능 기술 개발의 중요성과 윤리적 책임을 깊이 인식하고 적극적으로 기술 경영을 하고 있는데요. 특히 AI 기술이 ‘인간 중심의 AI’로 지속 성장하기 위한 가이드라인이 될 [NC] AI Ethics Framework 원칙을 제정하였습니다.
[NC] AI Ethics Framework의 핵심 가치 3가지는 Data Privacy, Unbiased, Transparency입니다. 엔씨는 AI 기술 개발 과정에서 이용자의 데이터를 보호하고 사회적으로 편향되지 않도록 주의를 기울이며, 해석 가능한 AI를 지향하고 있습니다. 더불어 AI 윤리에 대한 사회적 인식이 확산하도록 세계적 석학과의 대담, 외부 공동 연구 및 연구 후원 등의 활동도 진행하고 있습니다. 이번 기사에서는 엔씨가 Data Privacy를 핵심 가치로 선정한 이유와 실천하고 있는 활동을 소개하겠습니다.
데이터 보호를 중시하는 AI
AI의 힘은 광범위하게 수집된 데이터에서 나타난다. 개인 식별 및 추적 시스템, 사용자 맞춤형 음성 인식 서비스 등의 AI를 개발하기 위해 수집하는 데이터에는 개인정보가 포함될 가능성이 높다. 지난해 법무부가 출입국 심사에 활용할 AI 식별 및 추적 시스템을 개발하는 과정에서 개인의 안면 이미지 정보를 AI 개발 업체에 제공해 논란이 됐다. 지금도 사용자들에게 명확히 고지하거나 동의받지 않고 개인정보를 인공지능의 학습에 활용하고 있는 실정이다.
엔씨는 AI 연구 및 개발에 필요한 데이터를 활용하는 과정에서 사용자의 프라이버시 및 개인정보를 원천적으로 보호하고 있다. 또한 전사적으로 개인정보 보호에 대한 의식을 고취하기 위해 데이터 보안 및 정보 취급 교육도 정기적으로 시행하고 있다. 이와 같은 노력은 데이터 프라이버시를 중심으로 서비스 이용자의 개인정보 노출 같은 문제가 발생할 가능성을 원천적으로 차단하고, 혹시라도 그런 문제가 하나라도 나타날 경우 데이터를 한 번 더 살펴보고 문제의 소지를 제거한 후 서비스를 제공하고자 시작되었다.
대내외 데이터 이용 정책 준수
엔씨는 국내외 데이터 보안 관련 규제를 준수하고 데이터를 안전하게 활용하기 위해 엔씨 데이터 활용 정책 및 프로세스를 수립하였다. 또한 이 정책 및 프로세스를 AI 연구와 개발에 적용하고 있다. 2021년 이후 개인정보 취급에 대한 중요성이 높아지면서 엔씨 AI 센터는 이러한 사회적 요구에 발맞추어 자체적이고 선제적으로 개인정보를 보호하는 체계를 마련했다. 특히 NLP(자연어처리) 센터는 사람들이 작성하는 모든 텍스트가 연구의 대상이므로 그 안에서 ‘개인정보’의 대상부터 찾기 시작했다. 개인정보의 대상은 주민등록번호, 지명, 이름 등 다양하다. 엔씨는 국가에서 법령으로 지정한 시행령과 조례, 관련 연구 논문 등을 살펴보며 ‘무엇을 개인정보로 규정할지’, ‘데이터에서 그 개인정보를 어떻게 찾아낼 것인지’ 등에 관한 기준을 세워나갔다. 특히 외부 공개 데이터를 이용하는 경우 해당 기관의 라이선스 및 이용 정책을 적극 준수하며 데이터 보안성을 유지하고 있다.
사용자 식별 로그 기록 방지
또한 엔씨는 AI 학습에 이용되는 데이터의 개인정보를 보호하기 위해 사용자 식별 로그 기록을 방지하고 있다. 사용자 로그는 출시된 AI 콘텐츠를 사용자가 즐기는 과정에서 발생하는 이슈를 분석하거나, AI 콘텐츠가 의도대로 잘 작동하는지 확인하기 위해 수집한다. 이 과정에서 개인 식별이 가능한 정보가 포함되어 있는 경우 프라이버시에 대한 이슈가 제기될 수 있다. 그러므로 사용자를 식별할 수 있는 로그가 원천적으로 남지 않도록 개인 식별 정보를 제거하고 AI 행동 검증에 필요한 정보만 수집하도록 조치하는 것이다.
한 예로 누가 ‘거울전쟁’을 어떻게 플레이했는지에 대한 정보는 사용자에게 그리 예민한 정보가 아닐 수도 있다. 다만 자신의 일거수일투족이 기록되어 감시받고 있다는 느낌은 사용자의 입장에서 유쾌하지 않을 것이다. 그래서 사용자 로그 기록에서 개인 식별 정보를 제거하는 것은 개인정보 보호뿐만 아니라 고객 배려의 차원에서도 중요하다.
개인정보 비식별화 체계 구축
엔씨 AI R&D 조직은 데이터 활용에 관한 내부 절차에서 더 나아가 개인정보 비식별화 정책을 수립하고 처리 시스템을 구축하여 적용하고 있다. 또한 이 정책, 시스템, 프로세스 측면을 지속적으로 개선하고자 노력하고 있다. 개인정보 비식별화의 대상은 외부에서 공개하는 데이터와 내부에서 수집하고 기술에 맞게 구축하는 모든 데이터다. NLP 연구를 위해서는 텍스트 데이터가 필요하고, 실제 사람들이 남긴 텍스트 데이터를 많이 모을수록 더 적합한 기술을 개발할 가능성이 높다. 뉴스 기사 같은 문어는 구하기가 비교적 쉽지만 구어는 구하기 어렵기 때문에 사람들의 비정제된 발화를 수집하기 위해 노력하는 경우가 많다. 그래서 기존에 비식별화 처리를 하지 않고 보유하고 있던 데이터도 모두 비식별화 처리를 하고 있는 중이다.
특히 개인정보와 관련하여 어떤 사람을 특정하면 그때부터 악용될 소지가 크다. 사용자들은 자신의 얼굴이 노출되면 개인정보가 유출되었다고 인식하기 쉽지만, 텍스트는 개인을 특정하기 전까지 이 데이터가 얼마나 중요한지 인식하기가 쉽지 않다. 계좌번호, 주민등록번호 등과 같은 데이터의 경우 한번 노출되면 사유재산이 위협받거나 범죄에 이용될 정도로 중요하다. 이처럼 중요한 데이터가 채팅이나 게시판 등 여러 사람에게 공개된 공간에서 쉽게 노출되는 상황이다. NLP 센터는 이름 같은 개인정보가 은연중에 노출된 데이터를 찾아내 제거하고, AI 학습에 필요한 나머지 데이터들은 남기며 개인정보를 처리할 수 있는 시스템을 구축하고자 했다.
PAIGE처럼 실제 서비스되고 있는 웹이나 어플은 서비스 정책상 <개인정보 처리 방침>과 관련된 약관을 통해, 수집하는 항목이 무엇이고, 수집한 개인정보를 몇 년 동안 보관하고 어떻게 분리/저장/관리하는지를 명시해야 한다. 몇 년 전만 해도 서비스를 위해 수집한 사용자 정보는 엄격하게 다루고, 연구를 위한 데이터의 개인정보에 대한 처리는 크게 중요시하지 않는 경우가 많았다. 그러나 2021년 이후 최근 오픈되는 공공 데이터도 개인정보를 비식별화 처리하고 있다. 개인정보 비식별화 프로세스는 아래와 같다.
데이터 보안 및 정보 취급 교육
엔씨는 데이터 특성에 따른 처리 방법 및 데이터 가명 처리, 개인정보 유출 방지 및 취급 유의 사항 등에 대한 교육 등을 정기적으로 진행하고 있다. 개인정보를 비식별화 처리하는 기술을 개발하기 위해서는 학습 데이터 중 어떤 어휘가 개인정보인지를 표시(태깅)해주어야 한다. 이렇게 작업하면 의도치 않게 여러 사람에게 개인정보가 노출되기 때문에 엔씨는 데이터를 안전하게 보호할 수 있는 다양한 장치를 마련하고 있다. 첫 번째는 비식별화 도구로 모든 열람자의 행동을 로그로 저장하여 유출 등의 불법적인 일을 막는 것이다. 두 번째는 데이터 구축자들에게 데이터 보안과 정보 취급에 관해 교육하는 것이다.
나아가 개발자나 연구자들이 데이터를 열람하기 전 '개인정보 취급자 보안 서약서'에 서명하도록 하여 불법 활용과 유출을 방지하는 보안 체계도 운영하고 있다. 일상 대화에 기술을 적용하려면 일상 대화 데이터를 봐야 하고, 게임 채팅에 맞는 기술을 개발하려면 게임 채팅을 봐야 한다. 이 때문에 엔씨는 데이터 보안과 정보 취급자에 대한 교육을 통해, 데이터를 함부로 다루거나 개인정보를 유출하지 않도록 노력하고 있다. 개인의 모든 일탈 행위를 막기는 힘들지만 이러한 교육은 데이터를 무심코 다루는 취급자가 윤리적 경각심을 갖도록 하는 장치가 된다. 또한 연구 과정에서 데이터를 다룰 때 최소한의 윤리적 가이드라인으로도 작용할 수 있다.
개인정보를 엄격하게 취급하는 체계가 구축된다면
데이터는 더 나은 서비스와 기술 개발을 위해 꼭 필요한 요소다. 시대적인 패러다임으로 데이터가 없으면 AI의 학습과 개발이 불가능한 게 사실이다. AI 개발자, 연구자 입장에서는 데이터가 100만 개 있는데 그중 개인정보가 10만 개면 그만큼 학습할 수 있는 데이터가 줄어들게 된다. 엔씨에서는 누군가의 이름이 있으면 가명 처리하거나 다른 어휘로 대체하는 등 나머지 문맥을 학습할 수 있도록 데이터 처리를 자동화하는 기술을 활발하게 연구하고 있다.
개인정보를 엄격하게 취급하는 체계가 구축되면 데이터를 열람하는 사람은 사회적 책임감을 갖고 데이터를 다루고 AI 학습과 개발에 기여할 수 있다. 한편 서비스 이용자는 체감하지 못하는 사이에 자신의 정보가 다른 사람에게 알려져 개인의 신원이나 재산이 위험해질 수 있다는 불안을 느끼지 않아도 될 것이다. 엔씨는 현재와 미래의 이용자들이 안심하고 서비스를 이용할 수 있는 환경을 조성하기 위해 AI 기술 개발 및 학습을 위한 데이터를 수집, 활용하는 모든 과정에서 개인정보 보호 체계를 공고히 하고 윤리적 이슈가 발생하지 않도록 지속적으로 점검하고 개선할 것이다.