한국어
    • 한국어
    • ENGLISH
    • 日本語
    • 中文-繁體

    2022.09.27 ESG

    [NC] AI Ethics Framework | Unbiased

    엔씨는 세상 모두가 즐거움으로 연결되는 미래를 꿈꿉니다. 그 미래에는 올바른 즐거움을 위해 안전하면서도 투명하고 편견 없는 기술 윤리를 실천하는 것도 포함되어 있습니다. 이를 위해 엔씨는 인공지능 기술 개발의 중요성과 윤리적 책임을 깊이 인식하고 적극적으로 기술 경영을 하고 있는데요. 특히 AI 기술이 ‘인간 중심의 AI’로 지속 성장하기 위한 가이드라인이 될 [NC] AI Ethics Framework 원칙을 제정하였습니다.

    [NC] AI Ethics Framework의 핵심 가치 3가지는 Data Privacy, Unbiased, Transparency입니다. 엔씨는 AI 기술 개발 과정에서 사용자의 데이터를 보호하고 사회적으로 편향되지 않도록 주의하며, 해석 가능한 AI를 지향하고 있습니다. 더불어 AI 윤리에 대한 사회적 인식이 확산하도록 세계적 석학과의 대담, 외부 공동 연구 및 연구 후원 등의 활동도 진행하고 있습니다. 이번 기사에서는 엔씨가 Unbiased를 핵심 가치로 선정한 이유와 실천하고 있는 활동을 소개하겠습니다.


    편향되지 않은 AI

    2019년 유네스코가 발표한 보고서에 따르면 성적 편견을 강화하는 ‘젠더 편향’이 여러 AI 제품에서 나타나고 있다. 또 MIT 미디어랩의 연구 결과에 따르면 특정 인종이나 성별에 대한 안면 인식 오류율이 다른 인종이나 성별에 비해 3~40배가량 높다. AI를 학습시킬 때 특성이 다양한 데이터를 다루다 보면 어떤 형태로든 편향이 생기기 마련이다. 이러한 편향이 사회의 특정 계층이나 집단 또는 개인을 부당한 차별이나 편견에 휩쓸리게 만들 위험이 있으면 더욱 조심스럽고 세심하게 접근해야 한다. 엔씨는 AI 데이터에서 차별 및 혐오, 편견을 조장하는 비윤리적인 표현 데이터를 제거하고, 공정한 AI 기술을 개발하는 시스템을 도입하는 등 편향되지 않은 기술을 개발하고 서비스에 적용하기 위해 끊임없이 노력하고 있다.

    비윤리적 표현 데이터 사전

    엔씨는 데이터에 있을지 모르는 욕설/성희롱 등의 비윤리적 표현을 제거하기 위해 이러한 표현을 수집하고 유형과 강도를 포함한 분류 체계를 만들어 유형별로 묶은 ‘비윤리적 표현 데이터 사전’을 구축하고 있다. 이 사전은 대화 데이터의 인식 과정 및 대화 생성/출력 과정에서 필터링하는 기준으로 사용된다. 대화 데이터는 상황이나 특성에 따라 다른 의미로 사용될 수 있다는 점을 고려하여 ‘비윤리적 표현’을 등급화하고 등급별로 대응 방식을 마련하고 있다.

    비윤리적 표현은 보편적으로 비윤리적인 경우도 있지만 문맥이나 집단에 따라 비윤리적이라고 받아들일 수 있는 표현도 있다. PAIGE 서비스의 채팅에서는 어느 정도 강한 감정 표현은 용인되지만 서비스에 따라서는 강한 감정을 표현하는 어휘를 사용하면 안 되는 경우도 있다. 따라서 범용적인 비윤리적 표현에 관한 기술을 가장 먼저 중요하게 적용해야 하는 분야는 대화 관련 기술이다. 비윤리적 표현을 즉각 판단할 수 있는 어휘는 찾기 쉬우므로 대응하기 쉽지만, 문맥을 고려하여 판단해야 하는 경우는 전체 문맥을 모두 살펴보고 판단하는 등의 기술이 필요하기 때문이다.

    엔씨 NLP 센터는 PAIGE 서비스를 시작할 때부터 비윤리적 표현을 수집했다. 2021년 초에 혐오 표현을 필터링하자는 목표를 정한 이후에는 더 본격적으로 비윤리적 표현을 수집하고 유형화하고 있다. NLP(자연어처리)는 크게 NLU라는 인식 파트와 NLG라는 발화 생성 두 부분으로 나뉜다. 무엇을 처리할지 정하기 위해서는 NLU 기술로 사용자의 발화나 데이터에 있는 혐오를 유발하는 단어를 찾아야 한다. 가능한 한 혐오 표현을 모두 수집하여 AI를 학습시켜야 사용자가 작성한 문장에 있는 욕설이 그저 단어가 아니라 욕설임을 알 수 있다. 그다음에는 NLG 파트의 생성 기술을 통해 다양한 발화의 목적에 따라 각각에 맞는 대화 모델을 만들 수 있다. NLP 센터의 목표는 사용자에게 즐거움을 주는 대화를 생성하고, 최종적으로는 출력되는 발화가 비윤리적 표현을 담지 않도록 제어하는 기술을 개발하는 것이다.

    비윤리적 표현의 등급화와 필터링

    엔씨는 비윤리적 표현을 4등급으로 정의하여 대응 계획을 세우고 있다. 등급화 기준은 다음과 같다.

    비윤리적 표현에 대한 필터링은 등급별로 다양한 기술을 개발하여 적용할 예정이다. 어휘 위주의 패턴 매칭 필터링뿐 아니라 혐오 표현 사전의 표현과 유사한 발화들을 추정하여 필터링하고, 맥락을 고려하여 비윤리적인 대화라고 판단되면 필터링하는 등 다양하다. 현재 PAIGE4.0까지 1등급 어휘들에 대한 필터링 기술을 반영했고, PAIGE2022에 2등급까지 고려한 필터링 기술을 반영할 예정이다. 현재 서비스 전 테스트를 진행하고 있다.

    또한 비윤리적 표현에 대한 필터링의 일부로, 기계 번역이 서비스되고 있는 게임에서 정치적 이슈가 될 수 있는 인종/국가 등에 대한 비하 표현 등의 대역어(번역 어휘)를 따로 관리하여 최대한 중립적으로 표현하도록 하고 있다. 우크라이나 사태 같은 국제 이슈도 바로바로 인지하고 서비스에 반영하기 위해 노력하고 있다. 비윤리적 표현 사전이 사용된 것은 아니지만 게임 운영팀이 관리하는 사전 기반의 금칙어 필터링 기술도 다른 게임에 확대 적용할 예정이다.

    비윤리 발화 생성 방지 시스템

    엔씨는 시스템이 욕설을 포함한 차별적 발언을 하지 않도록 방지하는 차원을 넘어 사용자가 무례함을 느끼지 않도록 개념이 확장된 비윤리 발화 생성 방지 시스템을 구축했다. 특히 AI가 생성하는 발화를 Biased(편향됨), Impoliteness(무례함), Politeness(정중함)으로 정의했다. 이에 따라 발화가 Biased에 해당하지 않더라도 무례한 표현(Impoliteness) 대신 Politeness(정중함)를 지향하도록 시스템을 구축하여 인간을 존중하며 배려하는 대화가 이뤄질 수 있도록 했다.

    AI가 생성하는 발화는 기본적으로 학습 데이터에 달려 있다. 편견이 포함된 표현이 있음을 AI가 알기 위해서라도 학습 데이터에는 편견이 포함된 데이터가 편견 없이 포함되어야 한다. 이 데이터를 학습시키는 방법은 NLU 연구의 영역이고, 적절한 대화를 출력하는 모델이나 설계를 고민하는 것은 NLG 연구의 영역이다. AI와의 대화는 일대일 대화 같지만 일대다의 대화이기도 하다. 이 경우 AI의 편견에 조심스럽게 접근해야 한다. AI가 실제 사람처럼 맥락을 자유자재로 이용할 수 있는 단계가 되면 편견이 섞인 AI의 발화를 사람들이 받아들이게 될 것이다.

    편향되지 않음(Unbiased) 단계까지의 연구는 소극적인 방어 전략이었다. 비윤리적인 대화를 보면 똑같은 단어에 큰 의미를 부여하여 반발하는 사람이 있는 반면 대수롭지 않게 여기는 사람도 있다. 사람마다 생각과 경험에 따른 민감도가 다르기 때문에 편향되지 않은 대화만을 규정하면 문맥적으로 발생한 혐오를 비롯하여 많은 부분을 책임지지 않아도 된다는 결론에 도달한다. 그런데 실제로 사용자들 사이에서 문제가 되는 것은 문맥 기반의 대화인 경우가 많다. 이 때문에 편향적이지 않은 대화에서 한발 더 나아가 무례함을 느끼지 않는 대화를 설계해야겠다는 목표에 도달했다.

    AI는 아직 사람들의 말을 학습하고 있기 때문에 예의 바른 시스템 발화라고 여겨질 수 있다. AI가 사람과 올바로 상호작용하도록 하기 위해 무례한 발화를 제어하는 기술을 연구하고 다양하게 시도하고 있다. AI가 사람들이 입력하는 편견에 대해 다른 주제를 제안하거나 회피하는 등으로 대화하고 대화 전략들을 적절히 사용할 수 있는 방법들을 연구하는 것이다. 즉, 사람들이 입력하는 표현에 차별적 언사로 대응하지 않고(Unbiased), 반말을 하거나 사람들의 질문에 대응하지 않는 등의 무례한 표현을 하지 않도록 하는 것(Politeness)이다. 정중함(Politeness)은 대화 연구를 위한 지향점이다.

    공정성/편향성 AI 영향도 테스트

    엔씨는 긍정적인 고객 플레이 경험을 제공하기 위해 공정하고 편향되지 않은 AI 시스템을 개발하고 있다. 이를 위해 AI 서비스를 개발할 때 다양한 테스트 시나리오 설계 및 4단계 AI 영향도 테스트를 진행하고 있다. 개발 단계에서 개인정보나 비윤리적 표현이 패턴으로 걸러지지만, 같은 단어나 숫자라도 문맥에 따라 숫자로 읽히거나 욕으로 읽히는 등 일괄적으로 처리하기 어려운 점도 있다. 모든 유형을 한 번에 완벽하게 처리할 수는 없기 때문에 모든 개발 단계에서 AI 영향도 테스트를 하며 여러 번 검증한다. 다음은 각 단계에 관한 설명이다. 이 4단계는 데이터 생성 단계, 모듈 테스트 단계, 서비스 단계 등 기술 개발에서 서비스하는 과정의 사전-사후에 지속적으로 테스트하여 미처 예상하지 못한 문제들을 해결하기 위한 것이다.

    차별을 넘어 무례하지 않은 디지털 휴먼 기술을 위해

    현재 엔씨는 비윤리적 발화 생성을 방지하는 시스템을 서비스에 적용하기 위해 테스트하고 있다. ‘어느 정도 방지하고 어떤 부분을 못 막는지’를 테스트하는 단계다. 엔씨 NLP 센터의 단기적 목표는 이 테스트를 잘 완수하여 서비스에 반영하는 것이다. 장기적 목표는, 비윤리 발화 테스트에 관한 국내 연구가 부족하기 때문에 내부적으로 한국어 채팅에 맞고 체계적인 품질 검증 방법을 설계하여 품질 높은 비윤리적 발화 필터링 기술을 만드는 것이다. 현재 적용되고 있는 기계 번역의 정치적 표현에 대한 대역어 수집도 지속적으로 진행하고, 다양한 광고나 욕설 등을 처리하기 위해 게임 채팅 내 스팸 및 마스킹도 지속적으로 운영하고 있다. 또한 적용되거나 아직 적용되지 않은 IP에도 스팸/금칙어 시스템을 적용하여 사용자들이 보다 청정한 환경에서 게임을 즐길 수 있도록 하고자 한다. 이 모든 과정을 통해 사용자들의 ‘올바른 즐거움’에 기여할 것이다. 더 나아가 AI가 차별적 발언을 하는 것을 넘어서 사용자가 무례함을 느끼지 않는 단계(Politeness)가 진정한 대화의 단계이기 때문에 이를 디지털 휴먼 기술에도 적용하는 연구도 지속할 예정이다.

    이처럼 엔씨가 노력하는 이유는 AI 기술이 사회의 윤리적 구성원으로 자리 잡기 위해서는 차별이나 편견을 조장하지 않고, AI에 기반한 서비스가 특정인에게 불리하게 작용하거나 소외시키지 않도록 해야 하기 때문이다. 더 나아가 AI 연구자나 개발자들이 스스로 무엇이 비윤리적인지 끊임없이 질문해야 할 것이다. 이러한 노력은 사람과 사회가 편향되지 않고 공정함에 대한 인식을 공유하기 위한 초석을 되어줄 것이다.