한국어
    • 한국어
    • ENGLISH
    • 日本語
    • 中文-繁體

    2023.03.20 AI

    AI 챗봇 신드롬, 언어 모델 속 젠더 편향성 숙제

    엔씨 NLP 센터 산하 검색기술실 자연어검색팀의 박선영 님이 올해 16회를 맞은 세계 최고 권위의 데이터 마이닝 학회 ‘WSDM(Web Search and Data Mining)’에서 언어 모델과 젠더 고정관념에 대한 논문을 발표했습니다. 이번 글에서는 인공지능의 젠더 고정관념이 초래할 수 있는 윤리 문제를 인식하고 방지하기 위해 논문에 제안한 새로운 언어 모델 학습 방법을 자세히 소개하겠습니다.


    최근 OpenAI의 ChatGPT나 Google의 BARD 같은 언어모델이 초미의 관심사로 자리 잡았다. ChatGPT는 틱톡보다도 빠른 추세로 사용자를 끌어모았다고 한다. OpenAI ChatGPT에게 몇 마디를 던져본 결과는 영화 〈아이언맨〉에 등장하는 인공지능 어시스턴트 '자비스'가 생각날 정도다. 어떻게 이런 언어모델들이 인간이라도 된 것처럼 훌륭한 답변을 생성할 수 있을까? 그 답은 '데이터'에 있다. 사람들이 작성한 수많은 텍스트 데이터를 기반으로 딥러닝 학습을 거친 기계는 원래 깡통에 불과했지만 사람을 모방할 수 있게 된다. 실제로 기계가 '생각'해서 답을 내놓는 게 아니라 학습한 데이터를 통해 확률적으로 그럴듯한 답변을 생성하는 것이다.

    그저 수많은 텍스트와 가용 GPU만 있으면 훌륭한 언어모델을 만들 수 있을까? 결론부터 말하면 맞기도 하고 아니기도 하다. 단순히 사람처럼 말을 잘하는 언어모델을 만드는 게 목표라면 분량이 무지막지한 데이터를 모델에 입력하고 아무 제재 없이 학습시키더라도 큰 문제가 발생하지 않을 것이다. 하지만 한 언어모델이 사람을 평가하는 툴이나 실생활에 자주 활용된다고 상상해보자. 언어모델이 성별이나 인종을 이유로 어떤 사람을 높게/낮게 평가하거나 비윤리적인 의도를 담은 말을 필터링 없이 한다면, 화법이 아무리 뛰어나더라도 그 모델을 사용하기는 쉽지 않을 것이다.

    인공지능의 고질적 문제, 젠더 데이터 편향

    언어모델 대다수는 위키피디아(위키백과)를 비롯한 거대 말뭉치를 기반으로 사전 학습(Pre-training)한다. 대용량 말뭉치를 '사전' 학습하여 얻은 기초적 언어 능력을 토대로 타깃 데이터에 맞춰 미세조정(Fine-tuning)하는 학습 과정을 거치면 사용자의 니즈에 맞는 언어모델을 구축할 수 있다. 여기서 발생하는 근본적인 문제가 바로 '데이터 편향(Data Bias)'이다. 많은 사람이 작성한 글들이 모두 윤리적으로 올바를까? 내용은 둘째 치고, 데이터가 균등한 비율로 구성되었을까? 남성, 여성, 퀴어, 백인, 아시아인, 흑인 등 수많은 사회집단에 관해 동일한 비율로 구성된 데이터를 사용할 수 있을까? 실제로 이전 연구들에 따르면 사전 학습에 사용된 데이터 대부분이 특정 집단에 편향되었다는 문제가 많이 제기되어왔다. 언어모델을 사전 학습시킬 때 가장 많이 사용되는 데이터셋인 위키피디아의 여성 인물 비중은 15.5%에 불과하다고 한다.

    그럼 학습 데이터 분포를 조금 조정하면 되는 거 아니냐고 질문할 수도 있을 것이다. 모델을 처음부터 직접 사전 학습시킬 수 있는 환경이 아니라면, 보통 구글이나 OpenAI 같은 거대 테크 컴퍼니에서 공개한 사전 학습 언어모델을 다운받아서 사용한다. 사전학습을 시킬 때 이미 편향된 데이터를 사용하다 보니 자연스레 언어모델도 편향을 학습하고 재생산하는 굴레에 빠지게 된다. 미세조정하기도 전에 이미 모델이 편향된 것이다.

    일반적인 개발자가 기학습된 사전 학습 언어모델을 조정하는 것은 쉬운 일이 아니다. 하지만 편향이 뻔히 보이는 모델을 그대로 사용하기에는 리스크가 크다. 그렇기 때문에 미세조정 단계에 모델의 편향을 조정하는 Debiasing 기법이 최근 많이 제안되고 있다. 편향과 불평등에 관한 주제는 많지만, 이 글에서는 젠더 편향성에 중점을 두고 설명하겠다. 앞서 이야기했듯 보편적으로 사용되는 데이터셋들은 보통 남성 위주의 예제로 구성되어 있다. 데이터 내용을 들여다보면 기존 성 관념이 투영된 경우가 많다고 한다. 그런 데이터들로 모델을 학습시키면 성차별적 특성을 내재한 모델이 만들어질 가능성이 아무래도 높을 수밖에 없다.

    고정관념(Stereotype)과 치우침(Skew)

    편향된 모델들이 흔히 드러내는 현상은 두 가지다. 고정관념(Stereotype)과 치우침(Skew) 문제다. 예를 들어 아무 문맥이 없는 상황에서 "??? is a doctor and has a high salary(???는 의사이고 급여가 많다)"라는 문장에서 빈칸을 'He(그)'나 'She(그녀)'로 예측해야 한다고 가정해보자. 기존 맥락이 없으니, 올바른 모델이라면 'He'와 'She'를 각각 50% 확률로 예측해야 하지 않을까? 하지만 현실 세계에서 모델을 돌려보면 'He'를 선택할 가능성이 높다고 한다. 의사는 '남성'의 직업이라는 고정관념을 학습했거나, 사전 학습 데이터에 남성 관련 텍스트가 훨씬 많았기 때문에 'He'로 치우친 예측 결과들이 나오는 것이다.

    기존 Debiasing 방법론의 경우 일반적으로 데이터 증강(Data Augmentation) 기법을 사용해 문제를 해결하고자 했다. ‘미세조정 때 사용하는 데이터라도 남녀 비율이 균등하도록 구성하고 모델을 학습시키면 되지 않을까?’라고 생각했기 때문이다. 아니면 별도의 후처리 방법을 도입해 확률을 보정하는 방법도 있다. 기존 방법론들을 사용하면 언어모델의 '치우침'이 많이 해소되긴 했지만 '고정관념'은 여전히 해결되지 않은 문제로 남았다. 그리고 증강된 학습 데이터로 모델을 학습시켰을 때 모델의 언어 이해 능력(Natural Language Understanding)이 저하되는 현상도 나타났다. 단순히 데이터를 변형하거나 기학습된 모델의 결괏값만을 조정하는 정도로는 충분하지 않았다.

    (Daniel de Vassimon Manela et.al., “Stereotype and Skew: Quantifying Gender Bias in Pre-trained and Fine-tuned Language Models”, EACL 2021.")

    첫 번째 방법론: 젠더 고정관념 중화

    올해 2월 WSDM(Web Search and Data Mining) 학회에 발표된 논문 'Never Too Late to Learn: Regularizing Gender Bias in Coreference Resolution'은 고정관념 문제와 언어 이해 능력이 저하되는 현상을 개선하기 위한 학습 방법을 새롭게 제안했다. 모델 학습 과정 전후로 편견을 제거하는 것도 중요하지만, '모델' 자체의 편향성을 제거할 수 있도록 학습 과정을 조정할 필요도 있다는 것이다. 해당 논문은 데이터 증강을 통해 특정 성별에 치우친 모델을 조정하고, 새로운 두 가지 기법으로 1) '고정관념'과 2) '성능 저하' 이슈를 해결하는 방안을 제안했다. 미세조정 단계에 모델이 학습할 때 편향과 관련된 제약을 미칠 수 있는 페널티 텀을 손실함수에 추가하는 방식이다.

    첫 번째 방법론은 Stereotype Neutralization(SN)이다. 방법론에 대해 설명하기 전에 워드 임베딩, 즉 단어를 표현하는 벡터에 대해 약간 설명하고자 한다. 언어모델은 단어들을 컴퓨터가 이해할 수 있는 형태인 고차원 벡터로 표현하여 연산을 진행한다. 이 벡터들은 말뭉치 안에서 다른 단어와의 관계를 잘 포착해야 하기 때문에 비슷한 단어들은 공간적으로 가까이에, 특성이 다른 단어들은 멀리 위치하게 만든다. 이때 언어모델에 편향이 존재한다면 성별에 대한 고정관념이 존재하는 단어들끼리 뭉치도록 만들 가능성이 높다. 실제로 언어모델 BERT(bert-base-uncased)가 생성한 남성/여성 편향적인 직업 단어들에 대한 단어 벡터를 시각화하면 같은 성별에 대해 편향적인 단어들끼리 묶이는 경향이 큰 것을 확인할 수 있다고 한다.

    '의사', '간호사', '비서', 'CEO' 같은 단어들은 특정 성별의 색깔을 띠면 안 되겠지만, 단어 자체가 성별 특성을 내재한 경우가 있다. '아빠'나 '엄마' 등이 그렇다. 편향을 제거해야 하는 성 중립적 단어들과 성별 특성이 존재하는 단어들의 벡터 간 거리가 멀어지도록 만들면 성별에 대한 모델의 고정관념을 어느 정도 지워낼 수 있지 않을까? 이 아이디어에 따라 논문에서는 두 종류의 단어들이 구별되도록 직교화(orthogonalization)에 기반한 정규화 텀을 기존 손실함수에 추가하여 미세조정을 진행한다. 직교화는 각각의 단어 벡터가 서로 수직이 되도록 만들어 두 벡터 간 거리가 멀어지도록 한다. 성향이 서로 다른 단어들이 벡터 상으로 구별되도록 단어 간의 관계를 없애는 방법이라고 보면 될 것 같다. 이 정규화 텀으로 학습하면 SN에 기반한 모델은 기존의 사전학습 언어모델들과는 달리 특정 단어들에 대한 편향성이 상대적으로 적어진다.

    (SN Reference 1: Tolga Bolukbasi et.al., “Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings”, NeurIPS 2016.)

    (SN Reference 2: Kaneko and Bollegala. “Gender-preserving Debiasing for Pre-trained Word Embeddings”, ACL 2019.)

    두 번째 방법론: 탄력적 변수 강화 기법

    SN이 고정관념 문제를 해소하고자 했다면, Elastic Weight Consolidation(EWC)은 데이터 증강 환경에서 학습한 모델의 성능 저하 문제를 위해 제안된 방법이다. 일반적으로 EWC는 여러 데이터나 태스크에서 재학습하는 모델이 이전 학습 내용을 잊지 않게 할 때 많이 쓰이는 방법론이다. 해당 논문에서는 모델의 주요 파라미터 정보를 담고 있는 Fisher Information 기반의 EWC 정규화 텀을 손실함수에 추가하여 사용한다. 기존 사전학습 언어모델의 주요 파라미터값을 참고하며 학습한다면, 증강된 데이터 기반으로 학습하고 있는 모델의 성능 저하가 적어질 것이라는 의미다. 예를 들어 BERT 모델의 편향을 제거하는 태스크라면, 일반적 BERT 모델 내 파라미터별 중요도를 계산해서 주요 파라미터들은 최대한 유지하는 방향으로 학습을 진행하겠다는 것이다. 언어모델이 사전학습하며 습득한 뛰어난 언어 이해 능력을 유지할 수 있도록 학습에 제한을 두는 것이다. 편향이 잘 제거되었더라도 언어 능력이 훼손된다면 결국 언어모델로서 가치가 떨어지기 때문이다.

    (EWC Reference: Kirkpatrick et. al. “Overcoming catastrophic forgetting in neural networks”, Proceedings of the national academy of sciences 2017.)

    SN과 EWC 모두를 기존 손실함수에 추가한 BERT-ASE(Augmentation+SN+EWC) 모델의 경우, 이전에 제안된 방법론들에 비해 편향과 성능 저하 문제 둘 다 개선되는 것을 확인할 수 있다. 정성적 분석 결과도 흥미롭다. "??? is a doctor and has a high salary(???는 의사이고 급여가 많다)"라는 문장에서 BERT는 남성 중심의 이름을 많이 예측한 반면, BERT-ASE는 'It'이나 'They'처럼 중립적인 단어들을 더 높은 순위에 올리는 것을 볼 수 있다. "??? is a nurse and does housework after work(???는 간호사이고 일이 끝난 후 집안일을 한다)"라는 문장에서는 더 뚜렷한 차이를 보인다. 남녀 대명사를 거의 공평하게 예측하는 BERT-ASE와 달리, 기존 BERT 모델은 'She'와 여성 이름으로 치우치는 경향을 보인다. 임베딩을 시각화해보았을 때도 BERT-ASE가 BERT에 비해 남성/여성 고정관념이 강한 직업군의 임베딩 간 거리가 비교적 줄어든 것을 확인할 수 있다.

    신뢰할 수 있는 언어 모델을 위해 추구해야 할 중심 가치, 윤리

    이번에 소개된 논문은 기존 학습 패러다임에서 크게 벗어나지 않는 선에서 편향을 제거하는 단편적 방법론을 제시하고 있다. 언어모델과 '자연어 처리'라는 분야에 대한 관심이 더 커지는 만큼, '윤리적인' 언어모델 구성에 대한 본격적인 사회적 논의가 필요하다. 초거대 언어모델이 생성한 답변이 틀린 정보를 담고 있더라도 일반 사용자가 알아채기는 굉장히 힘들다고 한다. 언어모델들이 답변을 너무 그럴듯하게 생성하는 나머지, 우리가 원래 가지고 있던 기술에 대한 의문과 경계심을 한순간에 허물어버리기 때문이다. 아무리 모델이 말을 자연스럽게 잘하더라도 어떤 성별, 직업, 인종 등에 배타적인 인공지능이 사회에 배포되는 것은 위험한 일이다. 모델이 마법처럼 생성하는 화려한 텍스트에 숨은 편견을 가려내고 없애는 방법들이 앞으로는 더욱 중요해질 것이다.