엔씨는 해석과 설명이 가능한 AI 대화 데이터셋 ‘FoCus Dataset(For Customized conversation dataset)’도 공개했다. 사용자는 FoCus Dataset을 통해 AI가 학습한 데이터의 출처, 그 데이터를 수집하고 처리한 방식에 관한 정보를 알 수 있다. 이를 통해 사용자는 AI 의사 결정의 출처를 확인하고, 나아가 AI 모델을 더 잘 이해할 수 있을 것이다.
이 데이터셋의 장점은 초거대 언어 모델을 사용하지 않고도 성능이 같은 대화 기술을 구현할 수 있다는 것이다. 초거대 모델은 엄청난 수의 파라미터와 강력한 학습 성능, 방대한 학습 데이터가 필요하다. 그만큼 데이터를 수집하는 데 많은 노력이 필요하고, 1회 학습하는 데 수십억~수백억 원의 비용이 소요되므로 이 조건들을 감당할 수 있는 큰 회사만 활용할 수 있다. 그에 비해 작은 회사는 데이터 수집이나 학습 비용을 감당할 수 없기 때문에 연구 격차가 더 벌어질 수밖에 없다. 그런데 초거대 언어 모델을 사용하지 않고도 성능이 같은 대화 기술을 구현할 수 있다면 비용과 데이터 수집에 필요한 노력을 줄일 수 있다.
FoCus Dataset은 엔씨와 고려대의 공동 연구로 구축되었다. 2022년 2월 공동 연구팀은 세계 최고 권위의 인공지능학회 **AAAI 2022에 해당 논문을 게재 및 발표했고, 지금은 연구 성과를 발표하는 워크숍과 셰어 태스크(Shared Task)를 운영하고 있다. 그리고 10월 경주에서 관련 주제로 열리는 ***COLING 2022에도 초청되어 강연과 논문 발표를 진행할 예정이다. 아직까지는 상용화된 서비스에 직접 적용하지 않았지만, 데이터를 오픈하기 전에 내부에서 비윤리적 표현과 개인정보들을 모두 제거했기 때문에 안전하게 사용할 수 있다는 점에서 선구적인 데이터다. 엔씨는 비용 및 환경 문제 때문에 NLP 학계에서 새로운 대화 기술들이 제안되고 있는 흐름에 발맞추어 이 데이터를 공개했다. 앞으로도 엔씨는 연구 커뮤니티의 활발한 논의와 기술 개발에 적극적으로 참여하고자 한다.
**AAAI(Association for the Advancement of Artificial Intelligence): 전미인공지능학회
***COLING 2022(the International Conference on Computational Linguistics): 전산 언어학에 관한 국제회의