home..
Glue
January 2022
개요
GLUE(General Language Understanding Evaluation) 벤치마크는 “강건하고 범용적인 자연어 이해 시스템의 개발” 이라는 목적을 가지고 제작된 데이터셋입니다.
따라서 GLUE는 자연어 처리 모델을 훈련시키고, 그 성능을 평가 및 비교 분석하기 위한 데이터셋들로 구성되어 있습니다.
9개의 task 데이터셋으로 구성된 GLUE는 모델들의 자연어 이해 능력을 평가하기 위해 고안되었으며, BERT와 같은 전이학습 모델 평가의 필수적인 벤치마크가 되었습니다.
탄생배경
과거 자연어 처리 모델들은 거의 대부분 하나의 특정한 문제를 잘 해결하기 위해 설계되었습니다.
따라서 End-to-end로 해당 문제를 푸는데에만 적합하게 훈련된 과거 모델들은 다른 문제 혹은 다른 데이터셋에 대해서 효과적인 성능을 보여주지 못하였습니다.
따라서 모델을 평가하기 위한 새로운 방법론이 필요해졌고 뉴욕대학교에서 GLUE가 탄생하였습니다.
이제 연구자들은 자신이 새로이 연구한 모델을 GLUE 데이터셋에 훈련시킨 후, GLUE 내 9개의 테스크에 각각 점수를 매겨 최종 성능 점수를 계산할 수 있습니다.