GPT-1 Improving Language Understanding by Generative Pre-Training (2018) 0.초록 자연어 이해는 다양한 범위의 태스크로 구성되어 있다.(Textual Entailment, 질의응답, 의미론적 유사성 평가, 문서 분류 등) 라벨링이 되지 않은 거대한 텍스트 데이터는 충분히 많지만 특정 태스크를 위한 라벨링된 데이터는 희소하다. 저자는 이런 세부 태스크에 대한 성능은 다양한 라벨링되지 않은 언어 데이터에서 generative pre-training 이후 각 세부 태스크에 대한 discriminative fine-tuning으로 구현될 수 있다고 소개한다. 이전 논문과는 달리, 모델 구조에 최소한의 변화를 주면서 태스크 맞춤형 입력 변환을 사용하여 fi..