GPT-1
Improving Language Understanding by Generative Pre-Training (2018)
0.초록
자연어 이해는 다양한 범위의 태스크로 구성되어 있다.(Textual Entailment, 질의응답, 의미론적 유사성 평가, 문서 분류 등)
라벨링이 되지 않은 거대한 텍스트 데이터는 충분히 많지만 특정 태스크를 위한 라벨링된 데이터는 희소하다.
저자는 이런 세부 태스크에 대한 성능은 다양한 라벨링되지 않은 언어 데이터에서 generative pre-training 이후 각 세부 태스크에 대한 discriminative fine-tuning으로 구현될 수 있다고 소개한다.
이전 논문과는 달리, 모델 구조에 최소한의 변화를 주면서 태스크 맞춤형 입력 변환을 사용하여 fine-tuning을 진행한다.
결과적으로 태스크에 구애받지 않는 모델(저자의 모델)이 특정 태스크에 맞게 훈련된 모델보다 더 높은 성능을 보인다.
1.소개
raw text에서 효율적으로 학습하는 능력은 NLP에서 지도학습에 대한 의존을 줄이기 위해 매우 중요하다.
대부분의 딥러닝은 상당한 양의 라벨링 데이터가 필요하고 이는 라벨링된 데이터가 없는 영역에 대한 적용을 어렵게 한다.
이런 상황에서 라벨링되지 않은 데이터에서 언어 정보를 추출하는 모델은 가치있는 주석(혹은 라벨) 정보를 수집하여 제공한다.
(이는 일반적으로 비용적이고 시간소모적)
그리고 지도학습이 가능한 상황에서 비지도 학습으로 좋은 표현을 학습하는 것은 중요한 성능 향상을 가져온다.
하지만 단어 수준의 정보보다 더 깊은 정보를 활용하는 것은 두 가지 문제가 있다.
- 어떤 최적화 함수가 transfer에 가장 유용한 표현을 배우게 하는 효과적 방법인지 불명확하다.
- 목표 태스크로 학습된 표현들을 전이하는 효과적인 방법에 대한 합의가 없다.
→현재 특정 태스크의 조합이 모델 구조를 변경하거나, 복잡한 학습 방법을 사용하거나 보조적인 학습 목표를 추가하는 방법 사용
저자는 지도학습과 비지도학습을 조합하는 세미-지도학습을 사용한다.
이를 통해 작은 전이로 광범위한 태스크에 적용할 수 있는 보편적인 표현을 학습한다.
저자는 두 단계의 훈련 절차를 실행했다.
- 라벨링되지 않은 데이터에 대해 언어모델 목표(함수)를 사용하여 신경망 모델의 초기 파라미터를 학습시켰다.
- 이 파라미터들을 상응하는 지도학습 목표(함수)를 통해 조정했다.
저자는 모델 구조로 트랜스포머를 사용했는데 이는 다양한 태스크에 좋은 성능을 보이기 때문이다.
또 구조화된 메모리로 장기의존성을 잘 다룰 수 있어서 다양한 태스크에 대한 전이학습의 성능이 Robust하게 한다.
전이 과정에서 traversal style 접근으로부터 파생된 특정 태스크에 대한 인풋 변환을 활용한다.
(단일 연속 토큰 인풋 시퀀스로 구성된 텍스트 구조를 처리하는 방식으로 진행)
2.관련 논문
2.1 준 지도학습
준지도학습은 시퀀스 라벨링 혹은 텍스트 분류 같은 태스크에 대한 적용에서 큰 매력이 있다.
첫 시작은 비지도학습 데이터를 단어 수준이나 구절 수준의 통계를 계산하고 이를 지도학습의 변수로 삼았다.
그 외에도 단어 임베딩을 활용한 준지도 학습이 있다.
하지만 이런 접근은 단어 수준의 정보만 제공한다.
(저자는 더 높은 수준의 정보를 포착하고 싶음)
최근 논문에서는 더 높은 수준에 대한 연구가 있었음.
2.2 비지도 사전 학습
비지도 사전 학습은 지도 학습의 목표(함수)를 수정하는 것 대신 좋은 초기화 점을 찾는 것을 목표로 하는 반 지도 학습의 특별한 케이스이다.
초기 논문들은 이미지 분류와 회귀에서의 기술로 사용했다.
이어서 사전 학습은 규제화와 같은 측면에서 해석되었다.
(딥러닝에서의 일반화를 위한 initialization)
최근에서는 다양한 태스크에서 인공 지능을 학습하기 위해 사용된다.
2.3 보조 훈련 목표
보조 비지도 학습 목표 추가는 반 지도 학습의 대체 형태이다.
이전 논문에서 POS 태깅, chunking NER 등 다양한 보조 NLP 태스크에서 사용되었다.
3.Framework
학습은 1. 큰 양의 텍스트 데이터에서 대용량 언어모델을 학습 2. 각기 다른 태스크에서 라벨링된 데이터로 fine-tuning으로 진행된다.
3.1 Unsupervised pre-training
주어진 비지도 corpus 토큰u={u1,...,un}u=\{ u_1,...,u_n \}u={u1,...,un}에서 표준 언어 모델의 목표 함수인 우도함수를 사용했다.
이때 k는 문맥 윈도우의 크기이고 조건부 확률 P는 파라미터Θ\ThetaΘ가 포함된 신경망 모델을 사용하도록 모델링 되었다.
연구에서 multi-layer 트랜스포머 디코더를 사용하였고 이는 트랜스포머의 변형 버전이다.
이 모델은 인풋 맥락 토큰에 multi-headed self-attention를 적용했고 이어서 position-wise feedforward가 타겟 토큰들에 대한 출력 분포를 생산했다.
여기서U=(u−k,...,u−1)U=(u_{-k},...,u_{-1})U=(u−k,...,u−1)은 토큰들의 맥락 벡터이고 n은 layer들의 개수다.
WeW_eWe는 토큰 임베딩 행렬이고WpW_pWp는 포지션 임베딩 행렬이다.
3.2 Supervised fine-tuning
첫 번째 식에 있는 목표 함수로 모델을 훈련시킨 후 타겟 태스크에 대해 지도학습으로 파라미터를 적응시켰다.
라벨링된 데이터 셋 내의 각 예시가 인풋 토큰의 시퀀스x1,...,xmx^1,...,x^mx1,...,xm와 라벨 y로 구성될 때 데이터 셋을 C라고 한다.
인풋들은 pre-trained 모델을 통과하여 최종 트랜스포머 블록의 activationhlmh^m_lhlm을 얻는다.
이는 최종적으로 추가된 선형 출력 레이어에Wy와 곱해져서 y를 예측한다.
파인튜닝에 대한 보조 목표로서 언어 모델에 포함시키는 것은 다음의 방식으로 학습을 도왔다.
(a) 지도학습 모델의 일반화를 향상시킴
(b) 수렴을 가속화함
특히 저자는 다음 목표 함수를 가중치λ\lambdaλ로 최적화 했다.
→여기 L1은 언어모델에 대한 목표 함수
→C는 태스크에 대한 Corpus(데이터 셋)
→L2는 태스크에 대한 목표함수
⇒즉 언어모델 목표함수와 태스크 목표함수 모두 태스크 데이터 셋으로 훈련
전체적으로 구분 기호 tokens에 대해 파라미터들 중 파인튜닝에서 필요한 유일한 추가적인 파라미터는Wy와 임베딩들이다.
좌) 트랜스포머 구조와 훈련 목적함수 우) 다양한 태스크에 대해 파인튜닝을 위한 인풋 트랜스포머 저자는 모든 구조 화된 인풋을 토큰 시퀀스로 바꾸고 pre-train model에 입력한 후 linear-softmax를 이어붙임
3.3 Task-specific input transformations
텍스트 분류와 같은 몇몇 태스크에 대해서 위 그림처럼 직접적으로 미세 조정을 한다.
질의응답과 같은 특정한 태스크에 대해서는 질문-대답 쌍의 구조화된 input을 가진다.
따라서 해당 태스크에 대해서 몇몇 수정을 진행해야한다.
이전 논문에서는 표현 전이 위에 특정 아키텍쳐를 추가한다.
이러한 접근은 상당한 양의 태스크 별 커스텀화를 재도입하고 추가적인 구조 요소를 위해 전이 학습을 사용하지 않는다.
대신 저자는 구조화된 인풋을 모델이 처리할 수 있는 순서화된 시퀀스로 바꾸는 traversal-style 접근을 사용했다.
이러한 인풋 변환은 태스크를 전반에 걸쳐 구조를 광범위하게 변경하는 것을 막을 수 있다.
모든 변환은 무작위로 초기화된 start와 end 토큰(,)(,)(<s>,<e>)을 추가하는 것을 포함한다.
4.1 Setup
모델 디테일
- 오리지널 트랜스포머를 활용함
- 트랜스포머에서 디코더만 12개 층을 쌓았다.(디코더에는 masked self attention포함)
- ff network에서는 3072 차원을 사용
NLI파트에서 다양한 데이터셋으로 훈련결과
GPT가 다른 SOTA모델보다 높은 성능 보임
5. Analysis
Impact of number of layers transferred
전이 레이어의 수가 늘어날 수록 성능이 좋아지더라
Zero-shot Behaviors
왜 pre-training이 효과적일까? 저자의 가설은 언어 모델 능력의 향상을 위해 기본적인 생성 모델이 태스크들에 대한 수행하는 법을 학습함.
그리고 더 구조화된 트랜스포머의 어텐션 메모리가 전이를 도움
저자는 지도학습 미세 조정 없이 태스크를 수행하는 일반적인 생성 모델을 사용하기 위해 일련의 휴리스틱 방법을 고안했다.
휴리스틱 방법이 사전 훈련보다 좋음을 위 그래프 우측을 통해 보여준다.
LSTM의 경우를 보면 결과값에 대한 분산이 높음을 알 수 있는데 이는 트랜스포머의 inductive bias가 전이를 도움을 알 수 있다.
Ablation studies
사전 학습을 하지 않으면 15% 가량 성능하락이 있었음
finetuning에서 LM 목적함수는 큰 데이터 셋에서는 좋은 결과를 불러오지만, 작은 데이터 셋에서는 그렇지 않았음
LSTM을 사용할때는 6%가량의 하락이 있었음
'AI 논문리뷰' 카테고리의 다른 글
[논문리뷰] UNITER: UNiversal Image-TExt Representation Learning (0) | 2024.01.07 |
---|---|
Long Short Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling (0) | 2023.12.17 |
RNN 논문리뷰 (0) | 2023.11.27 |