일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 면접왕 이형
- 로지스틱 회귀법
- GPT-3
- 딥페이크
- k겹 교차검증
- 예측선
- 선형회귀
- 코틀린
- 학습 자동 중단
- ESG 채권
- 다중분류
- 밑바닥부터 시작하는 딥러닝
- ESG
- 안드로이드
- 면접왕이형
- 뉴로 심볼릭
- 밑시딥2
- 보이스피싱
- 안드로이드 구조
- nlp
- 베스트 모델
- gradiant descent
- andoriod with kotlin
- 모두의 딥러닝
- 경제신문스크랩
- 경사하강법
- MRC
- 밑시딥
- 과적합
- 독서 #독서후기 #피로사회 #행동과잉 #긍정과잉
- Today
- Total
Practice makes perfect!
Week 10 (1) GPT 언어 모델 본문
1. GPT 언어 모델
(1) GPT 모델 소개
- BERT는 자연어에 대한 임베딩 모델, GPT는 자연어 생성에 특화된 모델
- BERT는 트랜스포머의 인코더를, GPT는 트랜스포머의 디코더를 사용한 모델
- GPT1의 입력 문장의 context vector를 출력하고, 그 뒤에 linear layer를 붙여 분류 task에 적용하기 위한 모델
- [자연어 문장 -> 분류] 성능이 아주 좋은 디코더인 GPT
- 덕분에 적은 양의 데이터에서도 높은 분류 성능을 나타낸다.
- BERT가 나오기 전에는 다양한 자연어 task에서 SOTA를 달성했다.
- Pre-train 언어 모델의 새 지평을 열었음. large scale의 pre-train 모델을 사용하고, 뒷단에 classification layer 하나만 붙임으로써 다양한 자연어 task에 유연하게 적용할 수 있다. -> BERT로 발전의 밑거름
- 하지만 여전히, 지도 학습을 필요로 하며, labeled data가 필수이다. (labeled data를 구성하는데 많은 자원이 필요함)
- 특정 task를 위해 fine-tuning 된 모델은 다른 task에서 사용 불가하다.
<문제점>
- 인간은 새로운 task 학습을 위해 수많은 데이터를 필요로 하지 않는다.
- pre-train model -> fine-tuning으로 한 모델이 하나의 task만 수행하게 하는 건 자원의 낭비가 될 수 있다.
* 비지도 학습 과정에서 이뤄지는 목적함수와 fine tuning에서 일어나는 과정을 구분할 필요없이, 엄청 큰 데이터셋을 사용하면 자연어 task를 자연스럽게 학습할 수 있다고 가정한다.
Fine tuning
large corpus로 pre-train된 모델은 반복적인 그래디언트 업데이트를 통해 한가지 task에 fine tuning 한다.
GPT 연구진들이 제안한 아래 세가지 방법은 gradient 업데이트가 없다.
각 learning의 차이점은 inference를 날릴 때 원하는 task에 대한 힌트를 주는 개수에 따라 다르다.
Zero-shot
힌트 없이 task 수행
One-shot
한 가지 예시를 줌
Few-shot
여러 가지 예시를 줌
(2) GPT 응용
- 상식 Q&A, 텍스트 데이터 파싱, 의학...
문제점
GPT-3는 다음 단어 혹은 masked 단어를 예측하는 언어 모델. 이 학습 방식으로 정말 다 해결될까?
: weight update가 없다는 것은 새로운 지식 학습이 없다는 것 -> 학습시 사용된 large corpus 내에서만 답변 가능
-> 시기에 따라 달라지는 문제에 대응 불가
: 모델 사이즈만 키우는 것이 아닌 다른 방향으로의 연구도 필요할 것 같다.
: 단순히 text data만 학습하지 말고 멀티 모달 정보가 필요하다.
* Back translation
- 번역기 학습에 사용할 수 있는 병렬 말뭉치 부분 외에, 나머지 단일 언어 데이터로 번역기를 학습시키기 위한 아이디어
'Study > AI Tech' 카테고리의 다른 글
Week 11 (2) Extraction-based MRC (0) | 2021.10.13 |
---|---|
Week 11 (1) MRC Intro (0) | 2021.10.12 |
Week 9 (4) 한국어 언어 모델 학습 및 다중 과제 튜닝 (0) | 2021.10.01 |
Week9 (3) BERT 학습 (0) | 2021.09.29 |
Week9 (2) BERT 언어모델 (0) | 2021.09.28 |