Practice makes perfect!

Week9 (3) BERT 학습 본문

Study/AI Tech

Week9 (3) BERT 학습

na0dev 2021. 9. 29. 12:43

1) BERT 모델 학습

BERT 학습 단계

  1. Tokenizer 만들기
  2. 데이터셋 확보 : BERT는 모델 사이즈가 매우 크기 때문에 모델의 파라미터를 하나로 수렴하기 위해서는 대용량의 corpus를 필요로 함
  3. Next sentence prediction (NSP)
  4. Masking

BERT [MASK] token 공격

BERT 모델은 [MASK] token을 잘 예측하기 위해 학습한다.
그래서 [MASK] token을 예측하는 task를 통해 개인정보를 획득할 수도 있다. 

따라서 언어모델 학습 시 반드시 개인 정보가 마스킹 처리 되거나 없는 데이터를 이용해야 한다!

반응형
Comments