Practice makes perfect!

Week 12 (8) Reducing Training Bias 본문

Study/AI Tech

Week 12 (8) Reducing Training Bias

na0dev 2021. 10. 21. 14:50

1. Definition of Bias

Bias의 종류

Bias in learning

  • 학습할 때 과적합을 막거나 사전 지식을 주입하기 위해 특정 형태의 함수를 선호하는 것 (inductive bias)

A Biased World

  • 현실 세계가 편향되어 있기 때문에 모델에 원치 않는 속성이 학습되는 것 (historical bias)
  • 성별과 직업 간 관계 등 표면적인 상관관계 때문에 원치않는 속성이 학습되는 것 (co-occurrence bias)

Bias in Data Generation

  • 입력과 출력을 정의한 방식 때문에 생기는 편향 (specification bias)
  • 데이터를 샘플링한 방식 때문에 생기는 편향 (sampling bias)
  • 어노테이터의 특성 때문에 생기는 편향 (annotator bias)

2. Bias in Open-domain Question Answering

Training bias in reader model

모델이 편향된 데이터만 학습하면 일반적인 데이터에 대해 제대로 학습하지 못함.

How to mitigate training bias?

1. Train negative examples

훈련할 때 잘못된 예시를 보여줘야 retriever이 negative한 내용들은 먼 곳에 배치할 수 있음

 negative sample도 완전히 다른 negative와 비슷한 negative에 대한 차이 고려 필요

[좋은 negative sample 만들기]

- Corpus 내에서 랜덤하게 뽑기

- 좀 더 헷갈리는 negative 샘플들 뽑기 (어려운 샘플을 줘야 학습을 더 잘할 수 있음)

   : 높은 BM25 / TF-IDF 매칭 스코어를 가지지만, 답을 포함하지 않는 샘플

   : 같은 문서에서 나온 다른 passage/question 선택하기

 

2. Add no answer bias

입력 시퀀스의 길이가 N일시, 시퀀스의 길이 외 1개의 토큰이 더 있다고 생각하기

 훈련 모델의 마지막 레이어 weight에 훈련 가능한 bias를 하나 더 추가

 softmax로 answer prediction을 최종적으로 수행할 때, start end 확률이 해당 bias 위치에 있는 경우가 가장 확률이 높으면 이는 "대답할 수 없다"고 취급

3. Annotation Bias from Datasets

1) What is annotation bias?

ODQA 학습 시 기존의 MRC 데이터셋 활용

→ ODAQ 세팅에는 적합하지 않은 bias가 데이터 제작(annotation) 단계에서 발생할 수 있음

: 질문을 하는 사람이 답을 알고있기 때문에, paraphrasing 되지않고 질문과 evidence 문단 사이의 많은 단어가 겹치는 bias가 발생 가능하다

: SQuAD는 500개의 문서만 활용하기 때문에 학습 데이터의 분포 자체가 이미 bias 되어있다

2) Effect of annotation bias

ODQA 세팅에는 적합하지 않은 bias가 데이터 제작 단계에서 발생할 수 있음

→ 데이터셋 별 성능 차이가 annotation bias로 인해 발생할 수 있음

(BM25 : Sparse embedding / DPR : dense embedding)

→ Annotation 단계에서 발생할 수 있는 bias를 인지하고, 이를 고려하여 데이터를 모아야 함

ex) Natural Questions : supporting evidence가 주어지지 않은, 실제 유저의 question들을 모아서 dataset 구성

반응형
Comments