일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 보이스피싱
- 예측선
- 과적합
- 선형회귀
- 면접왕이형
- k겹 교차검증
- 베스트 모델
- 모두의 딥러닝
- 다중분류
- MRC
- 밑바닥부터 시작하는 딥러닝
- GPT-3
- gradiant descent
- 면접왕 이형
- ESG 채권
- 경사하강법
- 안드로이드 구조
- 독서 #독서후기 #피로사회 #행동과잉 #긍정과잉
- 로지스틱 회귀법
- andoriod with kotlin
- 학습 자동 중단
- 안드로이드
- nlp
- 코틀린
- 뉴로 심볼릭
- 딥페이크
- ESG
- 밑시딥
- 밑시딥2
- 경제신문스크랩
- Today
- Total
Practice makes perfect!
Week 12 (8) Reducing Training Bias 본문
1. Definition of Bias
Bias의 종류
Bias in learning
- 학습할 때 과적합을 막거나 사전 지식을 주입하기 위해 특정 형태의 함수를 선호하는 것 (inductive bias)
A Biased World
- 현실 세계가 편향되어 있기 때문에 모델에 원치 않는 속성이 학습되는 것 (historical bias)
- 성별과 직업 간 관계 등 표면적인 상관관계 때문에 원치않는 속성이 학습되는 것 (co-occurrence bias)
Bias in Data Generation
- 입력과 출력을 정의한 방식 때문에 생기는 편향 (specification bias)
- 데이터를 샘플링한 방식 때문에 생기는 편향 (sampling bias)
- 어노테이터의 특성 때문에 생기는 편향 (annotator bias)
2. Bias in Open-domain Question Answering
Training bias in reader model
모델이 편향된 데이터만 학습하면 일반적인 데이터에 대해 제대로 학습하지 못함.
How to mitigate training bias?
1. Train negative examples
훈련할 때 잘못된 예시를 보여줘야 retriever이 negative한 내용들은 먼 곳에 배치할 수 있음
→ negative sample도 완전히 다른 negative와 비슷한 negative에 대한 차이 고려 필요
[좋은 negative sample 만들기]
- Corpus 내에서 랜덤하게 뽑기
- 좀 더 헷갈리는 negative 샘플들 뽑기 (어려운 샘플을 줘야 학습을 더 잘할 수 있음)
: 높은 BM25 / TF-IDF 매칭 스코어를 가지지만, 답을 포함하지 않는 샘플
: 같은 문서에서 나온 다른 passage/question 선택하기
2. Add no answer bias
입력 시퀀스의 길이가 N일시, 시퀀스의 길이 외 1개의 토큰이 더 있다고 생각하기
→ 훈련 모델의 마지막 레이어 weight에 훈련 가능한 bias를 하나 더 추가
→ softmax로 answer prediction을 최종적으로 수행할 때, start end 확률이 해당 bias 위치에 있는 경우가 가장 확률이 높으면 이는 "대답할 수 없다"고 취급
3. Annotation Bias from Datasets
1) What is annotation bias?
ODQA 학습 시 기존의 MRC 데이터셋 활용
→ ODAQ 세팅에는 적합하지 않은 bias가 데이터 제작(annotation) 단계에서 발생할 수 있음
: 질문을 하는 사람이 답을 알고있기 때문에, paraphrasing 되지않고 질문과 evidence 문단 사이의 많은 단어가 겹치는 bias가 발생 가능하다
: SQuAD는 500개의 문서만 활용하기 때문에 학습 데이터의 분포 자체가 이미 bias 되어있다
2) Effect of annotation bias
ODQA 세팅에는 적합하지 않은 bias가 데이터 제작 단계에서 발생할 수 있음
→ 데이터셋 별 성능 차이가 annotation bias로 인해 발생할 수 있음
(BM25 : Sparse embedding / DPR : dense embedding)
→ Annotation 단계에서 발생할 수 있는 bias를 인지하고, 이를 고려하여 데이터를 모아야 함
ex) Natural Questions : supporting evidence가 주어지지 않은, 실제 유저의 question들을 모아서 dataset 구성
'Study > AI Tech' 카테고리의 다른 글
Week 15 자연어처리 데이터 기초 (0) | 2021.11.08 |
---|---|
Week 12 (7) Linking MRC and Retrieval (0) | 2021.10.20 |
Week 11 (6) Passage Retrieval – Scaling Up (0) | 2021.10.18 |
Week 11 (5) Passage Retrieval - Dense Embedding (0) | 2021.10.14 |
Week 11 (4) Passage Retrieval - Sparse Embedding (0) | 2021.10.14 |