일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 모두의 딥러닝
- 예측선
- 독서 #독서후기 #피로사회 #행동과잉 #긍정과잉
- 선형회귀
- ESG 채권
- 면접왕이형
- 경제신문스크랩
- nlp
- 딥페이크
- 코틀린
- GPT-3
- 면접왕 이형
- 밑바닥부터 시작하는 딥러닝
- 안드로이드
- 안드로이드 구조
- 학습 자동 중단
- 베스트 모델
- 로지스틱 회귀법
- ESG
- 밑시딥2
- 밑시딥
- 보이스피싱
- 뉴로 심볼릭
- 경사하강법
- MRC
- gradiant descent
- andoriod with kotlin
- 다중분류
- k겹 교차검증
- 과적합
- Today
- Total
목록Study/AI Tech (14)
Practice makes perfect!
1. 인공지능 모델 개발을 위한 데이터 데이터의 종류 말뭉치 류 : 실제 텍스트 기반의 데이터 ex) 대화문, 기사, 댓글, 주석 말뭉치, 요약 말뭉치 등 사전/데이터베이스 류 : 텍스트 분석 시 참조로 사용되는 자원 ex) 온톨로지, 워드넷, 시소러스 등 언어 모델 평가를 위한 종합적인 벤치마크 등장 GLUE (General Language Understanding Evaluation) : 자연어 이해 (2018) Super GLUE (Difficult GLUE) : 고난도 자연어 이해 (2019) KILT (Knowledge-Intensive Language Tasks) : 지식기반 자연어 이해(2020) GEM (Natural Language Generation,Evaluation, Metrics)..
1. Definition of Bias Bias의 종류 Bias in learning 학습할 때 과적합을 막거나 사전 지식을 주입하기 위해 특정 형태의 함수를 선호하는 것 (inductive bias) A Biased World 현실 세계가 편향되어 있기 때문에 모델에 원치 않는 속성이 학습되는 것 (historical bias) 성별과 직업 간 관계 등 표면적인 상관관계 때문에 원치않는 속성이 학습되는 것 (co-occurrence bias) Bias in Data Generation 입력과 출력을 정의한 방식 때문에 생기는 편향 (specification bias) 데이터를 샘플링한 방식 때문에 생기는 편향 (sampling bias) 어노테이터의 특성 때문에 생기는 편향 (annotator bias..
1. Introduction to Open-domain Question Answering (ODQA) MRC : 지문이 주어진 상황에서 질의응답 ODQA : 지문이 따로 주어지지 않고 방대한 World Knowledge에 기반해서 질의응답 -> 봐야하는 문서의 크기가 매우 큼 ex) 서치 엔진 : 연관 문서 뿐만 아니라 질의 답을 같이 제공함. 1) History of ODQA Text retrieval conference (TREC) – QA Tracks (1999-2007) : 연관문서만 반환하는 information retrieval (IR)에서 더 나아가서, short answer with support 형태가 목표 (답을 갖고있는 문서를 같이 되돌려주는 형태) 1) Question process..
1. Passage Retrieval and Similarity Search How to find the passage in real time? -> Similarity Search 1) MIPS (Maximum Inner Product Search) 주어진 질문(query) 벡터 q에 대해 Passage 벡터 v들 중 가장 질문과 관련된 벡터를 찾아야함 (관련성은 inner product 값으로 계산) 검색 : 인덱싱 된 벡터들 중 질문 벡터와 가장 내적값이 큰 상위 k개의 벡터를 찾는 과정 인덱싱 : 방대한 양의 passage 벡터들을 저장하는 방법 brute-force(exhaustive) search : 저장해둔 모든 Sparse/Dense 임베딩에 대해 일일히 내적값을 계산하여 가장 값이 큰 p..
1. Introduction to Dense Embedding TF-IDF와 같은 sparse embedding은 벡터의 크기는 아주 크지만 그 안에 0이 아닌 숫자는 아주 적음 벡터의 차원 수가 매우 큰 것은 compressed format으로 극복 가능하지만, 유사성을 고려하지는 못함. 이 단점을 극복하기 위해 dense embedding이 많이 사용됨 1) Complementary to sparse representations by design 더 작은 차원의 고밀도 벡터 (length = 50-1000) 각 차원이 특정 term에 대응되지 않음. 차원이 모두 합쳐져 벡터 스페이스 상에서의 위치가 의미를 나타내도록 복합/부분적인 의미를 가짐 대부분의 요소가 non-zero값 (의미있는 값을 가짐) ..
1. Introduction to Passage Retrieval 1) Passage Retrieval 질문(query)에 맞는 문서(passage)를 찾는 것 질문이 들어왔을 때 웹 또는 위키피디아 상에서 관련된 문서를 가져오는 시스템 2) Passage Retrieval with MRC MRC에서 지문이 주어졌다고 가정 후 지문 내에서 답변을 찾는 형태의 모델을 만들 때, 지문을 주는 모델도 필요함. Open-domain Question Answering: 대규모의 문서 중에서 질문에 대한 답을 찾기 Passage Retrieval과 MRC를 이어서 2-Stage로 만들 수 있음 Passage Retrieval은 질문, 질문에 대한 답, 질문과 관련된 내용을 포함할 것 같은 지문을 MRC 모델에 넘김..
1. Generation-based MRC 1) 문제 정의 주어진 지문과 질의 (question)를 보고, 답변을 생성 ⇒ 생성 문제 (generation) 모든 Extraction-based mrc 문제는 generation-based mrc 문제로 치환할 수 있음 정답이 주어진 지문 내에 있다할지라도, 그 위치를 파악하는 것이 아니라 모델이 해당 정답을 생성할 수 있도록 유도함. 2) Overview 시작,끝점으로 예측했던 것과 달리 모델이 바로 정답까지 생성해줌 일종의 seq-to-seq 모델 BERT는 encoder만 있고 decoder가 없기 때문에 generation-based mrc에 활용할 수 없음 3) Generation-based MRC & Extraction-based MRC 비교 M..
1. Extraction-based MRC 1) 문제 정의 질문(question)의 답변(answer)이 항상 주어진 지문(context)내에 span으로 존재 text를 생성하는 것이 아닌 위치만 파악하는 것으로 문제 formulate할 수 있음. ex) SQuAD, KorQuAD, NewsQA, Natural Questions, etc. 2) 모델 overview context와 question이 토크나이저를 활용해 쪼개짐. 이것들을 word embedding을 이용해 벡터화시킴. 벡터들이 모델 안에 들어감 모델은 시작점과 끝점을 내보냄 (context와 question의 각 단어에 해당하는 contextualize vector를 스칼라 값으로 내보낸 것) 시작과 끝 사이의 span을 가져와 답으로 ..