From 4e778e486475f535d3e325e2f20c2560b67735dd Mon Sep 17 00:00:00 2001 From: Kwangje Baeg Date: Sun, 18 Feb 2018 16:40:59 +0900 Subject: [PATCH 1/5] =?UTF-8?q?=EC=9E=90=EC=97=B0=EC=96=B4=EC=B2=98?= =?UTF-8?q?=EB=A6=AC=20updated?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 3 +++ 1 file changed, 3 insertions(+) diff --git a/README.md b/README.md index 9283491..47e3173 100644 --- a/README.md +++ b/README.md @@ -223,6 +223,9 @@ ## 자연어 처리 - One Hot 인코딩에 대해 설명해주세요 + - 해당 단어의 dictionary 위치에는 1, 나머지 위치에는 0을 넣어 +  0과 1만을 원소로 가지는 vector로 단어를 vectorize 하는 방법 + - 문제점 : One Hot 인코딩 한 단어간에는 의미상 어떤 차이점을 가지는지 이해 불가능! - POS 태깅은 무엇인가요? 가장 간단하게 POS tagger를 만드는 방법은 무엇일까요? - 문장에서 "Apple"이란 단어가 과일인지 회사인지 식별하는 모델을 어떻게 훈련시킬 수 있을까요? - 뉴스 기사에 인용된 텍스트의 모든 항목을 어떻게 찾을까요? From f985f0a47e2fd6679d4129ac3581c81c3b7ad873 Mon Sep 17 00:00:00 2001 From: Kwangje Baeg Date: Sun, 18 Feb 2018 17:17:34 +0900 Subject: [PATCH 2/5] =?UTF-8?q?=EC=9E=90=EC=97=B0=EC=96=B4=EC=B2=98?= =?UTF-8?q?=EB=A6=AC=20Updated?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 13 ++++++++++--- 1 file changed, 10 insertions(+), 3 deletions(-) diff --git a/README.md b/README.md index 47e3173..c4e6b63 100644 --- a/README.md +++ b/README.md @@ -223,10 +223,13 @@ ## 자연어 처리 - One Hot 인코딩에 대해 설명해주세요 - - 해당 단어의 dictionary 위치에는 1, 나머지 위치에는 0을 넣어 -  0과 1만을 원소로 가지는 vector로 단어를 vectorize 하는 방법 - - 문제점 : One Hot 인코딩 한 단어간에는 의미상 어떤 차이점을 가지는지 이해 불가능! + - ##### 해당 단어의 dictionary 위치에는 1, 나머지 위치에는 0을 넣어 +  ##### 0과 1만을 원소로 가지는 vector로 단어를 vectorize 하는 방법 + - ##### 문제점 : One Hot 인코딩 한 단어간에는 의미상 어떤 차이점을 가지는지 이해 불가능! - POS 태깅은 무엇인가요? 가장 간단하게 POS tagger를 만드는 방법은 무엇일까요? + - ##### Part-of-Speech Tagging; Word Category Disambiguation; 형태소 분석 + - ##### 말뭉치(corpus)를 형태소 단위로 쪼개고 각 형태소에 품사 정보를 부착하는 작업 + - 문장에서 "Apple"이란 단어가 과일인지 회사인지 식별하는 모델을 어떻게 훈련시킬 수 있을까요? - 뉴스 기사에 인용된 텍스트의 모든 항목을 어떻게 찾을까요? - 음성 인식 시스템에서 생성된 텍스트를 자동으로 수정하는 시스템을 어떻게 구축할까요? @@ -236,6 +239,10 @@ - Stop Words는 무엇일까요? 이것을 왜 제거해야 하나요? - 영화 리뷰가 긍정적인지 부정적인지 예측하기 위해 모델을 어떻게 설계하시겠나요? - TF-IDF 점수는 무엇이며 어떤 경우 유용한가요? + - ##### Term Frequency, Inverse Document Frequency + - ##### 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지 나타내는 통계적 수치 + - ##### 정보 검색, 텍스트 마이닝 등에서 주로 사용하는 가중치 + - 한국어에서 많이 사용되는 사전은 무엇인가요? - Regular grammar는 무엇인가요? regular expression과 무슨 차이가 있나요? - RNN에 대해 설명해주세요 From 860a5dcee1e3831182718c20f31e2fd2f84859fe Mon Sep 17 00:00:00 2001 From: Kwangje Baeg Date: Mon, 19 Feb 2018 21:33:16 +0900 Subject: [PATCH 3/5] =?UTF-8?q?'=EB=A8=B8=EC=8B=A0=EB=9F=AC=EB=8B=9D=20K-m?= =?UTF-8?q?eans'=20Updated?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 3 +++ 1 file changed, 3 insertions(+) diff --git a/README.md b/README.md index c4e6b63..1ce094c 100644 --- a/README.md +++ b/README.md @@ -124,6 +124,9 @@ - ROC 커브에 대해 설명해주실 수 있으신가요? - 여러분이 서버를 100대 가지고 있습니다. 이때 인공신경망보다 Random Forest를 써야하는 이유는 뭘까요? - K-means의 대표적 의미론적 단점은 무엇인가요? (계산량 많다는것 말고) + - ##### (1) 임의로 'K개의 군집 중심점(Centroid)'을 설정하기 때문에 초기값 위치에 따라 원하는 결과가 나오지 않을 수도 있다. + - ##### (2) cost를 계산할 때 데이터 객체와 중심점 간의 '거리'를 계산하며 이를 유사성 측도로 사용하는데, + - ##### cost 최적화 과정에서 global minimum이 아닌 군집의 centroid와의 cost가 최소일 경우 local minimum에 도달하여 수렴하는 경우가 있다. - L1, L2 정규화에 대해 설명해주세요 - XGBoost을 아시나요? 왜 이 모델이 캐글에서 유명할까요? - 앙상블 방법엔 어떤 것들이 있나요? From 7ad232f44a17134647b2fdb63d65078f2bfe0eee Mon Sep 17 00:00:00 2001 From: Kwangje Baeg Date: Mon, 19 Feb 2018 21:34:00 +0900 Subject: [PATCH 4/5] Update README.md --- README.md | 3 +-- 1 file changed, 1 insertion(+), 2 deletions(-) diff --git a/README.md b/README.md index 1ce094c..c7425ab 100644 --- a/README.md +++ b/README.md @@ -125,8 +125,7 @@ - 여러분이 서버를 100대 가지고 있습니다. 이때 인공신경망보다 Random Forest를 써야하는 이유는 뭘까요? - K-means의 대표적 의미론적 단점은 무엇인가요? (계산량 많다는것 말고) - ##### (1) 임의로 'K개의 군집 중심점(Centroid)'을 설정하기 때문에 초기값 위치에 따라 원하는 결과가 나오지 않을 수도 있다. - - ##### (2) cost를 계산할 때 데이터 객체와 중심점 간의 '거리'를 계산하며 이를 유사성 측도로 사용하는데, - - ##### cost 최적화 과정에서 global minimum이 아닌 군집의 centroid와의 cost가 최소일 경우 local minimum에 도달하여 수렴하는 경우가 있다. + - ##### (2) cost를 계산할 때 데이터 객체와 중심점 간의 '거리'를 계산하며 이를 유사성 측도로 사용하는데, cost 최적화 과정에서 global minimum이 아닌 군집의 centroid와의 cost가 최소일 경우 local minimum에 도달하여 수렴하는 경우가 있다. - L1, L2 정규화에 대해 설명해주세요 - XGBoost을 아시나요? 왜 이 모델이 캐글에서 유명할까요? - 앙상블 방법엔 어떤 것들이 있나요? From d5e62bf9fd84d36ea00fd89708699af608edfaab Mon Sep 17 00:00:00 2001 From: Kwangje Baeg Date: Mon, 19 Feb 2018 21:48:03 +0900 Subject: [PATCH 5/5] Update README.md --- README.md | 10 +++++----- 1 file changed, 5 insertions(+), 5 deletions(-) diff --git a/README.md b/README.md index c7425ab..a6e5628 100644 --- a/README.md +++ b/README.md @@ -225,13 +225,13 @@ ## 자연어 처리 - One Hot 인코딩에 대해 설명해주세요 - - ##### 해당 단어의 dictionary 위치에는 1, 나머지 위치에는 0을 넣어 -  ##### 0과 1만을 원소로 가지는 vector로 단어를 vectorize 하는 방법 - - ##### 문제점 : One Hot 인코딩 한 단어간에는 의미상 어떤 차이점을 가지는지 이해 불가능! + - ##### 0과 1만을 원소로 가지는 vector로 단어를 vectorize 하는 방법 + - ##### 단어 n개가 있는 경우, 길이가 n인 벡터를 하나 만들고 그 단어가 해당되는 자리에 1을 넣고 나머지 자리들에는 0을 넣어서 벡터화 + - ##### 문제점 : One-Hot Encoding한 단어간에는 의미상 어떤 차이점을 가지는지 해석 불가능 - POS 태깅은 무엇인가요? 가장 간단하게 POS tagger를 만드는 방법은 무엇일까요? - ##### Part-of-Speech Tagging; Word Category Disambiguation; 형태소 분석 - - ##### 말뭉치(corpus)를 형태소 단위로 쪼개고 각 형태소에 품사 정보를 부착하는 작업 - + - ##### Corpus를 형태소 단위로 쪼개고 각 형태소에 품사 정보를 부착하는 작업 + - ##### lexicon based approach : 조사, 접사 등 구분할 필요 없으므로 - 문장에서 "Apple"이란 단어가 과일인지 회사인지 식별하는 모델을 어떻게 훈련시킬 수 있을까요? - 뉴스 기사에 인용된 텍스트의 모든 항목을 어떻게 찾을까요? - 음성 인식 시스템에서 생성된 텍스트를 자동으로 수정하는 시스템을 어떻게 구축할까요?