diff --git a/README.md b/README.md index 9283491..a6e5628 100644 --- a/README.md +++ b/README.md @@ -124,6 +124,8 @@ - ROC 커브에 대해 설명해주실 수 있으신가요? - 여러분이 서버를 100대 가지고 있습니다. 이때 인공신경망보다 Random Forest를 써야하는 이유는 뭘까요? - K-means의 대표적 의미론적 단점은 무엇인가요? (계산량 많다는것 말고) + - ##### (1) 임의로 'K개의 군집 중심점(Centroid)'을 설정하기 때문에 초기값 위치에 따라 원하는 결과가 나오지 않을 수도 있다. + - ##### (2) cost를 계산할 때 데이터 객체와 중심점 간의 '거리'를 계산하며 이를 유사성 측도로 사용하는데, cost 최적화 과정에서 global minimum이 아닌 군집의 centroid와의 cost가 최소일 경우 local minimum에 도달하여 수렴하는 경우가 있다. - L1, L2 정규화에 대해 설명해주세요 - XGBoost을 아시나요? 왜 이 모델이 캐글에서 유명할까요? - 앙상블 방법엔 어떤 것들이 있나요? @@ -223,7 +225,13 @@ ## 자연어 처리 - One Hot 인코딩에 대해 설명해주세요 + - ##### 0과 1만을 원소로 가지는 vector로 단어를 vectorize 하는 방법 + - ##### 단어 n개가 있는 경우, 길이가 n인 벡터를 하나 만들고 그 단어가 해당되는 자리에 1을 넣고 나머지 자리들에는 0을 넣어서 벡터화 + - ##### 문제점 : One-Hot Encoding한 단어간에는 의미상 어떤 차이점을 가지는지 해석 불가능 - POS 태깅은 무엇인가요? 가장 간단하게 POS tagger를 만드는 방법은 무엇일까요? + - ##### Part-of-Speech Tagging; Word Category Disambiguation; 형태소 분석 + - ##### Corpus를 형태소 단위로 쪼개고 각 형태소에 품사 정보를 부착하는 작업 + - ##### lexicon based approach : 조사, 접사 등 구분할 필요 없으므로 - 문장에서 "Apple"이란 단어가 과일인지 회사인지 식별하는 모델을 어떻게 훈련시킬 수 있을까요? - 뉴스 기사에 인용된 텍스트의 모든 항목을 어떻게 찾을까요? - 음성 인식 시스템에서 생성된 텍스트를 자동으로 수정하는 시스템을 어떻게 구축할까요? @@ -233,6 +241,10 @@ - Stop Words는 무엇일까요? 이것을 왜 제거해야 하나요? - 영화 리뷰가 긍정적인지 부정적인지 예측하기 위해 모델을 어떻게 설계하시겠나요? - TF-IDF 점수는 무엇이며 어떤 경우 유용한가요? + - ##### Term Frequency, Inverse Document Frequency + - ##### 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지 나타내는 통계적 수치 + - ##### 정보 검색, 텍스트 마이닝 등에서 주로 사용하는 가중치 + - 한국어에서 많이 사용되는 사전은 무엇인가요? - Regular grammar는 무엇인가요? regular expression과 무슨 차이가 있나요? - RNN에 대해 설명해주세요