이 논문은 Newyork University의 Yoon Kim 님의 논문입니다. CNN이 Computer vision, speech recognition에서 효율을 보이던 시기에 간단한 구조의 CNN을 활용해서 문장분류에서 상당한 효율을 보이며 많은 주목을 받았던 논문입니다. 이 논문에서 제가 눈여겨본 포인트는 다음과 같습니다.
차근차근 살펴보도록 하겠습니다.
문장 수준의 자연어를 분류하기 위해 사전학습된 단어 벡터들을 사용합니다. 기존에 많이 사용하던 One-hot vector가 아닌 Word2vec을 Input으로 사용했습니다. 적은 하이퍼파라미터튜닝과 pre-trained model word2vec 값의 fine tune을 통해 여러 벤치마크에서 우수한 결과를 보였습니다. 여기서 제안한 모델은 감성 분석 및 질문 분류를 포함한 7개의 작업에서 테스트 됐습니다.
본래 컴퓨터 비전을 위해 발명되었던 CNN 모델을 NLP에도 효과적으로 적용할 수 있습니다. 시맨틱 파싱(Yih et al., 2014), 검색 쿼리 조회(Shen et al., 2014), 문장 모델링(Kalchbrenner et al., 2014), 기타 전통적인 NLP 작업(Collobert et al., 2011)에서도 탁월한 결과를 보였습니다.
Yoon kim님의 연구에서는 하나의 컨볼루션 레이어로 간단한 CNN을 학습시킵니다. Input으로 사용된 단어 벡터는 Mikolov et al. (2013)가 구글 뉴스의 단어 1000억개를 학습시킨 것으로 공개적으로 사용가능한 벡터입니다.