본문 바로가기

keras2

01. 텍스트 전처리 - 원-핫 인코딩 www.wikidocs.net/book/2155 의 [딥 러닝을 이용한 자연어 처리 입문]을 공부하고 정리한 글입니다. 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 단어 집합(vocabulary) 단어 집합은 앞으로 자연어 처리에 있어서 자주 등장하는 개념이다. 단어 사전이라고도 칭하며 이 책에선 단어 집합이라는 정의를 사용하였다. 여기서의 단어 집합은 서로 다른 단어의 집합이다. 서로 다른 단어는 기본적으로 어근, 의미가 같아도 형태가 다른 단어이면 서로 다른 단어로 간주한다. 예컨대, book과 books는 의미는 같고 단순히 단수, 복수의 차이지만 단어 집합 내에서는 다른 단어로 간주하는 것이다. 이제 배울 원-핫 인코딩을 하기 위해서는 가장 먼저 해야할 일이 단어 집합.. 2020. 3. 14.
01. 텍스트 전처리 - 정수 인코딩 www.wikidocs.net/book/2155 의 [딥 러닝을 이용한 자연어 처리 입문]을 공부하고 정리한 글입니다. 정수 인코딩(Integer Encoding) 컴퓨터는 직접적인 텍스트 입력보다는 숫자를 더 잘 처리할 수 있다고 한다. 이러하기에 NLP분야에선 텍스트를 숫자로 바꾸는 여러가지 기법이 존재한다. 가장 첫 단계가 각 단어에 고유한 정수를 부여하는 것이다. 학교에서 우리 이름과 함께 주어지는 학번이나, 군대에서의 군번과 비슷하다고 생각하면 된다. 예컨데, 보유하고 있는 코퍼스에 단어가 1000개 있다면 각 단어들에 1부터 1000까지의 번호를 부여해 주는 것이다. 번호를 부여하는데에는 여러가지 방법이 있다. 랜덤하게 부여하기도하지만, 주로 전처리 후 빈도수에 따라 부여한다. 지금부터 4가지.. 2020. 3. 13.