자연어처리13 01. 텍스트 전처리 - 정수 인코딩 www.wikidocs.net/book/2155 의 [딥 러닝을 이용한 자연어 처리 입문]을 공부하고 정리한 글입니다. 정수 인코딩(Integer Encoding) 컴퓨터는 직접적인 텍스트 입력보다는 숫자를 더 잘 처리할 수 있다고 한다. 이러하기에 NLP분야에선 텍스트를 숫자로 바꾸는 여러가지 기법이 존재한다. 가장 첫 단계가 각 단어에 고유한 정수를 부여하는 것이다. 학교에서 우리 이름과 함께 주어지는 학번이나, 군대에서의 군번과 비슷하다고 생각하면 된다. 예컨데, 보유하고 있는 코퍼스에 단어가 1000개 있다면 각 단어들에 1부터 1000까지의 번호를 부여해 주는 것이다. 번호를 부여하는데에는 여러가지 방법이 있다. 랜덤하게 부여하기도하지만, 주로 전처리 후 빈도수에 따라 부여한다. 지금부터 4가지.. 2020. 3. 13. 이전 1 2 3 4 다음