본문 바로가기

자연어처리13

위키피디아 기반 개체명 사전 반자동 구축 방법[논문 리뷰] 이 글은 논문 [위키피디아 기반 개체명 사전 반자동 구축 방법]을 읽고 정리한 글이다. 송영길, 정석원, 김학수. (2015). 위키피디아 기반 개체명 사전 반자동 구축 방법. 정보과학회논문지, 42(11), 1397-1403. www.dbpia.co.kr/journal/articleDetail?nodeId=NODE06546835 내가 멋대로 이해한 위 논문의 한 줄 요약! 개체명 사전을 구축에 있어 인력적, 시간적 소모적인 부분을 완화하기 위해 위키피디아 분류정보를 기반으로 유사도를 이용해 개체명 사전을 반자동으로 구축한다! 1. 개체명 인식(Named Entity Recognition)이란? 정보추출(Information Extraction)의 한 분류로, 텍스트로부터 개체명이 될 수 있는 단어 혹은.. 2021. 1. 10.
자연어 처리의 꽃! - 워드 투 벡터(Word2Vec) 워드 투 벡터 (Word2vec) 1. 배경 기존의 단어 임베딩 방식은 원핫 인코딩(One-hot encoding)을 사용해왔다. 원핫 인코딩에 대한 설명은 아래의 게시글을 읽어보길 바란다. https://godcode.tistory.com/9?category=908926 01. 텍스트 전처리 - 원-핫 인코딩 www.wikidocs.net/book/2155 의 [딥 러닝을 이용한 자연어 처리 입문]을 공부하고 정리한 글입니다. 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 단어 집합(vocabulary) 단어 집합은 앞으 godcode.tistory.com 하지만 위와 같은 방식은 단어 사전이 무한대로 길어진다는 단점이 존재한다. 또한 단어 간의 의미론적 차이와 연관 관계를 .. 2020. 8. 10.
형태소 분석기 (Kiwi와 Soynlp) Kiwi 형태소 분석기 정의 Kiwipiepy는 한국어 형태소 분석기인 Kiwi(Korean Intelligent Word Identifier)의 Python 모듈입니다. C++로 작성되었고 다른 패키지에 의존성이 없으므로 C++ 컴파일이 가능한 환경이라면 어디에서나 Kiwipiepy를 사용 가능합니다. 출처: 설치법 python pip install kiwipiepy 특징 멀티스레딩 지원 단순 analyze는 단일 스레드를 지원하기에 코드를 직접 짜야한다. 코퍼스로부터 미등록 단어 추출 가능 extract_word(reader, min_cnt= , max_word_len= , min_score= ) reader -> 호출 가능한(callable) 객체여야 한다? min_cnt -> 추출할 단어가 입력 .. 2020. 5. 7.
01. 텍스트 전처리 - 원-핫 인코딩 www.wikidocs.net/book/2155 의 [딥 러닝을 이용한 자연어 처리 입문]을 공부하고 정리한 글입니다. 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 단어 집합(vocabulary) 단어 집합은 앞으로 자연어 처리에 있어서 자주 등장하는 개념이다. 단어 사전이라고도 칭하며 이 책에선 단어 집합이라는 정의를 사용하였다. 여기서의 단어 집합은 서로 다른 단어의 집합이다. 서로 다른 단어는 기본적으로 어근, 의미가 같아도 형태가 다른 단어이면 서로 다른 단어로 간주한다. 예컨대, book과 books는 의미는 같고 단순히 단수, 복수의 차이지만 단어 집합 내에서는 다른 단어로 간주하는 것이다. 이제 배울 원-핫 인코딩을 하기 위해서는 가장 먼저 해야할 일이 단어 집합.. 2020. 3. 14.