본문 바로가기

Study/NLP18

자연어 처리의 꽃! - 워드 투 벡터(Word2Vec) 워드 투 벡터 (Word2vec) 1. 배경 기존의 단어 임베딩 방식은 원핫 인코딩(One-hot encoding)을 사용해왔다. 원핫 인코딩에 대한 설명은 아래의 게시글을 읽어보길 바란다. https://godcode.tistory.com/9?category=908926 01. 텍스트 전처리 - 원-핫 인코딩 www.wikidocs.net/book/2155 의 [딥 러닝을 이용한 자연어 처리 입문]을 공부하고 정리한 글입니다. 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 단어 집합(vocabulary) 단어 집합은 앞으 godcode.tistory.com 하지만 위와 같은 방식은 단어 사전이 무한대로 길어진다는 단점이 존재한다. 또한 단어 간의 의미론적 차이와 연관 관계를 .. 2020. 8. 10.
BERT를 이용한 한국어 자연어처리 이 글은 한국정보과학회 2019 한국컴퓨터종합학술대회 논문집에 실린 [BERT를 이용한 한국어 자연어처리: 개체명 인식, 감성분석, 의존 파싱, 의미역 결정]을 읽고 정리한 글이다. https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE08763261 BERT를 이용한 한국어 자연어처리: 개체명 인식, 감성분석, 의존 파싱, 의미역 결정 논문, 학술저널 검색 플랫폼 서비스 www.dbpia.co.kr 1. BERT BERT는 구글에서 공개한 Transformer 기반 사전 학습 언어모델이다. 자연어처리에서 흔히 사용되는 RNN과 차이점은 바로 Reccurent 하지 않아 처리 속도가 빠르다는 점이다. BERT는 2가지 방법으로 모델을 사전 학습하는데 그중 .. 2020. 8. 2.
개체명 인식 학습 기법 이 글은 정보과학학회논문지 제 45권에 실린 [배깅 기반의 부트스트래핑을 이용한 개체명 인식 학습 기법]을 읽고 정리한 글이다. https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE07514226&language=ko_KR 배깅 기반의 부트스트래핑을 이용한 개체명 인식 학습 기법 논문, 학술저널 검색 플랫폼 서비스 www.dbpia.co.kr 1. 배경 - 기존의 개체명 인식기는 지도학습에 기반하고 있다. 지도학습 기반의 개체명 인식은 좋은 성능을 보이지만, 대량의 정답 말뭉치를 구축하기엔 많은 시간과 비용이 든다. - 이를 해결하기 위해 적은 양의 정답 말뭉치만으로 대량의 정답 말뭉치를 생성하고 학습에 사용하는 기법을 제안한다. 2. CRF 개체명 인식.. 2020. 7. 17.
형태소 분석기 (Kiwi와 Soynlp) Kiwi 형태소 분석기 정의 Kiwipiepy는 한국어 형태소 분석기인 Kiwi(Korean Intelligent Word Identifier)의 Python 모듈입니다. C++로 작성되었고 다른 패키지에 의존성이 없으므로 C++ 컴파일이 가능한 환경이라면 어디에서나 Kiwipiepy를 사용 가능합니다. 출처: 설치법 python pip install kiwipiepy 특징 멀티스레딩 지원 단순 analyze는 단일 스레드를 지원하기에 코드를 직접 짜야한다. 코퍼스로부터 미등록 단어 추출 가능 extract_word(reader, min_cnt= , max_word_len= , min_score= ) reader -> 호출 가능한(callable) 객체여야 한다? min_cnt -> 추출할 단어가 입력 .. 2020. 5. 7.