본문 바로가기

전체 글36

대규모 텍스트 분석을 위한 한국어 형태소 분석기의 실행 성능 비교 이 글은 논문 [대규모 텍스트 분석을 위한 한국어 형태소 분석기의 실행 성능 비교]를 읽고 정리한 글이다. 원혜진, 이현영, 강승식. (2020). 대규모 텍스트 분석을 위한 한국어 형태소 분석기의 실행 성능 비교. 한국정보과학회 학술발표논문집, (), 401-403. 대규모 텍스트 분석을 위한 한국어 형태소 분석기의 실행 성능 비교 - 한국정보과학회 학술발표논문집 - 한국정보과학회 : 논문 - DBpia, 연구를 돕는 똑똑한 학술콘텐츠 플랫폼 대규모 텍스트 분석을 위한 한국어 형태소 분석기의 실행 성능 비교 논문, 학술저널 검색 플랫폼 서비스 www.dbpia.co.kr 내가 멋대로 이해한 위 논문의 한 줄 요약! 대규모 텍스트인 KCC 원시 말뭉치를 사용해 형태소를 분석해 본 결과 KLT2010 형태.. 2021. 1. 25.
한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램 이 글은 논문 [한국어 제목 개체명 인식 및 사전 구축]을 읽고 정리한 글이다. 박용민, 이재성. (2014). 한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램. , 3(7), 285-292. 한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램 - 정보처리학회논문지. 소프트웨어 및 데이터 공학 - 한국정보처리학회 : 논문 - DBpia, 연구를 돕는 똑똑한 학술콘텐츠 플랫폼 한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램 논문, 학술저널 검색 플랫폼 서비스 www.dbpia.co.kr 내가 멋대로 이해한 위 논문의 한 줄 요약! 일반적으로 분류되는 PLO(인명, 지명, 기관명)이 아닌 제목 개체명은 단일어부터 문장형까지 다양한 .. 2021. 1. 17.
위키피디아 기반 개체명 사전 반자동 구축 방법[논문 리뷰] 이 글은 논문 [위키피디아 기반 개체명 사전 반자동 구축 방법]을 읽고 정리한 글이다. 송영길, 정석원, 김학수. (2015). 위키피디아 기반 개체명 사전 반자동 구축 방법. 정보과학회논문지, 42(11), 1397-1403. www.dbpia.co.kr/journal/articleDetail?nodeId=NODE06546835 내가 멋대로 이해한 위 논문의 한 줄 요약! 개체명 사전을 구축에 있어 인력적, 시간적 소모적인 부분을 완화하기 위해 위키피디아 분류정보를 기반으로 유사도를 이용해 개체명 사전을 반자동으로 구축한다! 1. 개체명 인식(Named Entity Recognition)이란? 정보추출(Information Extraction)의 한 분류로, 텍스트로부터 개체명이 될 수 있는 단어 혹은.. 2021. 1. 10.
자연어 처리의 꽃! - 워드 투 벡터(Word2Vec) 워드 투 벡터 (Word2vec) 1. 배경 기존의 단어 임베딩 방식은 원핫 인코딩(One-hot encoding)을 사용해왔다. 원핫 인코딩에 대한 설명은 아래의 게시글을 읽어보길 바란다. https://godcode.tistory.com/9?category=908926 01. 텍스트 전처리 - 원-핫 인코딩 www.wikidocs.net/book/2155 의 [딥 러닝을 이용한 자연어 처리 입문]을 공부하고 정리한 글입니다. 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 단어 집합(vocabulary) 단어 집합은 앞으 godcode.tistory.com 하지만 위와 같은 방식은 단어 사전이 무한대로 길어진다는 단점이 존재한다. 또한 단어 간의 의미론적 차이와 연관 관계를 .. 2020. 8. 10.
BERT를 이용한 한국어 자연어처리 이 글은 한국정보과학회 2019 한국컴퓨터종합학술대회 논문집에 실린 [BERT를 이용한 한국어 자연어처리: 개체명 인식, 감성분석, 의존 파싱, 의미역 결정]을 읽고 정리한 글이다. https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE08763261 BERT를 이용한 한국어 자연어처리: 개체명 인식, 감성분석, 의존 파싱, 의미역 결정 논문, 학술저널 검색 플랫폼 서비스 www.dbpia.co.kr 1. BERT BERT는 구글에서 공개한 Transformer 기반 사전 학습 언어모델이다. 자연어처리에서 흔히 사용되는 RNN과 차이점은 바로 Reccurent 하지 않아 처리 속도가 빠르다는 점이다. BERT는 2가지 방법으로 모델을 사전 학습하는데 그중 .. 2020. 8. 2.
백준 단계별로 풀어보기!! - 브루트 포스 https://www.acmicpc.net/step/22 브루트 포스 단계 체스판을 만드는 모든 경우를 시도하여 최적의 방법을 찾는 문제 www.acmicpc.net 1. 브루트 포스(Brute Force)란? 전체 대입이란 말과 동의어로 쓰이며, 모든 경우의 수를 대입해보는 것을 말한다. 요컨대, 노가다인 것이다...!! Brute: 짐승(같은 자) Force: 힘이라는 뜻으로, 이 알고리즘은 예외 없이 100%의 정답률이 장점이다. 하지만, 모든 수를 대입하다보니 자연스레 발생하는 브루트 포스의 문제점은 시간이다. 조금만 정답의 범위가 넓어지거나 정답을 찾는데 제약이 걸리면 정답을 도출하기까지의 시간이 큰 단위로 늘어나는 것이다. 2. 브루트 포스로 블랙잭 구현하기! https://www.acmicp.. 2020. 7. 22.