본문 바로가기

자연어처리13

Stanford CS224n - Lecture 2 Word Vectors and Word Senses 이 글은 https://youtu.be/kEMJRjEdNzM 강의를 듣고 제가 더 편하게 이해하기 위해 정리한 글입니다. 혹시 제가 잘못 이해한 부분이 있다면 댓글로 친절히 알려주시면 감사하겠습니다! 1. Word Vectors 저번 강의에 이어 optimization에 관한 이야기 진행되었다. Gradient Descent 방법으로 J(θ)를 줄이는 것이 목표였지만, J(θ)는 코퍼스 전체에 대한 함수이기에 계산량이 너무 크다는 단점이 있다. => because, 손실함수 계산시에 전체 train set를 이용함 또한, 한 번 파라미터를 업데이트하는데 오랜 시간이 소요된다는 단점도 있다. 1.1. Stochastic Gradient Descent(SGD) 이를 보안하기 위해 등장한 것이 SGD이다. 손.. 2021. 7. 29.
Stanford CS224n - Lecture 1 Introduction and Word Vector 이 글은 https://youtu.be/8rXD5-xhemo 강의를 듣고 제가 더 편하게 이해하기 위해 정리한 글입니다. 혹시 제가 잘못 이해한 부분이 있다면 댓글로 친절히 알려주시면 감사하겠습니다! 1. Human Language 인간의 언어는 인류 등장 10만년의 시간을 생각하면 생각보다 근래의 발명된 것으로 볼 수 있다. 인간의 언어는 의사소통의 수단으로 다른 동물들처럼 뿔을 만든다던지, 발톱을 발달시키지 않고 인류는 의사소통을 하나의 생존 수단으로 발전 시켜 지금까지의 발전을 이룩했다. 이런 언어는 몇 가지 신기한 특징을 지니고 있다. (물론 신기한건 내 기준!) 인간의 언어는 아주 큰 컴퓨터 네트워크와 비슷하다 하지만 빠른 것이 무엇보다 중요한 네트워크와는 다르게 인간의 언어는 느리다... 인간.. 2021. 7. 10.
대규모 텍스트 분석을 위한 한국어 형태소 분석기의 실행 성능 비교 이 글은 논문 [대규모 텍스트 분석을 위한 한국어 형태소 분석기의 실행 성능 비교]를 읽고 정리한 글이다. 원혜진, 이현영, 강승식. (2020). 대규모 텍스트 분석을 위한 한국어 형태소 분석기의 실행 성능 비교. 한국정보과학회 학술발표논문집, (), 401-403. 대규모 텍스트 분석을 위한 한국어 형태소 분석기의 실행 성능 비교 - 한국정보과학회 학술발표논문집 - 한국정보과학회 : 논문 - DBpia, 연구를 돕는 똑똑한 학술콘텐츠 플랫폼 대규모 텍스트 분석을 위한 한국어 형태소 분석기의 실행 성능 비교 논문, 학술저널 검색 플랫폼 서비스 www.dbpia.co.kr 내가 멋대로 이해한 위 논문의 한 줄 요약! 대규모 텍스트인 KCC 원시 말뭉치를 사용해 형태소를 분석해 본 결과 KLT2010 형태.. 2021. 1. 25.
한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램 이 글은 논문 [한국어 제목 개체명 인식 및 사전 구축]을 읽고 정리한 글이다. 박용민, 이재성. (2014). 한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램. , 3(7), 285-292. 한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램 - 정보처리학회논문지. 소프트웨어 및 데이터 공학 - 한국정보처리학회 : 논문 - DBpia, 연구를 돕는 똑똑한 학술콘텐츠 플랫폼 한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램 논문, 학술저널 검색 플랫폼 서비스 www.dbpia.co.kr 내가 멋대로 이해한 위 논문의 한 줄 요약! 일반적으로 분류되는 PLO(인명, 지명, 기관명)이 아닌 제목 개체명은 단일어부터 문장형까지 다양한 .. 2021. 1. 17.