본문 바로가기

nlp14

감성 분석이란? 대학원 강의 과제로 작성했던 두 번째 개념 정리 파트이다 나쁘지 않으면 이런식으로라도 개념 정리 계속할 예정~~ 감성 분석(Sentiment Analysis)은 텍스트 데이터에서 특정 문장, 문서 또는 단어의 감정, 의견, 또는 감성을 식별하고 분류하는 자연어 처리 태스크 중 하나이다. 감성 분석이 이루어지는 층위는 문서(Document), 문장(Sentence), 속성(Aspect) 3가지 층위에서 이루어진다. 문서 층위(Document Level)의 감성 분석은 지도 학습에 기반한 감성 분류와 비지도 학습에 기반한 감성 분류가 존재한다. 지도 학습 방법론은 문서 내의 단어의 빈도와 역문서 빈도인 TF-IDF를 활용하여 임베딩을 하여 품사(Part Of Speech, POS)와 같은 언어 정보를 고려하.. 2023. 11. 16.
자연어처리란? 이번에 대학원 강의 과제로 강의에 나온 키워드 기반으로 배운 내용을 정리하라는 과제가 있었다. 학위논문을 쓰는 중이라 완전히 잊고 있다가 후다다닥 당일에 정리해서 끝내버렸는데 그대로 과제로만 내기에는 아까워서 블로그에 올려보려고 한다. 정리는 추후 찬찬히 하는 걸로 하고 우선 올려보겠다. 관점 자체는 문과 및 비전공자 대상으로 설명하는 내용이라고 생각하고 감안하고 읽어주면 정말 감사하겠다!!!!! 자연어처리(Natural Language Processing, NLP)는 컴퓨터가 인간의 언어인 자연어를 이해하고 처리하는 분야이다. 컴퓨터가 인간의 언어를 처리하기 위해선 다양한 방식이 존재한다. 첫 번째로, 언어학적인 접근 방식인 규칙 기반 접근법(rule-based approach)은 언어 현상을 이해하고.. 2023. 11. 16.
Stanford CS224n - Lecture 2 Word Vectors and Word Senses 이 글은 https://youtu.be/kEMJRjEdNzM 강의를 듣고 제가 더 편하게 이해하기 위해 정리한 글입니다. 혹시 제가 잘못 이해한 부분이 있다면 댓글로 친절히 알려주시면 감사하겠습니다! 1. Word Vectors 저번 강의에 이어 optimization에 관한 이야기 진행되었다. Gradient Descent 방법으로 J(θ)를 줄이는 것이 목표였지만, J(θ)는 코퍼스 전체에 대한 함수이기에 계산량이 너무 크다는 단점이 있다. => because, 손실함수 계산시에 전체 train set를 이용함 또한, 한 번 파라미터를 업데이트하는데 오랜 시간이 소요된다는 단점도 있다. 1.1. Stochastic Gradient Descent(SGD) 이를 보안하기 위해 등장한 것이 SGD이다. 손.. 2021. 7. 29.
Stanford CS224n - Lecture 1 Introduction and Word Vector 이 글은 https://youtu.be/8rXD5-xhemo 강의를 듣고 제가 더 편하게 이해하기 위해 정리한 글입니다. 혹시 제가 잘못 이해한 부분이 있다면 댓글로 친절히 알려주시면 감사하겠습니다! 1. Human Language 인간의 언어는 인류 등장 10만년의 시간을 생각하면 생각보다 근래의 발명된 것으로 볼 수 있다. 인간의 언어는 의사소통의 수단으로 다른 동물들처럼 뿔을 만든다던지, 발톱을 발달시키지 않고 인류는 의사소통을 하나의 생존 수단으로 발전 시켜 지금까지의 발전을 이룩했다. 이런 언어는 몇 가지 신기한 특징을 지니고 있다. (물론 신기한건 내 기준!) 인간의 언어는 아주 큰 컴퓨터 네트워크와 비슷하다 하지만 빠른 것이 무엇보다 중요한 네트워크와는 다르게 인간의 언어는 느리다... 인간.. 2021. 7. 10.