본문 바로가기
Study/NLP

감성 분석이란?

by GodKim 2023. 11. 16.
대학원 강의 과제로 작성했던 두 번째 개념 정리 파트이다
나쁘지 않으면 이런식으로라도 개념 정리 계속할 예정~~

 감성 분석(Sentiment Analysis)은 텍스트 데이터에서 특정 문장, 문서 또는 단어의 감정, 의견, 또는 감성을 식별하고 분류하는 자연어 처리 태스크 중 하나이다. 감성 분석이 이루어지는 층위는 문서(Document), 문장(Sentence), 속성(Aspect) 3가지 층위에서 이루어진다.

 문서 층위(Document Level)의 감성 분석은 지도 학습에 기반한 감성 분류와 비지도 학습에 기반한 감성 분류가 존재한다. 지도 학습 방법론은 문서 내의 단어의 빈도와 역문서 빈도인 TF-IDF를 활용하여 임베딩을 하여 품사(Part Of Speech, POS)와 같은 언어 정보를 고려하여 오피니언(감성)의 규칙 정보, 극성 전환 장치 등에 대한 학습을 통해 감성 정보를 파악하는 것이다. TF-IDF(Term Frequency-Inverse Document Frequency)는 단어 빈도와 역문서 빈도를 활용하여 각 단어의 가중치를 부여하는 방법론으로, 문서에 공통적으로 자주 등장하는 단어에 대해서는 중요도를 낮추는 방식으로 단어에 의미 정보를 부여한다. POS는 단어의 품사 정보를 의미하며 이를 활용하여 문장의 구문 구조도 파악이 가능하다. 비지도 학습으로는 오피니언 패턴을 활용한 분류와 감성 사전을 활용한 분류가 존재한다.

 문장 층위(Sentence Level)의 감성 분석은 하나의 문장이 하나의 감성 분석을 위한 대상이 나타난다는 것을 가정하고 감성을 분류하는 방법론이다. 하지만 실제 텍스트는 하나의 문장에 다양한 대상과 감성이 나타날 수 있기에 정확하지 않다는 한계점이 존재한다.

속성 층위(Aspect Level/Feature Level)의 감성 분석Liu(2012)에서 제시한 오피니언 퀸토플에 기반해 이루어진다. 오피니언 퀸토플{Entity, Aspect, Sentiment, Opinion Holder, Time}으로 구성되어있다. Entity는 감성 분석의 대상이 되는 개체를 지칭하며, Aspect는 해당 대상의 속성을 의미한다. Sentiment는 해당 속성에 대한 감성 표현이며 Opinion Holder는 해당 감성 표현의 주체를 지칭한다. 마지막으로 Time은 해당 감성 표현이 발화된 시점을 지칭한다. 속성 기반 감성분석의 방법론으로는 감성 사전에 기반한 방법론이 존재한다. 감성 어휘 사전을 구축하여 다단어 표현(Multi-word Expression, MWE)이나 부분 패턴 문법(Local Grammar Graph, LGG)을 기술하여 텍스트에 나타난 속성-감성 쌍을 추출하는 것이다. 하지만 위와 같은 방법론은 도메인 한정적이며, 반어법적 문장을 해석하는 문제, 무극성 문장을 형성할 수도 있으며, 객관적 문장의 극성을 표현하는 가능성이 있는 문제가 있다. 따라서, 이를 해결하기 위해 최신 자연어 처리 기술을 사용한 전산학적 방법론과 감성 사전, 패턴 문법과 같은 규칙 기반 방법론이 함께 사용되는 하이브리드 방법론을 사용하는 경우가 많다.

그때 급하게 내느라고 SA에 대해서는 많이 못 썼다...
전산언어학 관점에서도 좀 더 추가하고...
좀 더 보충해서 더 써야지,,,
그래도 짧은 글이라도
T4R!!
(Thanks for Reading이라는 뜻~)

참고 문헌

https://wikidocs.net/31698

 

04-04 TF-IDF(Term Frequency-Inverse Document Frequency)

이번에는 DTM 내에 있는 각 단어에 대한 중요도를 계산할 수 있는 TF-IDF 가중치에 대해서 알아보겠습니다. TF-IDF를 사용하면, 기존의 DTM을 사용하는 것보다 보다 많…

wikidocs.net

Liu, B. (2022). Sentiment analysis and opinion mining. Springer Nature.

 

반응형

댓글