본문 바로가기
Study/NLP

한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램

by GodKim 2021. 1. 17.

이 글은 논문 [한국어 제목 개체명 인식 및 사전 구축]을 읽고 정리한 글이다.

박용민, 이재성. (2014). 한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램. , 3(7), 285-292.

한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램 - 정보처리학회논문지. 소프트웨어 및 데이터 공학 - 한국정보처리학회 : 논문 - DBpia, 연구를 돕는 똑똑한 학술콘텐츠 플랫폼

 

한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램

논문, 학술저널 검색 플랫폼 서비스

www.dbpia.co.kr


내가 멋대로 이해한 위 논문의 한 줄 요약!


 

 일반적으로 분류되는 PLO(인명, 지명, 기관명)이 아닌 제목 개체명은 단일어부터 문장형까지 다양한 형태를 가지고 있기에 이에 대한 인식에 있어 뉴스 기사문에서 추출한 데이터로 사전을 구축해 인식에 이용한다.

 


 

1. 개체명 인식이란?


 

위키피디아 기반 개체명 사전 반자동 구축 방법[논문 리뷰] (tistory.com)

 

위키피디아 기반 개체명 사전 반자동 구축 방법[논문 리뷰]

이 글은 논문 [위키피디아 기반 개체명 사전 반자동 구축 방법]을 읽고 정리한 글이다. 송영길, 정석원, 김학수. (2015). 위키피디아 기반 개체명 사전 반자동 구축 방법. 정보과학회논문지

godcode.tistory.com

 위 링크 참고하기!

 


 

2. 제목 개체명


 

 제목 개체명은 기존의 개체명과는 다르게 인식에 있어서 상대적으로 어려움이 나타난다. 우선 그 첫 번째 이유로 형태가 다양하다는 것이다. 단일어, 혹은 다단어 뿐만 아니라 아예 문장형으로 나타나기도 하고 부사어끼리 뭉쳐있는 경우도 있다.

 

  • 쉬리 (단일어)
  • 8월의 크리스마스 (다단어)
  • 태양은 없다 (문장형)
  • 은밀하게 위대하게 (부사어 + 부사어)

 

 또한, 제목 개체명은 다른 개체명과 중복이 되는 경우도 있다. 예컨대, '킬리만자로'는 지명이 될 수도 있지만 동시에 2000년에 개봉한 영화 제목이 될 수도 있는 것이다. 그리고 제목 개체명은 특정한 자질이 존재하지 않는다. 예를 들어 지명 같은 경우 '특별시'나 '광역시'처럼 인식에 용이한 자질이 존재하는 반면, 제목 개체명은 그 형태가 다양하여 제목 개체명만이 가지는 특징이 나타나지 않는다. 따라서 제목 개체명은 사전을 기반으로 인식하는 것이 효율적이다. 본 논문도 좀 더 정형화된 데이터인 뉴스기사를 기반으로 새롭게 생성되는 개체명을 실시간으로 인식하여 사전을 구성한다.

 


3. 문맥 단어를 이용한 제목 개체명 인식


 

 위에서 설명한 바와 같이 제목 개체명은 그 형태가 다양하기에 정형화하여 인식하기가 쉽지 않다. 하지만 뉴스 기사가 가지는 특성으로 인해 어느 정도 정형화된 형태로 제목 개체명이 나타나는 데 가장 대다수로 나타나는 특징이 제목 개체명이 특수기호 사이에 존재한다는 것이다.

 

  • 할리우드 블록버스터 '그래비티'가 주말 예매 점유율에서 1위를 차지했다.
  • 밴드 버스커버스커가 2012년에 발표했던 노래 '벚꽃엔딩'이 다시 차트에 재진입해 눈낄을 끌었다.

 

 또한 특수기호 사이에 나타난 어휘가 제목 개체명인지 알기 위해서 그 주변단어를 살펴보면 알 수 있었다. 위 예문에서 살펴보면 '그래비티'라는 제목 개체명 주위로 해당 어휘가 제목임을 알려주는 단서인 '할리우드', '블록버스터', '예매' 등이 나타난다. 

 

 이러한 특징들을 기반으로 본 논문에선 SVM(Support Vector Machine)을 사용하였다. SVM은 단어 간의 순서 정보가 필요치 않고 문서 분류를 위한 자질만을 이용하기 땜에 비교적 간단히 연산할 수 있는 장점이 있으며, 나이브 베이지안 분류기나 최근접 이웃 분류기, 신경망 모형 보다 성능이 우수한 것으로 알려져 있다. 

 

 우선, 문맥 단어를 추출하는 것이 첫 번째 과정이다. 뉴스에서 특수기호로 묶인 어절이 있는 문장을 추출한다. 그 후 특수기호로 묶인 어절을 중심으로 좌우에 존재하는 명사를 추출한다. 이때 사용자가 지정한 거리만큼의 명사만 추출한다.

 

 추출된 중심어가 도서, 영화, 음악, TV프로그램으로 태그된 것을 제목 개체명, 그외를 비제목 개체명으로 분류하여 학습데이터를 구성하였다. 이에 대한 정확성을 위해 뉴스기사 카테고리에서도 해당 카테고리와 겹치는 카테고리들로만 말뭉치를 구성하였다. 예를 들어, 도서는 '출판' 카테고리, 음악은 '음반' 카테고리 등으로 구성이 된 것이다. 

 

 제목, 비제목 분류에 있어서는 SVM light를 이용하였다. 이 때, 제목 개체명 좌측의 문맥 어휘들은 주로 제목을 설명하는 단어가 다수 분포해 있고, 우측에는 제목과 관련된 내용을 언급하는 어휘가 많았기에 좌측과 우측을 구분하여 가중치를 주었다. 

 

 그 후 제목으로 판별이된 개체명에 대해서는 다중 분류 기계학습 도구인 SVM multiclass를 이용해 학습 및 실험을 진행하였다. 분류 사항은 위에서 언급한 4가지(도서, 영화, 음악, TV프로그램)로 문맥 단어들은 제목 개체명 유형별 상호정보량(Mutual Information, MI)을 이용해 가중치를 부여했다. MI는 두 독립사건 사이의 의존관계를 수치화하여 나타낸 값을 의미한다. 즉, 두 사건간의 연관성이 높을 수록 MI는 높은 값을 나타내는 것이다. 

  

 또한, 한 문서 내에 2회 이상 등장하는 제목 개체명 중 여러 유형을 띈 경우 그 빈도수에 따라 개체명을 분류하였다. 요컨대, 한 문서에 '박하사탕'이라는 제목 개체명이 3번 나왔을때 영화로 2번, 음악으로 1번이면 영화로 분류하였다. 그 빈도수도 동일한 경우에는 모델의 분류 가중치를 이용하여 가중치가 높은 분류를 따르게 하였다.

 


4. 결과 및 나의 생각


 

 본 논문의 실험은 온라인 뉴스기사 19,745개를 대상으로 ETRI 언어 분석기를 통해 분석된 결과를 학습 말뭉치로 활용하였다. 제목 식별 실험에서는 주변에 인식할 문맥 단어의 거리를 1로 하였을 때 F1-score가 84.47로 가장 높게 나왔다. 즉, 제목 개체명 바로 앞 혹은 뒤에 제목과 관련된 핵심 어휘가 주로 나타난다는 것을 알 수 있다. 유형 분류 실험에 있어서는 문맥 단어의 거리를 6으로 설정했을때 성능이 92.09로 가장 좋게 나타났다. 

 

 또한 이를 기반으로 사전을 구축하여 실험도 진행하였다. 이때 띄어쓰기에 대한 일관성을 위해 제목 개체명 내에 나타난 공백은 모두 제거하였고, 같은 유형에서 겹치는 제목은 합쳐서 사전을 구축하였다. 그 때의 결과는 F1-score가 76.09로 나타났다. 여기서 좀 더 정확한 데이터를 위해 한 문서내에 2번 이상 나타나는 제목 개체명으로만 실험 데이터를 구성해 진행한 결과 85%의 성능을 보였다. 향후 연구로 제목과 비제목 구분을 위한 가중치의 변경과 학습 데이터 크기의 불균형을 해결한다면 사전 구성의 성능을 높일 수 있을 것으로 보았다.

 

 제목 개체명의 특수성으로 인해 나타나는 어려움을 사전으로 해결하는 방안을 제시했으며 그 사전 구축에 있어서 SVM을 활용하여 좀 더 용이하게 제목 개체명을 추출할 수 있다고 하였다. 문과로써 가중치에 대한 얘기는 부가적으로 하기가 쉽지 않다. 하지만 사전 구축에 대해 좀 아쉬운 점 한 가지가 보였다. 해당 논문에선 일관성을 위해 띄어쓰기를 모두 없애서 진행했다고 하였는데 그렇게 되면 데이터가 많아질 경우 나타나는 통사적 중의성이 심해질 것에 대한 얘기가 없었다. 

 

  • 아버지가 방에 들어가신다
  • 아버지 가방에 들어가신다
  • 아버지가방에들어가신다 (??)

 아주 자주 쓰이는 띄어쓰기에 대한 예시이다. 띄어쓰기가 없을 경우 나타나는 중의성이 개체명에 대해서는 더 심하게 나타날 수 있기 때문이다. 위에 예시는 조사에 대한 구분으로 어느 정도 파악이 가능하다. 즉, 중의성도 두 가지 정도만 나타나는 것이다. 반면에 아래의 예시를 보자.

 

  • 수박 씨 발라 먹어
  • 수박 씨발라 먹어
  • 수 박씨 발라먹어

 

 바로 생각나는 영화를 찾기 힘들어서 좀 극단적일 수 있는 내가 만든 예시를 보면, 영화 제목으로 위의 3가지가 모두 다 다른 영화로 가정을 했을 때, 띄어쓰기를 없애버리면 해당 영화는 한 가지로 통일되는 불상사가 발생할 수 있는 것이다. 

 

 따라서 사전 구성에 있어서는 띄어쓰기의 일관성을 유지하기 위해 제거하기보다는 하나의 공백으로 통일을 시키던지 아님 '_'를 삽입하는 등 다른 형태의 전처리를 거쳐서 사전을 구성했으면 더 나은 사전이 되지 않았을까 하는 생각이 들었다. 

반응형

댓글