본문 바로가기

분류 전체보기36

It's all about the Data - Data Cascade의 위험성 Data is a foundational aspect of machine learning (ML) that can impact performance, fairness, robustness, and scalability of ML systems. - Nithya Sambasivan, Research Scientist, Google Research 최근 대학원 졸업과 나의 취업 준비가 진행되면서 내가 어떤 일을 하면서, 어떤 가치관과 어떤 목적성을 가지고 직장을 선택하고, 직무를 고를지에 대한 고민이 계속 되었다. 학창 시절부터 만들고 싶었던 그 누구와도 친구가 될 수 있는 AI에 대한 꿈은 어찌저찌 시대의 흐름을 잘타게 되어 관련 공부를 대학원에서도 할 수 있는 기회도 생겼다. 대학원을 진학할 때와 비슷하.. 2023. 12. 13.
한국어 띄어쓰기 모델 수업 때 실수?로 교수님 질문에 대한 답을 해버려서 떠맡게 된 한국어 띄어쓰기 모델들 소개이다. 아는 것을 공유하는 것은 좋지만 발표까지 맡게될 줄은 전혀 몰랐다... 이 기회에 안그래도 필요했던 띄어쓰기 모델들을 정리해보자. 1. 한국어에서 띄어쓰기란? - 한국어 어문 규범에서의 띄어쓰기 제2항 문장의 각 단어는 띄어 씀을 원칙으로 한다. 국어에서 단어를 단위로 띄어쓰기를 하는 것은 단어가 독립적으로 쓰이는 말의 최소 단위이기 때문이다. ‘동생 밥 먹는다’에서 ‘동생’, ‘밥’, ‘먹는다’는 각각이 단어이므로 띄어쓰기의 단위가 되어 ‘동생 밥 먹는다’로 띄어 쓴다. 그런데 단어 가운데 조사는 독립성이 없어서 다른 단어와는 달리 앞말에 붙여 쓴다. ‘동생이 밥을 먹는다’에서 ‘이’, ‘을’은 조사이므로 .. 2023. 11. 16.
감성 분석이란? 대학원 강의 과제로 작성했던 두 번째 개념 정리 파트이다 나쁘지 않으면 이런식으로라도 개념 정리 계속할 예정~~ 감성 분석(Sentiment Analysis)은 텍스트 데이터에서 특정 문장, 문서 또는 단어의 감정, 의견, 또는 감성을 식별하고 분류하는 자연어 처리 태스크 중 하나이다. 감성 분석이 이루어지는 층위는 문서(Document), 문장(Sentence), 속성(Aspect) 3가지 층위에서 이루어진다. 문서 층위(Document Level)의 감성 분석은 지도 학습에 기반한 감성 분류와 비지도 학습에 기반한 감성 분류가 존재한다. 지도 학습 방법론은 문서 내의 단어의 빈도와 역문서 빈도인 TF-IDF를 활용하여 임베딩을 하여 품사(Part Of Speech, POS)와 같은 언어 정보를 고려하.. 2023. 11. 16.
자연어처리란? 이번에 대학원 강의 과제로 강의에 나온 키워드 기반으로 배운 내용을 정리하라는 과제가 있었다. 학위논문을 쓰는 중이라 완전히 잊고 있다가 후다다닥 당일에 정리해서 끝내버렸는데 그대로 과제로만 내기에는 아까워서 블로그에 올려보려고 한다. 정리는 추후 찬찬히 하는 걸로 하고 우선 올려보겠다. 관점 자체는 문과 및 비전공자 대상으로 설명하는 내용이라고 생각하고 감안하고 읽어주면 정말 감사하겠다!!!!! 자연어처리(Natural Language Processing, NLP)는 컴퓨터가 인간의 언어인 자연어를 이해하고 처리하는 분야이다. 컴퓨터가 인간의 언어를 처리하기 위해선 다양한 방식이 존재한다. 첫 번째로, 언어학적인 접근 방식인 규칙 기반 접근법(rule-based approach)은 언어 현상을 이해하고.. 2023. 11. 16.