본문 바로가기

전체 글36

01. 텍스트 전처리 - 정수 인코딩 www.wikidocs.net/book/2155 의 [딥 러닝을 이용한 자연어 처리 입문]을 공부하고 정리한 글입니다. 정수 인코딩(Integer Encoding) 컴퓨터는 직접적인 텍스트 입력보다는 숫자를 더 잘 처리할 수 있다고 한다. 이러하기에 NLP분야에선 텍스트를 숫자로 바꾸는 여러가지 기법이 존재한다. 가장 첫 단계가 각 단어에 고유한 정수를 부여하는 것이다. 학교에서 우리 이름과 함께 주어지는 학번이나, 군대에서의 군번과 비슷하다고 생각하면 된다. 예컨데, 보유하고 있는 코퍼스에 단어가 1000개 있다면 각 단어들에 1부터 1000까지의 번호를 부여해 주는 것이다. 번호를 부여하는데에는 여러가지 방법이 있다. 랜덤하게 부여하기도하지만, 주로 전처리 후 빈도수에 따라 부여한다. 지금부터 4가지.. 2020. 3. 13.
8. 감성분석에 머신 러닝 적용 감성 분석(Sentiment Analysis)에 머신 러닝을 적용하여 글쓴이의 성향에 따라 문서를 분류하기. 감성 분석이랑 자연어처리(Natural Language Processing, NLP)의 하위 분야로 의견 분석(Opinion Mining)이라고도 한다. 이 분야는 주로 문서의 성향을 분석하는 것을 주로 다룬다. 예컨데, 특정 상품에 대한 리뷰의 성향을 글쓴이의 감정을 기반으로 문서를 분류하는 것과 같은 작업이다. 텍스트 데이터의 정제와 준비하기 텍스트 문서로부터 특성 벡터 구축하기 영화 리뷰를 긍정 또는 부정으로 분류하는 머신 러닝 모델을 훈련하기 외부 메모리 학습을 사용한 대용량 텍스트 데이터셋 다루기 문서를 카테고리로 묶기 위한 문서의 토픽 추론하기 8.1 텍스트 데이터 정제 8.1.1 타볼.. 2020. 3. 3.
6. 모델 평가와 하이퍼파라미터 튜닝 알고리즘을 미세 조정하여 높은 성능의 머신 러닝 모델을 만들고 성능을 평가하기 편향되지 않은 모델 성능 추정 머신 러닝 알고리즘에서 일반적으로 발생하는 문제 분석 머신 러닝 모델 세부 튜닝 여러 가지 성능 지표를 사용하여 모델 예측 성능 평가 6.1 파이프라인(Pipeline) 여러 개의 변환 단계를 포함한 모델을 학습하고 새로운 데이터에 대한 예측을 생성할 수 있다. 사이킷런의 변환기 중 fit / transform 메서드를 지원하는 객체에 한에서 make_pipeline 함수를 이용해 연결이 가능하다. ##PCA를 통해 30차원의 데이터를 2차원으로 낮추기 #StandardScaler, PCA, LogisticRegression을 하나의 파이프라인으로 연결 from sklearn.preprocessi.. 2020. 2. 18.
5. 차원 축소를 사용한 데이터 압축 차원 축소의 또다른 방식엔 특성 추출이 있다. 이 장에서는 데이터셋의 정보를 요약하는 3 가지 기술에 대해 알아 볼 것이다. 주성분 분석(Principal Component Analysis, PCA) 선형 판별 분석(Linear Discriminant Analysis, LDA) 커널 PCA(Kernel Principal Component Analysis, KPCA) 5.1 주성분 분석(Principal Component Analysis, PCA) PCA는 데이터에 의미있는 '축'을 찾는 과정이다. 각각의 축은 하나의 주성분에 해당한다. 데이터에는 차원의 수만큼 주성분이 존재하는데, 여기서 PCA는 어떤 축이 더 중요한지 그 우선순위를 수하는 과정이다. 특성 추출은 특성 선택과는 다르게 새로운 공간으로 데.. 2020. 2. 10.
2. 간단한 분류 알고리즘 훈련 2.1 인공 뉴런: 초기 머신 러닝의 간단한 역사 퍼셉트론(Perceptron) 프랑크 로젠블라트가 MCP(맥컬록-피츠) 뉴런 모델을 기반으로 퍼셉트론 학습 개념을 처음 발표했다. 그는 퍼셉트론 규칙에서 자동으로 최적의 가중치를 학습하는 알고리즘을 제안했다. 이 알고리즘 샘플로 한 클래스에 속하는지 아닌지를 예측 가능하다. 인공 뉴런의 수학적 정의 인공 뉴런의 아이디어를 두 개의 클래스가 있는 이진 분류 작업으로 볼 수 있다. 두 개의 클래스는 양성(1)과 음성(-1)으로 나타낸다. 그 후 입력 값 x와 이에 상응하는 가중치 벡터 w의 선형 조합으로 결정 함수(ϕ(z))를 정의한다. 이에 따른 최종 입력인 z는 z = w1x1+...+wmxm이다. 이제 x의 최종 입력이 사전에 정의된 임계 값 θ보다 크.. 2020. 1. 20.
1. 컴퓨터는 데이터에서 배운다. 이 글은 '머신러닝 교과서 with 파이썬, 사이킷런, 텐서플로' 책을 읽고 정리한 것이다. 머신러닝(machine learning)이란 데이터가 넘치는 현대 사회에서 데이터들을 이해하여 지식으로 바꾸는데 요긴한 하나의 수단이다. 요컨대, 수많은 데이터를 우리가 직접 하나하나 이해하는 것이 아니라, 머신러닝 알고리즘을 이용해 기계가 스스로 데이터들을 학습하여 우리에게 유용한 정보를 제공해주는 것을 말한다. 이 장에서 우리가 배울 것은 머신 러닝의 일반적인 개념 세 종류의 학습과 기본 용어 성공적인 머신 러닝 시스템을 설계하는 필수 요소 데이터 분석과 머신 러닝을 위한 파이썬 설치 1.1 데이터를 지식으로 바꾸는 지능적인 시스템 구축 20세기 후반 데이터에서 지식을 추출해서 예측하는 자기 학습 알고리즘과 .. 2020. 1. 11.