본문 바로가기

Study/ML&DL10

10. 회귀 분석으로 연속적 타깃 변수 예측 이 글은 [머신러닝 교과서 with 파이썬, 사이킷런, 텐서프로]를 읽고 정리한 글이다. 10.1 선형 회귀 선형 회귀란? 지도 학습의 하위 카테고리로 하나 이상의 특성과 연속적인 타깃 변수 사이의 관계를 모델링하는 것이 목적이다. 즉, 샘플 포인터에 가장 잘 맞는 직선을 찾는 것이다. 10.1.1 단변량 선형 회귀 (Univariate linear regression) 하나의 특성(설명 변수(explanatory variable) x)과 연속적인 타깃(응답 변수(response variable) y) 사이의 관계를 모델링 하는 것을 단변량 선형 회귀이다. 그림에서 각 주황 점은 샘플 포인트를 뜻하며, 샘플 포인트를 가장 잘 맞추어 통과하는 직선을 회귀 직선(regression line)이라고 한다. 회.. 2020. 3. 17.
8. 감성분석에 머신 러닝 적용 감성 분석(Sentiment Analysis)에 머신 러닝을 적용하여 글쓴이의 성향에 따라 문서를 분류하기. 감성 분석이랑 자연어처리(Natural Language Processing, NLP)의 하위 분야로 의견 분석(Opinion Mining)이라고도 한다. 이 분야는 주로 문서의 성향을 분석하는 것을 주로 다룬다. 예컨데, 특정 상품에 대한 리뷰의 성향을 글쓴이의 감정을 기반으로 문서를 분류하는 것과 같은 작업이다. 텍스트 데이터의 정제와 준비하기 텍스트 문서로부터 특성 벡터 구축하기 영화 리뷰를 긍정 또는 부정으로 분류하는 머신 러닝 모델을 훈련하기 외부 메모리 학습을 사용한 대용량 텍스트 데이터셋 다루기 문서를 카테고리로 묶기 위한 문서의 토픽 추론하기 8.1 텍스트 데이터 정제 8.1.1 타볼.. 2020. 3. 3.
6. 모델 평가와 하이퍼파라미터 튜닝 알고리즘을 미세 조정하여 높은 성능의 머신 러닝 모델을 만들고 성능을 평가하기 편향되지 않은 모델 성능 추정 머신 러닝 알고리즘에서 일반적으로 발생하는 문제 분석 머신 러닝 모델 세부 튜닝 여러 가지 성능 지표를 사용하여 모델 예측 성능 평가 6.1 파이프라인(Pipeline) 여러 개의 변환 단계를 포함한 모델을 학습하고 새로운 데이터에 대한 예측을 생성할 수 있다. 사이킷런의 변환기 중 fit / transform 메서드를 지원하는 객체에 한에서 make_pipeline 함수를 이용해 연결이 가능하다. ##PCA를 통해 30차원의 데이터를 2차원으로 낮추기 #StandardScaler, PCA, LogisticRegression을 하나의 파이프라인으로 연결 from sklearn.preprocessi.. 2020. 2. 18.
5. 차원 축소를 사용한 데이터 압축 차원 축소의 또다른 방식엔 특성 추출이 있다. 이 장에서는 데이터셋의 정보를 요약하는 3 가지 기술에 대해 알아 볼 것이다. 주성분 분석(Principal Component Analysis, PCA) 선형 판별 분석(Linear Discriminant Analysis, LDA) 커널 PCA(Kernel Principal Component Analysis, KPCA) 5.1 주성분 분석(Principal Component Analysis, PCA) PCA는 데이터에 의미있는 '축'을 찾는 과정이다. 각각의 축은 하나의 주성분에 해당한다. 데이터에는 차원의 수만큼 주성분이 존재하는데, 여기서 PCA는 어떤 축이 더 중요한지 그 우선순위를 수하는 과정이다. 특성 추출은 특성 선택과는 다르게 새로운 공간으로 데.. 2020. 2. 10.