목록분류 전체보기 (30)
철솜_STUDY
1. 분류의 개요 지도학습은 레이블이 주어진 상태에서 학습하는 머신러닝 방식이다 대표 유형인 분류는 학습 데이터의 피처와 레이블값을 학습해 모델을 생성하고, 새로운 데이터 값의 레이블을 해당 모델을 이용해 예측하는 것이다. 분류를 구현하는 알고리즘은 굉장히 많다. 대표적으로 베이즈, 로지스틱 회귀, 결정 트리, 서포트 벡터 머신, 최소 근접 알고리즘, 신경망, 앙상블이 있다. 이 중 앙상블은 딥러닝이 머신러닝계를 선도하고 있는 상황에서도 정형 데이터의 예측 분석 영역에서 애용되고 있다. 앙상블은 배깅과 부스팅 방식으로 나뉘게 된다. 배깅의 대표적인 예시는 랜덤 포레스트가 있다. 그러나 최근에는 부스팅 방식으로 발전하고 있다. 부스팅 방식의 효시인 그래디언트 부스팅은 단점이 너무 명확하다. 최근에는 이..

CH.3_평가머신러닝의 프로세스 데이터 가공/변환 --> 모델 학습/예측 --> 평가 프로세스 성능 평가 지표는 모델이 회귀냐 분류냐에 따라 여러 종류로 나뉜다. 회귀 -- 실제값과 예측값 간의 오차 평균값에 기반한 성능 평가 지표ex) 오차에 절댓값을 씌운 뒤 평균 오차 구하기 / 오차 제곱값에 루트를 씌운 뒤 평균 오차 구하기 분류 -- 단순히 정확도만 가지고 판단하기에는 잘못된 결과가 발생 가능정확도_Accuracy오차행렬_Confusion Matrix정밀도_Precision재현율_RecallF1 스코어 ROC AUCCH.3.1_ 정확도Accuracy = 예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수 정확도는 직관적인 평가 지표지만, 이진 분류의 경우 데이터의 구성에 따라 ML 모델..

1. group 활용하기library(nlme)library(tidyverse)head(Oxboys)## Grouped Data: height ~ age | Subject## Subject age height Occasion## 1 1 -1.0000 140.5 1## 2 1 -0.7479 143.4 2## 3 1 -0.4630 144.8 3## 4 1 -0.1643 147.1 4## 5 1 -0.0027 147.7 5## 6 1 0.2466 150.2 6 --> 각 age 별로 heigth가 변하는 정도를 알고 싶다 == subject 별로 ..

그림에 요소 삽입하기1. 글자 삽입 --> by. geom_text > 점 대신 글자 삽입 가능함글자들이 그림 그리는 부분에서 바깥으로 나가 있을 경우에 안 쪽으로 넣어주기 위해 넣는 옵션 정도로 생각하기family "글자체" -> default = 고딕체 / "mono" "serif"_바탕체fontface "서체" -> "bold" & "italic"hjust "글자를 입력하는 위치" -> "left / right / inward / outwardvjust "글자를 입력하는 위치" -> "bottom" / "middle" / "top" / "inward" / "outward"df = data.frame(trt=c("a", "b", "c"), resp=c(1.2, 3.4, 2.5))ggplot..

library(tidyverse)gglplot 함수를 담고 있는 library가 tidyverse이므로 ggplot를 사용하고 싶다면 먼저 해당 라이브러리를 로딩해줘야 한다. ggplot()에는 세 가지 요소가 있다. data & aesthetic mapping & layer 어떤 data로 그림을 그릴 것인지 어떤 심미적 대응 관계를 따질 것인지 어떤 layer를 얹을 것인지를 결정해야 한다는 것이다. * layer 구조로 하나씩 그래프가 쌓이기 때문에 +를 통해 여러 개의 layer를 쌓는 계층적 문법이다. 예시를 보여주자면 다음과 같다.ggplot(mpg,aes(x=displ, y=hwy))+geom_point() 이 코드는 geom_point( )를 이용해 산점도를 그리게 된다. data는 ..
1. R은 object 단위로 관리하며, 모든 object는 class 를 갖는다. 이를 설명하기 위해서는 R의 데이터 타입을 알아야 한다. R의 데이터 타입은 크게 문자형(character), 수치형(numeric), 논리형(logical), 복소수형(complex)이다. 이외에 NULL형이 존재하지만 해당 타입의 경우 NA, NaN, Inf와 묶어서 따로 설명하도록 하겠다. 내가 만든 object를 보고 싶다면 ls()라는 함수를 이용해 확인할 수 있다. a *여기서 사용한 class() 함수는 특정 object의 데이터 타입을 알아보기 위해 사용된 함수다. 다른 언어와 달리 R은 논리형에서 TRUE, FALSE만을 인정한다. https://cceeddcc.tistory.com/2 R 데이터 구..

Chapter2.1 _ 사이킷런이란? 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리다양한 알고리즘과 프레임워크, API 제공 *텐서플로, 케라스 : 딥러닝 전문 라이브러리가 있다. Chapter2.2 _ 첫 번째 머신러닝붓꽃 데이터 세트의 Feature* 기반 붓꽃 품종 분류*(Classification)*꽃잎의 길이 너비, 꽃받침의 길이와 너비*분류는 대표적인 Supervised Learning_지도학습 방법 #Supervised Learning _ 지도학습다양한 feature와 분류 결정값인 Label data*로 모델 학습 --> 별도의 테스트 data set**에서 미지의 레이블 예측*학습 data set** 테스트 data set from sklearn.datasets impor..
Ch.10 _ 데이터 탐색과 시각화 EDA와 데이터 시각화는 구별해서 생각해야 한다.데이터 시각화의 목적은 분석 결과를 client에게 효과적으로 전달하기 위한 것이다. 여러 가지 시각화 방법이 있고 대표적으로 다음과 같은 종류가 있다.시간 시각화 / 비교 시각화 / 분포 시각화 / 관계 시각화 / 공간 시각화 1. 탐색적 데이터 분석 Explotratory Data Analysis = EDA EDA는 가공하지 않은 raw 데이터를 있는 그대로 탐색하고 분석하는 것이다. 아무런 가공을 하지 않았기 때문에 극단적인 해석을 피해야 하고 기초 통계 지식을 활용해 어떤 내용을 살펴봐야 할 지 대략적으로 판단하는 단계라고 볼 수 있을 것이다. EDA의 목적데이터의 형태와 척도가 분석에 알맞게 돼있는지데이터의 평균..