본문 바로가기

전체 글

R로 데이터 시각화 _ ggplot2() _1 library(tidyverse)gglplot 함수를 담고 있는 library가 tidyverse이므로 ggplot를 사용하고 싶다면 먼저 해당 라이브러리를 로딩해줘야 한다. ggplot()에는 세 가지 요소가 있다. data  & aesthetic mapping  & layer 어떤 data로 그림을 그릴 것인지  어떤 심미적 대응 관계를 따질 것인지 어떤 layer를 얹을 것인지를 결정해야 한다는 것이다. * layer 구조로 하나씩 그래프가 쌓이기 때문에 +를 통해 여러 개의 layer를 쌓는 계층적 문법이다. 예시를 보여주자면 다음과 같다.ggplot(mpg,aes(x=displ, y=hwy))+geom_point() 이 코드는 geom_point( )를 이용해 산점도를 그리게 된다. data는 .. 더보기
R 프로그래밍 기본 1. R은 object 단위로 관리하며, 모든 object는 class 를 갖는다. 이를 설명하기 위해서는 R의 데이터 타입을 알아야 한다. R의 데이터 타입은 크게 문자형(character), 수치형(numeric), 논리형(logical), 복소수형(complex)이다. 이외에 NULL형이 존재하지만 해당 타입의 경우 NA, NaN, Inf와 묶어서 따로 설명하도록 하겠다. 내가 만든 object를 보고 싶다면 ls()라는 함수를 이용해 확인할 수 있다. a *여기서 사용한 class() 함수는 특정 object의 데이터 타입을 알아보기 위해 사용된 함수다.  다른 언어와 달리 R은 논리형에서 TRUE, FALSE만을 인정한다.   https://cceeddcc.tistory.com/2 R 데이터 구.. 더보기
파이썬 머신러닝 완벽가이드 _ CH.2_(1) Chapter2.1 _ 사이킷런이란? 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리다양한 알고리즘과 프레임워크, API 제공 *텐서플로, 케라스 : 딥러닝 전문 라이브러리가 있다.  Chapter2.2 _ 첫 번째 머신러닝붓꽃 데이터 세트의 Feature* 기반 붓꽃 품종 분류*(Classification)*꽃잎의 길이 너비, 꽃받침의 길이와 너비*분류는 대표적인 Supervised Learning_지도학습 방법 #Supervised Learning _ 지도학습다양한 feature와 분류 결정값인 Label data*로 모델 학습 --> 별도의 테스트 data set**에서 미지의 레이블 예측*학습 data set** 테스트 data set from sklearn.datasets impor.. 더보기
데이터 분석가가 반드시 알아야 할 모든 것_CH.10_(1) Ch.10 _ 데이터 탐색과 시각화 EDA와 데이터 시각화는 구별해서 생각해야 한다.데이터 시각화의 목적은 분석 결과를 client에게 효과적으로 전달하기 위한 것이다. 여러 가지 시각화 방법이 있고 대표적으로 다음과 같은 종류가 있다.시간 시각화 / 비교 시각화 / 분포 시각화 / 관계 시각화 / 공간 시각화 1. 탐색적 데이터 분석 Explotratory Data Analysis = EDA EDA는 가공하지 않은 raw 데이터를 있는 그대로 탐색하고 분석하는 것이다. 아무런 가공을 하지 않았기 때문에 극단적인 해석을 피해야 하고 기초 통계 지식을 활용해 어떤 내용을 살펴봐야 할 지 대략적으로 판단하는 단계라고 볼 수 있을 것이다. EDA의 목적데이터의 형태와 척도가 분석에 알맞게 돼있는지데이터의 평균.. 더보기
Python 문법 정리 _ ongoing~ import seaborn as sns #시각화 패키지import matplotlib.pyplot as plt #시각화 패키지import pandas as pdsns.set(color_codes=True)%matplotlib inline*sns.set(color_codes=True):Seaborn의 색상 설정을 활성화합니다. color_codes=True로 설정하면, 기본 색상 코드가 Seaborn의 색상 팔레트와 일치하도록 설정됩니다.* %matplotlib inline:주피터 노트북(Jupyter Notebook)**에서 그래프를 화면에 바로 출력하기 위해 사용하는 명령어입니다. 이 명령어를 사용하면, 그래프를 그릴 때마다 별도의 명령 없이 바로 노트북 .. 더보기
데이터 분석가가 반드시 알아야 할 모든 것_ CH.9 Ch.9 _ 분석 환경 세팅하기 1. 데이터 처리 프로세스 이해하기 데이터의 흐름OLTP > DW(ODS) > DM > OLAP 데이터의 흐름이란 데이터라는 제품이 생산되고, 창고에 저장했다가 소매점으로 옮겨진 후 최종적으로 소비자가 데이터를 갖게 되는 과정을 보여준다. 1. OLTP = On-Line Transaction Processing데이터를 트랜잭션 단위로 수집, 분류, 저장하는 시스템으로 데이터가 생성되고 저장되는 처음 단계 2. DW = Data Warehouse데이터 창고. 수집된 데이터를 사용자 관점에서 주제별로 통합해 저장해놓은 통합 데이터베이스DW를 통해 OLTP를 보호하고 데이터 활용 효율을 높일 수 있다,ODS의 경우 데이터를 DW에 저장하기 전에 임시로 데이터를 보관하는 중간 단.. 더보기
데이터 분석가가 반드시 알아야 할 모든 것 _ CH.8 CH.8_ 분석 프로젝트 준비 및 기획데이터 분석의 전체적인 프로세스와 비즈니스 문제 정의, 분석 목적 도출 방법 1. 데이터 분석의 전체 프로세스데이터 분석은 크게 설계 > 분석 및 모델링 > 구축 및 활용 으로 나뉜다. 각 단계에서 해야 하는 세부적인 내용들을 설명하겠다.설계 단계에서는 무엇을 하고자 하는지 명확히 정의하는 것에서 시작한다. 그 후에는 프로젝트를 수행할 인력을 구성하게 되는데, 데이터를 직접 관리하고 분석하는 사람이 다르기 때문에 실무자와 분석가가 원활하게 소통할 수 있는 체계를 세워야 한다. 분석 및 모델링 단계에서는 데이터 추출, 검토, 가공, 모델링 및 성능 평가 등의 절차를 부분 반복하게 된다.특히 성능 평가 단계에서 다양한 방법론*을 이용하게 된다. *KDD 분석 방법론, C.. 더보기
파이썬 머신러닝 완벽 가이드 _ CH.1_(3) CH.1.5 _ Pandaspandas는 파이썬에서 데이터 처리를 위해 존재하는 라이브러리이며, NumPy를 기반으로 작성됐다.pandas의 핵심 객체는 DataFrame으로 2차원 데이터를 담는 데이터 구조체인데, 이를 이해하기 위해서는 Index와 Series라는 중요 객체를 이해해야 한다. DataFrame과 Sereis 모두 Index를 key값으로 갖고 있으며, Series는 col이 하나인 데이터 구조체이고 DataFrame은 col이 n개인 데이터 구조체이다.즉 몇 차원 데이터인지에 따라 구분하면 된다고 볼 수 있다.Series는 index와 values 구조를 갖고, DataFrame은 index, columns, values 구조를 갖는다.index가 row와 같은 기능을 한다고 볼 수 .. 더보기