R/R 중급

tidyverse 이해를 돕는 그림

Student9725 2019. 4. 4. 14:30

tidyverse는 깔끔(tidy)한 도구상자를 의미한다. 

 

 

tidyverse를 잘 표현한 그림(출처: 이광춘 교수님 깃허브)

 

 

1단계 데이터 가져오기 import

DB나 웹의 API 데이터를 R의 데이터프레임으로 로드하는 것을 의미한다.

 

2단계 정리하기 tidy

데이터가 의미하는 것과 저장방식이 일치하도록 일관된 형식으로 저장하기

데이터가 tidy하다는 의미는 열이 변수이고, 행이 관측값이 되도록 저장한다는 것

 

이것이 중요한 이유는 데이터를 함수에 적용할 때 힘이 들지 않기 떄문에, 데이터가 다루는 문제에 집중할 수 이싿.

 

3단계 데이터 변형하기

데이터 변형 : 관측값의 범위를 좁히고, 새로운 변수를 추가하고, 요약통계량을 계산하는 것

 

2,3단계를 묶어서 데이터를 길들인다는 의미에서 wrangling이라고도 한다.

 

4단계 지식을 만들기(방법 : 시각화와 모델링)

시각화 : 주어진 데이터에 대한 새로운 문제 찾아내기. 단점은 인간이 해석하는 한계에 막힌다.

모델링 : 시각화를 보완하는 도구. 수학, 전산 도구를 통해 문제의 답을 찾아내는 것

 

5단계 의사소통

결과를 다른 사람들에게 잘 전달하기