데이터 분석 중에 마주친 문제.

 

팩터형 변수를 연산(더하기뺴기 등)을 위해 수치형으로 바꾸어야 할 경우가 있었다.

 

우선 데이터의 형태

 

원데이터

 

전체모양을 파악하기위해 테이블로 만들어보면

 

테이블로 만든 것

 

이제 as.numeric으로 수치형으로 바꾸어 보자.

 

as.numeric 결과

어라? 결과가 왜 이렇지??

 

팩터형의 저장방식 떄문에 그렇다고 한다.

팩터형은 자연수와 1대1대응되는 형태로 저장되기 때문에 1,2,3의 형태로 집단이 대응된다고 한다.

 

그럼 어떻게 해야할까?

문자형으로 먼저 변환하고, 다시 그 결과를 수치형으로 전환하자.

문자형 변환 후 변환

성공!

'R > R 기초' 카테고리의 다른 글

패키지와 라이브러리  (0) 2019.04.01
CSV 파일은 엑셀일까?  (0) 2019.04.01
  • 패키지와 라이브러리

 

코딩이란 컴퓨터에게 내릴 명령을 만드는 작업이다.

자주 쓰이는 명령어들을 모아 놓으면 편리하다. 이것을 함수라고 한다.

함수들을 효과적으로 관리하기 위해서, 함수들을 모아놓은 것을 R에서는 패키지라고 한다.

(파이썬에서는 라이브러리라고 한다.)

 

패키지를 사용하기 위해서는

 

1. 먼저 컴퓨터 하드웨어에 패키지를 설치하고,

   R코드 : install.packages("패키지 이름")

 

2. 메모리에 올려야 한다.

   R코드 : library(패키지 이름)

 

패키지를 설치하는 명령어는 의미 그대로 '패키지를 설치하라'다.

패키지를 불러오는 명령어는 library, 즉, '도서관'이라는 뜻이다. 왜 그럴까?

 

도서관은 책을 빌리는 장소다. 패키지도 무언가를 빌린다.

패키지는 컴퓨터의 메모리 공간을 빌린다. 

 

메모리란 컴퓨터가 실제로 작업을 진행하는 공간이다. 

그런데 패키지가 저장된 공간은 하드웨어다.

이러한 이중적인 구조에는 이유가 있다.

 

메모리가 하드웨어보다 훨씬 비싸다. 

따라서 메모리는 적은 용량을 사용하고, 저장공간은 많이 사용하는 방식이 좋다고 한다.

library함수를 통해 하드웨어에 있는 패키지가 메모리에 있는 공간을 빌려쓰기 떄문에, 

도서관이라는 이름이 붙은 것이다.

 

자세한 내용은 컴퓨터 공학의 운영체제 과목에서 배운다.

전공책을 찾아보기는 싫은데, 조금 더 잘 이해해보고 싶다면,

RAM에 대한 설명이 담긴 다음 영상을 감상하시라. (정말 재미있다.)

 

 

  • 패키지 설치하기와 불러오기의 예

패키지 설치하기
패키지 불러오기(library)

 

 

 

 

'R > R 기초' 카테고리의 다른 글

팩터형 변수 수치형으로 바꾸기  (0) 2019.04.11
CSV 파일은 엑셀일까?  (0) 2019.04.01
  • 엑셀이란?

엑셀은 xls또는 xlsx형식을 가진 파일을 말한다.

xls는 엑셀 2003이전에 저장된 파일을 말하고, xlsx는 2007이후 저장된 파일을 말한다.

이후 말하는 엑셀은 xlsx를 지칭한다.

 

 

  • xlsx에서 csv로 

R로 데이터 불러올 때, 엑셀 데이터를 불러오는 패키지가 발달하기 전에는 엑셀을 csv로 바꾸어, 우회적으로 csv 파일을 불러오기도 했다고 한다. 또, 엑셀 데이터를 불러오는 패키지가 나온 이후에도, 엑셀 데이터를 불러오는 속도보다, csv 데이터를 불러오는 속도가 눈에 띄게 빨랐다고도 한다. (직접 경험은 잘 없음)

 

xlsx파일을 csv로 바꾸면 어떻게 될까?

 

엑셀 화면

 

이러한 화면에서 다른이름으로 저장 - 확장자 이름을 csv형태로 하고 저장을 하면, 다음과 같은 경고가 나온다.

 

경고

 

재밌는 것은 '예' 버튼을 누른 이후에도, 화면은 변화가 없어 보인다.

그렇다면 대체 무엇이 바뀐 것일까? 

 

저장된 파일을 보자.

 

용량이 바뀐 것을 확인할 수 있다.

 

 

아이콘이 a, 라고 바뀌었다.

 

 

  • csv(링크 : 위키피디아)

 

comma seperated value의 약자로, 컴마로 데이터를 구분한 것이다. 그리고 사실 csv는 파일형식의 측면에서는 엑셀하고는 크게 관계가 있지는 않다. 화면으로만 같아보일 뿐이다.

 

csv파일을 메모장으로 열어보면 다음과 같다.

 

csv 메모장 실행결과

 

 

참고로 엑셀은 메모장으로 실행하면, 다음과 같이 정상적으로 열리지 않는다.

 

xlsx 메모장 실행결과

 

 

 

 

  • csv의 추가적인 활용

직접 경험해보지는 않았지만, 60GB가량의 엑셀 데이터를 csv로 바꾸면 1GB 정도로 줄어드는 경우가 있다고 한다. 이유인즉, 엑셀에서 사용하는 표나 여러 형식이 가지는 용량을 csv형태로 저장하면서 줄일 수 있어서다.  

이를 이용하여, 효율적으로 데이터를 활용할 수도 있다고 한다.

 

자세한 내용이 궁금하다면, 김종엽선생님의 유튜브 영상 "깜신의 통계 왕초보 탈출 2탄"을 참고하면 좋겠다.

 

 

 

'R > R 기초' 카테고리의 다른 글

팩터형 변수 수치형으로 바꾸기  (0) 2019.04.11
패키지와 라이브러리  (0) 2019.04.01

+ Recent posts