데이터 프레임 만들기 data.frame (1)

english <- c(50, 80, 60, 70)
math <- c(50,60,100,20)

df_midterm <- data.frame(english, math)

R에서 데이터 프레임은 일종의 '표'와 같다고 이해하면 편합니다. 

행과 열로 구성되어있고 각각 셀에 값이 대응되는 구조입니다.

 

array, vector 등 다양한 class가 있지만, data frame이 가장 대중적으로 사용하는 것 같습니다.

 

위의 코드를 실행하면

# english
[1] 50 80 60 70

# math
[1]  50  60 100  20

# df_midterm
english math
1      50   50
2      80   60
3      60  100
4      70   20

df_midterm 에는 위와 같은 data frame이 삽입됩니다. 

4가지씩 요소를 가지고 있는 english, math라는 열 두 개가 병렬로 순서대로 합쳐지는 방식입니다.

 

 

데이터 프레임 만들기 data.frame (2)

df_midterm2 <- data.frame(english=c(50,80,60,70), 
                          math=c(50,60,100,20)) 

1번 방법은 english, math를 각각 c 함수로 변수 지정을 해준 후 column을 합쳐서 data frame을 만드는 방법입니다.

 

 

2번 방법은 data frame속 english, math column과 요소 값을 한 번에 만드는 방법입니다.

# df_midterm2

  english math
1      50   50
2      80   60
3      60  100
4      70   20

1번에서 했던 방법과 동일한 결과물이 출력됩니다.

 

 

엑셀 열기/로드 readxl

install.packages("readxl")
library(readxl) 

R에서 excel을 열기 위해서 "readxl" 패키지를 사용합니다.

위처럼 install을 해주고 library로 로드시킵니다.

 

역시 ""사용 여부에 주의해야 합니다.

 

이제 엑셀을 열기 위한 준비가 된 상태이고 이제 파일을 열어줍니다. 

df_1 <- read_excel("파일이름.확장자")

read_excel이라는 함수를 통해서 엑셀 파일을 불러옵니다.

 

이때 주의해야 하는 것은 ""따옴표 사용과 파일명 전체를 다입력하고 확장자명까지 입력해야 한다는 점.

 

그리고 R project의 같은 working directory에 들어있어야 한다는 것입니다.

 

만약 같은 워킹 디렉터리 폴더에 있지 않은 excel파일을 오픈하려고 하면 파일 주소를 ""따옴표 사이에 전체적으로 적어주면 됩니다.

 

위 코드의 의미 :  df_1이라는 변수에 read_excel을 통해서 "파일 이름. 확장자" 엑셀 파일을 저장한다.

ggplot2 패키지 로드

install.packages("ggplot2")

library(ggplot2)

처음에는 ggplot2를 설치해줘야 합니다. 그 이후 library에 ggplot2를 등록하는 두 단계를 거쳐야 합니다.

install은 1회만 해주면 되지만, library는 실행 때마다 등록해주어야 합니다.

 

* 주의 : 설치시 "따옴표"를 쓰지만, library 등록 시 따옴표를 쓰지 않는다

 

qplot 함수 활용법

x <- c('a','b','b','c')

qplot(x)

x 변수에 c 함수를 활용해 데이터 값을 넣고 qplot 함수를 사용합니다.

기본적으로 qplot함수는 데이터의 빈도그래프를 출력합니다.

 

x 에는 a, b, c 가 각각 1, 2, 1 개 있었기 때문에 아래와 같은 빈도 그래프가 출력됩니다.

 

출력 그래프

* 주의 : qplot 은 ggplot2 라이브러리 내의 함수로 꼭 패키지 인스톨 및 라이브러리 등록이 되어야 사용 가능합니다.

 

qplot 함수 박스 그래프, 선 그래프로 출력

qplot(data=mpg, x=drv, y=hwy)
qplot(data=mpg, x=drv, y=hwy, geom="line")
qplot(data=mpg, x=drv, y=hwy, geom="boxplot")

기본적으로 등록되어있는 mpg 데이터를 활용해 qplot 함수를 실습해보았습니다.

mpg 데이터는 기본적인 R사용법 실습을 위해 기본 내장되어있는 미국 내 자동차 관련 데이터입니다.

 

qplot함수의 문법

함수명 ( 데이터=누구, x=누구, y=누구, 형태="어떤 거", ~etc)

최소한 data, x, y는 설정해야 하며 geom 은 어떤 형태로 그래프를 출력할 것인지 결정하는 옵션입니다.

 

 

1,2,3

위의 qplot함수를 출력하면 다음과 같이 출력됩니다.

1. 형태 조건 없을 때 -> 점

2. geom="line" -> 선

3. geom="boxplot" -> 박스 플랏 형태

 

R 기초 함께 공부해요

 

변수 지정/ 변수 정의

a <- 1
b <- 2

R은 명령어 구조는

좌변은 자리 "-에"

"<-"가 서술어 "넣는다"

우변은 대상 "-를"

로 볼수있다.

 

편하게

"왼쪽 변수에 오른쪽 내용을 넣는다."로 이해할 수 있다.

 

위의 명령어는

a <- 1 : a에 1을 넣는다.

b <- 2 : b에 2를 넣는다.

로 해석 가능하다.

 

이렇게 입력해준 후 각각의 행에서 실행[컨트롤 + 엔터 (ctrl + enter)]를 눌러주면 

Environment 창에 변수가 입력된 것을 확인할 수 있다.

 

주의! 위처럼 변수 정의 식을 써주더라도 실행시키지 않으면, 변수가 정의되지 않는다.

꼭 입력 후 실행을 해주는 것이 중요하다.

 

 

변수 입력 확인

 

사칙연산

이제 각각의 값이 정의됐기 때문에 사칙연산이 가능하다.

a + b
=> 3
a + b + 3
=> 6

10/b
=> 5

a에는 1이, b에는 2가 들어있기 때문에 a+b를 입력하면 3이 출력되고, a+b+3은 6이 출력된다.

 

당연히 더하기 빼기 말고 나누기도 가능해 10/b는 10/2와 같아 5가 출력된다.

 

 

변수 정의 덮어 씌우기

a <- 1
a <- 2

위처럼 a에 1을 넣고, 다시 a에 2를 넣었다고 하자. 

그러면 a를 출력하면 뭐가 나올까?

 

첫 행에서 a는 1이 되었고, 두번째 행에서 a 는 2 가 되었기 때문에, a를 출력하면 2가 나올 것이다.

 

즉, 변수 정의는 덮어씌우기가 가능하다. 나중에 실행한 것이 최종 결과물이 된다.

 

 

주석 넣기

a <- 1 #가나다라마바사

#가나다라마바바
a<-1

R도 다른 프로그래밍 언어처럼 주석이 있다. 주석이란 실제 명령어로 입력되지 않으면서 코드에 남겨둘 수 있는 메모와도 같다. 일종의 댓글로 볼 수 있다.

 

써놓은 코드를 주석 처리해 임시적으로 사용하지 않게 만들 수도 있다.

 

# 입력 후 이어지는 글은 모두 주석으로 처리된다. 띄어쓰기도 관계없다.

엔터를 통해 줄 바꿈을 하지 않는 이상 모두 주석으로 처리된다. 위 코드처럼 하나의 줄에 연속해서 작성할 수도 있고, 줄을 달리하며 작성할 수도 있다.

 

R상에서 주석은 기울어져 기존 코드와 다른 색상으로 표시되어 구분할 수 있다.

+ Recent posts