데이터 프레임 만들기 data.frame (1)

english <- c(50, 80, 60, 70)
math <- c(50,60,100,20)

df_midterm <- data.frame(english, math)

R에서 데이터 프레임은 일종의 '표'와 같다고 이해하면 편합니다. 

행과 열로 구성되어있고 각각 셀에 값이 대응되는 구조입니다.

 

array, vector 등 다양한 class가 있지만, data frame이 가장 대중적으로 사용하는 것 같습니다.

 

위의 코드를 실행하면

# english
[1] 50 80 60 70

# math
[1]  50  60 100  20

# df_midterm
english math
1      50   50
2      80   60
3      60  100
4      70   20

df_midterm 에는 위와 같은 data frame이 삽입됩니다. 

4가지씩 요소를 가지고 있는 english, math라는 열 두 개가 병렬로 순서대로 합쳐지는 방식입니다.

 

 

데이터 프레임 만들기 data.frame (2)

df_midterm2 <- data.frame(english=c(50,80,60,70), 
                          math=c(50,60,100,20)) 

1번 방법은 english, math를 각각 c 함수로 변수 지정을 해준 후 column을 합쳐서 data frame을 만드는 방법입니다.

 

 

2번 방법은 data frame속 english, math column과 요소 값을 한 번에 만드는 방법입니다.

# df_midterm2

  english math
1      50   50
2      80   60
3      60  100
4      70   20

1번에서 했던 방법과 동일한 결과물이 출력됩니다.

 

 

엑셀 열기/로드 readxl

install.packages("readxl")
library(readxl) 

R에서 excel을 열기 위해서 "readxl" 패키지를 사용합니다.

위처럼 install을 해주고 library로 로드시킵니다.

 

역시 ""사용 여부에 주의해야 합니다.

 

이제 엑셀을 열기 위한 준비가 된 상태이고 이제 파일을 열어줍니다. 

df_1 <- read_excel("파일이름.확장자")

read_excel이라는 함수를 통해서 엑셀 파일을 불러옵니다.

 

이때 주의해야 하는 것은 ""따옴표 사용과 파일명 전체를 다입력하고 확장자명까지 입력해야 한다는 점.

 

그리고 R project의 같은 working directory에 들어있어야 한다는 것입니다.

 

만약 같은 워킹 디렉터리 폴더에 있지 않은 excel파일을 오픈하려고 하면 파일 주소를 ""따옴표 사이에 전체적으로 적어주면 됩니다.

 

위 코드의 의미 :  df_1이라는 변수에 read_excel을 통해서 "파일 이름. 확장자" 엑셀 파일을 저장한다.

ggplot2 패키지 로드

install.packages("ggplot2")

library(ggplot2)

처음에는 ggplot2를 설치해줘야 합니다. 그 이후 library에 ggplot2를 등록하는 두 단계를 거쳐야 합니다.

install은 1회만 해주면 되지만, library는 실행 때마다 등록해주어야 합니다.

 

* 주의 : 설치시 "따옴표"를 쓰지만, library 등록 시 따옴표를 쓰지 않는다

 

qplot 함수 활용법

x <- c('a','b','b','c')

qplot(x)

x 변수에 c 함수를 활용해 데이터 값을 넣고 qplot 함수를 사용합니다.

기본적으로 qplot함수는 데이터의 빈도그래프를 출력합니다.

 

x 에는 a, b, c 가 각각 1, 2, 1 개 있었기 때문에 아래와 같은 빈도 그래프가 출력됩니다.

 

출력 그래프

* 주의 : qplot 은 ggplot2 라이브러리 내의 함수로 꼭 패키지 인스톨 및 라이브러리 등록이 되어야 사용 가능합니다.

 

qplot 함수 박스 그래프, 선 그래프로 출력

qplot(data=mpg, x=drv, y=hwy)
qplot(data=mpg, x=drv, y=hwy, geom="line")
qplot(data=mpg, x=drv, y=hwy, geom="boxplot")

기본적으로 등록되어있는 mpg 데이터를 활용해 qplot 함수를 실습해보았습니다.

mpg 데이터는 기본적인 R사용법 실습을 위해 기본 내장되어있는 미국 내 자동차 관련 데이터입니다.

 

qplot함수의 문법

함수명 ( 데이터=누구, x=누구, y=누구, 형태="어떤 거", ~etc)

최소한 data, x, y는 설정해야 하며 geom 은 어떤 형태로 그래프를 출력할 것인지 결정하는 옵션입니다.

 

 

1,2,3

위의 qplot함수를 출력하면 다음과 같이 출력됩니다.

1. 형태 조건 없을 때 -> 점

2. geom="line" -> 선

3. geom="boxplot" -> 박스 플랏 형태

 

* =>  표시는 해당 행을 실행시켰을 때 출력되는 결과를 표기한 것입니다.

 

단일 변수 정의/변수 지정

#숫자
a <- 1
b <- 2


#문자
a <- 'hello'
b <- "hello world"

R의 기본문법인 변수 정의는 우측의 내용을 좌측에 정의한다. 덮어 씌운다 라는 뜻으로 볼 수 있다.

 

*항상 그랬듯 R에서 입력만 하고 끝나면 안 되고 윈도에서는 컨트롤 + 엔터 맥에서는 command + 엔터 를 꼭 입력해서 각 코드를 실행시켜줘야 입력이 된다.

 

변수가 아닌 문자를 입력해줄 때는 '', "" 따옴표 둘 중 하나를 사용해서 감싸줘야 한다.

 

복합 변수 정의/변수 지정

숫자
a <- c(1,2,3)
=> 1,2,3

b <- c(1:4)
=> 1,2,3,4

문자
c <- c("hello","world")
d <- c('hello','world')

하나의 변수에 여러 개의 숫자를 넣고 싶을 땐 c함수를 사용한다.

* R은 대소문자를 구분하기 때문에, C가 아니라 c로 넣는 것에 주의한다.

 

하나하나 숫자를 선택하고 싶다면 콤마, 로 구분해주면 되고,

연속된 숫자를 넣고 싶다면 (시작 값 : 끝 값)으로 콜론으로 구성해주면 된다.

 

하나의 변수에 문자를 여러 개를 넣을 때도 c함수를 사용한다.

이때도 역시나 "", '' 둘 중 하나 따옴표를 사용해서 문자라는 것을 인식시켜주면서 삽입해야 한다.

 

 

변수 평균/최댓값/최솟값/중앙값

a <- c(1,2,3)
=> 1, 2, 3

mean(a)
=> 2

median(a)
=> 2

max(a)
=> 3

min(a)
=> 1

a에 연속된 1, 2, 3 숫자를 넣었을 때 각각의 평균, 중앙값, 최댓값, 최솟값을 구하는 방법이다.

 

평균은 mean

중앙값은 median

최댓값은 max

최솟값은 min

을 사용하고, 그 뒤에 괄호 안에 어떤 변수를 선택할 것인지 넣으면 된다.

 

R에서 함수의 기본 문법은 함수 이름(변수 : 목적/대상)으로 이해할 수 있다.

한국말로 풀면 동사(목적어) 에 해당한다.

 

 

 

[R기초] 통계프로그램 R 공부 (1) 변수 설정, 사칙연산, 주석 넣기

변수 지정/ 변수 정의 a R은 명령어 구조는 좌변은 자리 "-에" " 우변은 대상 "-를" 로 볼수있다. 편하게 "왼쪽 변수에 오른쪽 내용을 넣는다."로 이해할 수 있다. 위의 명령어는 a b 로 해석 가능하다

slowslow.tistory.com

 

+ Recent posts