# for 문 (for loop/statement) 형식
for (<var> in <interval>) { <repeated_work> }
# 설정한 변수 <var>가 지정된 구간 <interval>에서 변하면서
# 문장 <repeated_work>을 반복실행
# 반복문; for loop ----
for (i in 1:3) {
print(i)
}
for (i in c("a", "b", "c")){
print(i)
}
for(i in 5:3){
print(i)
}
# 반복문 : 1~1000합 구하기 ----
sss = 0
for(i in 1:100){
sss = sss + i
}
## exercise ----
x = 3
for(i in 1:5){
x = x*2
}
sss = 0
for(i in 100:200){
sss = sss + i
}
kk = 1
for(i in 1:10){
kk = kk*i
}
kk == factorial(10)
# 반복문: 정규분포 ----
vec = rnorm(100,7,3)
sum1 = 0
for(i in 1:length(vec)){
sum1 = sum1 + vec[i]
}
m = sum1/length(vec)
## exercise ----
vec2 = rnorm(100, 5, 2)
sum2 = 0
for(i in 1:length(vec2)){
sum2 = sum2 + vec2[i]
}
m2 = sum2/length(vec2)
sum3 = 0
for(i in 1:length(vec2)){
sum3 = sum3 + vec2[i]^2
}
var1 = (sum3 - length(vec2)*m2^2)/(length(vec2)-1)
var1
R에서의 반복문은 파이썬에서의 반복문과 조금 다를 뿐 원리는 비슷함.
WHILE문
# while문(while loop/statement)
while(<condition>) { <repeated_work> }
# 반복할 조건 <condition>의 참 거짓을 판별하여
# 참인 경우 문장 <repeated_work>을 반복 실행
# 주어진 조건을 만족하는 동안 무한 반복하기 때문에 예상과 달리 루프에 갇히게 되면 break해야함.
# 반복문: while문 ----
x = 3
while(x<1000){
x = x*2
}
print(x)
# 결과가 다르다는 걸 느끼기
# 1
i = 0
sss = 0
while(i <= 100){
i = i + 1
sss = sss + i
}
sss # 5151
# 2
i = 0; sss = 0
while(i <= 99){
i = i + 1
sss = sss + i
}
sss # 5050
# 3
i = 0; sss = 0
while(i <= 100){
sss = sss + i
i = i + 1
}
sss # 5050
# 100~200합 구하기
i = 100
sss = 0
while(i <= 200){
sss = sss + i
i = i + 1
}
sss
# 1부터 10까지의 곱과 factorial 비교
i = 1
sss = 1
while(i <= 10){
sss = sss*i
i = i + 1
}
sss == factorial(10)
# example
# 처음으로 합이 100을 넘기는 n값 찾기
n = 0 ; n.sum = 0
while(n.sum <= 100){
n = n + 1
n.sum = n.sum + n
}
## practice ----
n = 0
while(n.sum <= 100000){
n = n + 1
n.sum = n.sum + n
}
n = 0
n.fac = 1
while(n.fac <= 1000000){
n = n + 1
n.fac = n.fac * n
}
repeat문
# repeat문
repeat{<repeated_work>}
# 작업 <repeated_work>을 무한 반복하다가 break 조건을 만족하면 stop
# 반복문: repeat ----
n = 0
sss = 0
repeat{
n = n + 1
sss = sss + n
if (n >= 100) break
}
# 이산확률분포 - random number 활용
x = 0:n
y = dbinom(x, n, p)
plot(x,y,
type = "h", xlim = c(0,n), lwd = 3, col = "tomato")
# 추출하는 난수의 개수 조정
n = 25
p = 0.2
random.x10 = rbinom(10, n, p)
plot(table(random.x10), xlim = c(0,n),
lwd = 3, col = "red")
mean(random.x10) ; var(random.x10)
random.x100 = rbinom(100, n, p)
plot(table(random.x100), xlim = c(0,n),
lwd = 3, col = "red")
mean(random.x100) ; var(random.x100)
random.x1000 = rbinom(1000, n, p)
plot(table(random.x1000), xlim = c(0,n),
lwd = 3, col = "red")
mean(random.x1000) ; var(random.x1000)
result = data.frame(n = c(10, 100, 1000),
mean = c(NA),
var = c(NA))
result[1,2:3] = c(mean(random.x10), var(random.x10))
result[2,2:3] = c(mean(random.x100), var(random.x100))
result[3,2:3] = c(mean(random.x1000), var(random.x1000))
result
추출하는 개수가 높아질수록 이론적인 평균값에 가까워진다는 것을 확인할 수 있음.
연속확률분포
## 연속확률분포 ----
### 정규분포 ----
rnorm(10, mean = 0, sd = 1)
random.x = rnorm(100)
mean(random.x) ; var(random.x)
# random number로 hist/curve 그리기
?hist
hist(random.x, probability = T, main = "Normal(0,1)")
# random number로 hist/curve 그리기
hist(random.x, probability = T, main = "Normal(0,1)")
# probability = T에 대한 의미 ----
# probability = T >> 상대도수
# probability = F >> 빈도수
curve(dnorm(x), add = T, col ="tomato", lwd = 3)
t-분포
### t-분포 ----
set.seed(123)
random.x = rt(100, 2.5)
hist(random.x, probability = T, main = "t-dist")
result = data.frame(
n = c(30, 50, 100, 2000),
mean = c(NA),
variance = c(NA)
)
x30 = rt(result[1,1], 2.5)
x50 = rt(result[2,1], 2.5)
x100 = rt(result[3,1], 2.5)
x2000 = rt(result[4,1], 2.5)
result
set.seed(123)
result[1,2:3] = c(mean(x30), var(x30))
result[2,2:3] = c(mean(x50), var(x50))
result[3,2:3] = c(mean(x100), var(x100))
result[4,2:3] = c(mean(x2000), var(x2000))
result = rbind(c(NA, 0, 2.5/(2.5-2)), result)
result
setwd("C:\\Users\\user\\OneDrive - 경북대학교\\통계학과\\1-2\\R프로그래밍 및 실험")
#1
dat1 = read.csv("w7_2 csv.csv") # 띄어쓰기를 .으로 구분함
#2
dat1 = readr::read_csv("w7_2 csv.csv") # 띄어쓰기 있는 곳은 ``으로 묶어서 표기
시각화를 통해 데이터 분포 확인
히스토그램
hist(dat1$나이)
기호에 따라서 히스토그램을 더 보기 좋게 만들 수 있음.
hist(dat1$나이, main = "예제데이터의 나이(1)",
xlab = "age", ylab = "빈도")
# x축의 이름: xlab
# y축의 이름: ylab
hist(dat1$나이, main = "예제데이터의 나이(2)",
xlab = "age", ylab = "빈도", breaks = 10)
# break를 통해 그래프를 더 나누어줄 수 있음.
산점도
plot(x = dat1$나이, y = dat1$`성취도 점수`) # 기본적인 형태
plot(x = dat1$나이, y = dat1$`성취도 점수`,
main = "나이에 대한 성취도", xlab = "나이",
ylab = "성취도") # 알아보기 쉽게 만듦.
plot (formula = `성취도 점수`~`나이`, data = dat1,
main = "나이에 대한 성취도", xlab = "나이",
ylab = "성취도") # 2번째와 똑같은 그래프인데, 형태가 다름.
plot(formula = `우울 점수`~`나이`, data = dat1,
main = "나이에 대한 우울 점수", xlab = "나이",
ylab = "우울 점수",
col = c("red", "blue")[factor(성별)], cex = 1.5,
pch = c(20, 18)[factor(성별)])
# col 색 변경 / pch 점 모양 / cex 점 크기
직선 추가하기
# y = a+bx
abline(a = -20, b = 1,
col = "dark green", lty = "dotted", lwd = 2.0)
# y = h
abline(h = 40,
col = "dark red", lty = "dotted", lwd = 2.0)
# x = v
abline(v = 50,
col = "dark blue", lty = "dotted", lwd = 2.0)
# 평활 직선
lines(stats::lowess(x = dat1$나이, y = dat1$`우울 점수`),
col = "dark red")
h = horizontal line
v = vertical line
참고
지수평활법
가장 최근데이터에가장 큰가중치가 주어지고 시간이 지남에 따라(과거로 갈수록) 가중치가 기하학적으로 감소되는 가중치이동 평균예측 기법의 하나. 데이터들이 시간의 지수 함수에 따라 가중치를 가지므로지수 평활법이라고 한다. 이 기법은 가장 최근의 예측 데이터와 주요 판매 데이터 간의 차이에 적합한 평활 상수를 사용함으로써 과거의 데이터를 유지할필요성을 갖지 않는다. 이러한접근 방법은 어떤 추세를 갖지 않거나 계절적인 패턴을 나타내는 데이터 또는 추세와 계절성을 모두 갖는 데이터에 사용될 수 있다.
# 변수 SUBJECT를 기준으로 crop 자료를 분할
head(crop[crop$SUBJECT == unique(crop$SUBJECT)[1]], n = 2)
head(crop[crop$SUBJECT == unique(crop$SUBJECT)[2]], n = 2)
head(crop[crop$SUBJECT == unique(crop$SUBJECT)[3]], n = 2)
head(crop[crop$SUBJECT == unique(crop$SUBJECT)[4]], n = 2)
# LOCATION에 포함된 값을 오름차순으로 저장한 목록 생성
loc.list = unique(crop$LOCATION, decreasing = F)
# 생성한 목록 내 세 번째 값을 LOCATION 값으로 가지는 관찰값을 crop3로 저장
crop3 = crop[crop$LOCATION == loc.list[3],]
### split(x = <data>, f = <key_factor>)
insect_gp = split(InsectSprays, f = InsectSprays$spray)
str(insect_gp) # list로 저장됨.
insect_gp$D # indexing
crop_split = split(crop.raw, f = crop.raw$SUBJECT)
# 이렇게 하면 원래 SUBJECT 안에 있던 값들
# "RICE" "WHEAT" "MAIZE" "SOYBEAN"
# 각각의 이름으로 data 프레임이 만들어짐.
# 한 마디로 list 안에 data frame 이 4개가 있는데
# 그 각각의 이름들이 "RICE" "WHEAT" "MAIZE" "SOYBEAN"
str(crop_split)
nrow(crop_split$MAIZE) ; nrow(crop_split[[1]])
nrow(crop_split$RICE) ; nrow(crop_split[[2]])
nrow(crop_split$SOYBEAN) ; nrow(crop_split[[3]])
nrow(crop_split$WHEAT) ; nrow(crop_split[[4]])
근데 아래와 같이 반복해서 나타내기에는 코드가 너무 길어짐.
그래서 lapply(), sapply() 사용
- X의 각 원소에 FUN(함수)을 적용하고 그 결과를 list 또는 vector로 반환하는 함수
- lapply(x = <list>, FUN = <function>) # list로 반환
- sapply( x = <list>, FUN = <function> ) # vector로 반환