출처 : 데이콘 

train.csv : 모델을 학습하기 위해 사용하는 데이터

test.csv : 모델을 통해 정답을 예측하기 위해 사용하는 데이터

sample_submission.csv : 예측한 정답 값을 기록하여 제출하기 위한 샘플 정답 파일 

 

 

순서 (출처: 데이콘, 영화 관객 수 예측 프로젝트)

1. 데이터 불러오기

2. 데이터 확인

3. 데이터 이해

4. 결측치 이해

5. 결측치 처리 

6. 모델 구조의 이해 

7. 모델링 

 

 

 

반복문

- 문장을 반복 실행하는 경우에 사용 

 

FOR문

# for 문 (for loop/statement) 형식
for (<var> in <interval>) { <repeated_work> }

# 설정한 변수 <var>가 지정된 구간 <interval>에서 변하면서 
# 문장 <repeated_work>을 반복실행

 

 

# 반복문; for loop ----
for (i in 1:3) {
    print(i)
}

for (i in c("a", "b", "c")){
    print(i)
}

for(i in 5:3){
    print(i)
}

# 반복문 : 1~1000합 구하기 ----
sss = 0 
for(i in 1:100){
    sss = sss + i
}


## exercise ----
x = 3
for(i in 1:5){
    x = x*2
}

sss = 0
for(i in 100:200){
    sss = sss + i
}

kk = 1
for(i in 1:10){
    kk = kk*i
}
kk == factorial(10)

# 반복문: 정규분포 ----
vec = rnorm(100,7,3)

sum1 = 0 
for(i in 1:length(vec)){
    sum1 = sum1 + vec[i]
}
m = sum1/length(vec)


## exercise ----
vec2 = rnorm(100, 5, 2)

sum2 = 0
for(i in 1:length(vec2)){
    sum2 = sum2 + vec2[i]
}
m2 = sum2/length(vec2)

sum3 = 0
for(i in 1:length(vec2)){
    sum3 = sum3 + vec2[i]^2                    
}
var1 = (sum3 - length(vec2)*m2^2)/(length(vec2)-1)
var1

 

R에서의 반복문은 파이썬에서의 반복문과 조금 다를 뿐 원리는 비슷함. 

 

 

WHILE문

# while문(while loop/statement) 
while(<condition>) { <repeated_work> }

# 반복할 조건 <condition>의 참 거짓을 판별하여
# 참인 경우 문장 <repeated_work>을 반복 실행
# 주어진 조건을 만족하는 동안 무한 반복하기 때문에 예상과 달리 루프에 갇히게 되면 break해야함.
# 반복문: while문 ----
x = 3
while(x<1000){
    x = x*2
}
print(x)

# 결과가 다르다는 걸 느끼기 
# 1
i = 0 
sss = 0
while(i <= 100){
    i = i + 1
    sss = sss + i
}
sss  # 5151

# 2 
i = 0; sss = 0
while(i <= 99){
    i = i + 1
    sss = sss + i
}
sss # 5050

# 3
i = 0; sss = 0
while(i <= 100){
    sss = sss + i
    i = i + 1
}
sss  # 5050

# 100~200합 구하기
i = 100
sss = 0
while(i <= 200){
    sss = sss + i
    i = i + 1
}
sss


# 1부터 10까지의 곱과 factorial 비교
i = 1
sss = 1
while(i <= 10){
    sss = sss*i
    i = i + 1
}
sss == factorial(10)


# example
# 처음으로 합이 100을 넘기는 n값 찾기
n = 0 ; n.sum = 0
while(n.sum <= 100){
    n = n + 1
    n.sum = n.sum + n
}

## practice ----
n = 0
while(n.sum <= 100000){
    n = n + 1
    n.sum = n.sum + n
}

n = 0
n.fac = 1
while(n.fac <= 1000000){
    n = n + 1
    n.fac = n.fac * n
}

 

repeat문

# repeat문 
repeat{<repeated_work>}

# 작업 <repeated_work>을 무한 반복하다가 break 조건을 만족하면 stop
# 반복문: repeat ----
n = 0
sss = 0
repeat{
    n = n + 1
    sss = sss + n
    if (n >= 100) break
}

이산확률분포 

# 이산확률분포 - random number 활용
x = 0:n
y = dbinom(x, n, p)
plot(x,y,
     type = "h", xlim = c(0,n), lwd = 3, col = "tomato")

 

# 추출하는 난수의 개수 조정 
n = 25
p = 0.2
random.x10 = rbinom(10, n, p)

plot(table(random.x10), xlim = c(0,n),
     lwd = 3, col = "red")

mean(random.x10) ; var(random.x10)


random.x100 = rbinom(100, n, p)
plot(table(random.x100), xlim = c(0,n),
     lwd = 3, col = "red")
mean(random.x100) ; var(random.x100)

random.x1000 = rbinom(1000, n, p)
plot(table(random.x1000), xlim = c(0,n),
     lwd = 3, col = "red")
mean(random.x1000) ; var(random.x1000)

result = data.frame(n = c(10, 100, 1000),
                    mean = c(NA),
                    var = c(NA))

result[1,2:3] = c(mean(random.x10), var(random.x10))  
result[2,2:3] = c(mean(random.x100), var(random.x100))  
result[3,2:3] = c(mean(random.x1000), var(random.x1000))  

result

 

 

추출하는 개수가 높아질수록 이론적인 평균값에 가까워진다는 것을 확인할 수 있음.

 

 

 

연속확률분포

## 연속확률분포 ----
### 정규분포 ----
rnorm(10, mean = 0, sd = 1)
random.x = rnorm(100)
mean(random.x) ; var(random.x)

# random number로 hist/curve 그리기 
?hist
hist(random.x, probability = T, main = "Normal(0,1)")

 

# random number로 hist/curve 그리기 
hist(random.x, probability = T, main = "Normal(0,1)")
# probability = T에 대한 의미 ----
# probability = T >> 상대도수
# probability = F >> 빈도수

curve(dnorm(x), add = T, col ="tomato", lwd = 3)

 

 

t-분포

### t-분포 ----
set.seed(123)

random.x = rt(100, 2.5)
hist(random.x, probability = T, main = "t-dist")

result = data.frame(
    n = c(30, 50, 100, 2000),
    mean = c(NA),
    variance = c(NA)
)

x30 = rt(result[1,1], 2.5)
x50 = rt(result[2,1], 2.5)
x100 = rt(result[3,1], 2.5)
x2000 = rt(result[4,1], 2.5)

result

set.seed(123)

result[1,2:3] = c(mean(x30), var(x30))
result[2,2:3] = c(mean(x50), var(x50))
result[3,2:3] = c(mean(x100), var(x100))
result[4,2:3] = c(mean(x2000), var(x2000))

result = rbind(c(NA, 0, 2.5/(2.5-2)), result)

result

 

 

 

R에서 제공하는 분포 관련 함수

density function of dist.

- d### (x,  ...<parameters>...)

 

distribution function of dist. 

- p###(q, ...<parameters>...)   # = P(X <= q)

- q###(p, ...<parameters>...)   # p = P(X <= x) >>> {P(X <= x)}^(-1)

 

 

 

이산확률분포 

 

이항분포

## 이항분포 - pmf 활용 ----
n = 15
p = 0.2
x = 0:10

y1 = dbinom(x, n, p) ; y1
plot(x, y1, type = "h", lwd = 3, col = "blue4")

## 이항분포 - cdf 활용 ----
y2 = pbinom(x, n, p) ; y2
plot(x, y2, type = "h", lwd = 3, col = "tomato")
plot(x, y2, type = "s", lwd = 3, col = "tomato")

## 이항분포 - check qbinom value ----
x; y2
qbinom(y2[2], n, p) == x[2]

 

 

포아송분포

## 포아송 분포 - pmf 활용 ----
lam = 2.5
x = 0:10
y1 = dpois(x, lam)

plot(x, y1, type = "h", lwd = 3, col = "blue4")


## 포아송 분포 - cdf 활용 ----
y2 = ppois(x, lam)
plot(x, y2, type = "h", lwd = 3, col = "tomato")
plot(x, y2, type = "s", lwd = 3, col = "tomato")

## 포아송 분포 - 값 찾기 ----
qpois(0.3456, lam)

 

 

 

연속확률분포

 

정규분포

## 정규분포 - pdf 활용 ----
mu = 0
sig = 1
x = seq(-5, 5, length = 20)

y2 = dnorm(x, mu, sig)
plot(x, y2, type = "h", lwd = 3, col = "blue4")

## 정규분포 - cdf 활용 ----
y3 = pnorm(x, mu, sig)
plot(x, y3, type = "s", lwd = 3, col = "tomato")

## 정규분포 - 값 찾기 ----
qnorm(y3, mu, sig) < qnorm(0.7, mu, sig)

 

 

t-분포

## t-분포 - pdf 활용 ----
df1 = 5
x = seq(-5, 5, length = 20)

y1 = dt(x, df1)
plot(x, y1, type = "h", lwd = 3, col = "blue4")

## t-분포 - cdf 활용 ----
y2 = pt(x, df1)
plot(x, y3, type = 's', lwd = 3, col = "tomato")

## t=분포 - 값 찾기 ----
qt(0.2, df1)

 

 

카이제곱분포

## 카이제곱분포 - pdf 활용 ----
df2 = 7
x = seq(0,30, length = 20)

y1 = dchisq(x, df2)
plot(x, y1, type = "h", lwd = 3, col = "blue4")

## 카이제곱분포 - cdf 활용 ----
y2 = pchisq(x, df2)
plot(x, y2, type = "s", lwd = 3, col = "tomato")


## 카이제곱분포 - 값 찾기 ----
qchisq(0.65, df1) + qchisq(0.65, df2)

이산확률분포

 

이산균등분포

> n개의 불연속적인 값을 가지는 확률변수 X가 아래와 같은 pmf를 가질 때 이산균등분포를 따른다고 하고, 

> X~U(a,b) 혹은 X~unif(a,b)로 표기함.

 

p(x) = 1/n , x = a, a+1, .... ,b 

## 이산균등분포 (Discrete uniform distribution) ----
n = 10
p = 1/n
x = 1:n
p.x = rep(p, n)
plot(x, p.x, xlim = c(1,n), ylim = c(0,1))

 

 

 

베르누이 시행

> 결과가 오직 두 가지 결과만을 가지고 성공할 확률이 일정한 실험

 

이항분포 

> 이항실험에 대해서 n번 시행 중 꼭 x번의 성공할 확률

> 베르누이 시행을 n회 시행했을 때 나오는 총 성공 횟수를 확률변수 X라고 하면, x는 이항분포를 따르며,

> X~B(n,p) 혹은 X~bin(n,p)로 표기함. 

## 이항분포 (Binomial distribution) ----
n = 10
p = 1/5
x = 1:n
p.x = choose(n,x)*p^x*(1-p)^(n-x)  # nCx
plot(x, p.x,
     xlim = c(1,n),
     ylim = c(0,1),
     main = "Binomial Dist.",
     col = "red")

 

 

포아송분포

> 일정한 구간에서 특정 사건이 일어나는 건수에 대한 분포 

> 조건

1. 주어진 구간에서 사건의 평균 발생횟수는 구간의 시작점과 관계가 없고 구간의 길이에만 영향을 받음.

2. 랜덤 발생: 한 순간에 2회 이상의 사건이 발생할 확률은 거의 0에 가까움.

3. 독립적으로 발생: 한 구간에서 사건의 횟수는 겹치지 않는 다른 구간에서 발생하는 사건의 횟수에 영향을 받지 않음. 

> 예) 일주일 동안(구간) 어느 고속도로에서 발생하는 교통사고 건수(특정 사건이 일어나는 건수) 

 

## 포아송 분포 (Poisson distribution) ----
n = 100
mu = 15
x = 0:n 
p.x = (exp(1)^(-mu)*mu^x)/factorial(x)
plot(x, p.x, xlim = c(1,n), ylim = c(0,1),
     main = "Poisson dist.", col = "blue",
     pch = 20)

 

기하분포

1.

> 특정 사건이 발생할 확률이 p로 일정할 때 해당 사건이 발생할 때까지 시행한 횟수를 확률변수 X라고 하자.

> 이때 x번째에 사건이 발생할 확률은 

> p(x) = (1-p)^(x-1) * p     x = 0, 1, .....

 

2. 

> 특정 사건이 발생할 확률이 p로 일정할 때 해당 사건이 발생할 때까지 실패한 횟수를 확률변수 X라고 하자.

> 이때 x번 실패 후 사건이 발생할 확률은 

> p(x) = (1-p)^x*p        x = 0, 1, .........

 

## 기하분포 (Geometric distribution)
n = 100
p = 1/3
x = 0:n
p.x = (1-p)^(x-1)*p
plot(x, p.x, xlim = c(0,n), ylim = c(0,1),
     main = "Geometric Dist.", col = "grey", pch = 20)

 

 

 

연속확률분포

 

연속균등분포 

> 구간 (a,b)에 있는 값을 가지는 확률변수 X가 아래와 같은 pdf(probability density function)를 가질 때 연속 균등 분포를 따른다고 하고, X~U(a,b) 혹은 X~unif(a,b)로 표기함.

p(x) = 1/(b-a) # x는 a,b 구간에 속해있다.

 

+ 연속형 분포의 그래프 그리기 

이산형과 달리 연속형은 'continuous'한 직선 혹은 곡선으로 표현 

 - 이산형 분포 그리기에서는 정의역 값을 vector로 묶어 지정하는 식으로 구현 가능

 - 이산형과 달리 연속형의 변수 값은 '구간' 형태

 

정의역 x의 구간과 x가 포함된 함수/표현식(expression)을 설정해주면 직/곡선을 그려주는 함수 활용

 - curve(expr, from = Null, to = Null, ...)

 -- expr에 x가 포함된 함수의 표현식을 설정 

 -- from,to에 각각 구간의 시작점과 끝점을 설정

 -- 기타 plot, hist에서 쓰는 옵션 지정 가능 

 

# X ~ U (0, 10)

n = 10
curve(1/n, from = 0, to = n, col = 2, lwd = 3)

 

그런데 이런 식으로 하면은 안됨. 위에서 curve의 expr에서 x가 포함된 함수의 표현식을 설정해서 나타내라고 했는데 그렇게 되지 않음. 이렇게 실행하면 다음과 같은 에러가 나옴.

 

 

따라서 이런 식으로 코드를 짜야함. 

curve(x/x/n, from = 0, to = n, col = 2, lwd = 3)

 

# X ~ U(2.3, 7.6)
n = 100
a = 2.3 
b = 7.6

curve(x/x/(b-a), a, b, col = 4, lwd = 3)

 

 

정규분포

> 대표적인 연속확률분포로 평균을 중심으로 좌우대칭이며 bell-shape을 가진 분포

## 정규분포 (normal distribution) ----
mu = 0 
var = 1^2

expr = (1/sqrt(2*pi*var))*exp(-(x-mu)^2/(2*var))
curve((1/sqrt(2*pi*var))*exp(-(x-mu)^2/(2*var)), -50, 50, col = 4, lwd = 3)

 

 

t - 분포 (Student's t - distribution)

> 평균 0 중심으로 좌우대칭인 bell-shape이며, 자유도 v에 의해 결정됨.

> 자유도가 커질수록 정규분포에 가까워지는 특징을 가짐. 

## t-분포 (Student's t - distribution) ----
nu = 3
curve((gamma((nu+1)/2))/sqrt(nu*pi)*gamma(nu/2)*(1+x^2/nu)^(-(nu+1)/2), -10, 10, col = 4, lwd = 3)

 

카이제곱분포 (Chi-square distribution)

> k개의 서로 독립인 (표준)정규확률변수를 제곱하여 합하여 얻은 변수의 분포

> 분포곡선은 수직축의 오른쪽에 위치하며, 모양은 자유도가 작은 경우에는 비대칭이고, 자유도가 증가함에 따라 대칭 모양에 가까워짐. 

## 카이제곱분포 (Chi-square distribution) ----
curve(1/(2^(nu/2)*gamma(nu/2))*x^((mu/2)-1)*exp(-(x/2)), 0, 10, col = 4, lwd = 3)

데이터를 시각화 하기 전에 파일 불러오기

setwd("C:\\Users\\user\\OneDrive - 경북대학교\\통계학과\\1-2\\R프로그래밍 및 실험")

#1
dat1 = read.csv("w7_2 csv.csv") # 띄어쓰기를 .으로 구분함
#2
dat1 = readr::read_csv("w7_2 csv.csv") # 띄어쓰기 있는 곳은 ``으로 묶어서 표기

1번
2번

 

시각화를 통해 데이터 분포 확인

 

히스토그램

hist(dat1$나이)

 

 

기호에 따라서 히스토그램을 더 보기 좋게 만들 수 있음.

hist(dat1$나이, main = "예제데이터의 나이(1)",
     xlab = "age", ylab = "빈도") 
     
# x축의 이름: xlab
# y축의 이름: ylab

 

 

hist(dat1$나이, main = "예제데이터의 나이(2)",
     xlab = "age", ylab = "빈도", breaks = 10)
     
# break를 통해 그래프를 더 나누어줄 수 있음.

 

 

 

 

산점도

plot(x = dat1$나이, y = dat1$`성취도 점수`) # 기본적인 형태
plot(x = dat1$나이, y = dat1$`성취도 점수`,
     main = "나이에 대한 성취도", xlab = "나이",
     ylab = "성취도") # 알아보기 쉽게 만듦.

plot (formula = `성취도 점수`~`나이`, data = dat1,
      main = "나이에 대한 성취도", xlab = "나이",
      ylab = "성취도") # 2번째와 똑같은 그래프인데, 형태가 다름.

 

 

plot(formula = `우울 점수`~`나이`, data = dat1,
     main = "나이에 대한 우울 점수", xlab = "나이",
     ylab = "우울 점수",
     col = c("red", "blue")[factor(성별)], cex = 1.5,
     pch = c(20, 18)[factor(성별)])
     
# col 색 변경 / pch 점 모양 / cex 점 크기

 

직선 추가하기

# y = a+bx
abline(a = -20, b = 1,
       col = "dark green", lty = "dotted", lwd = 2.0) 

# y = h
abline(h = 40, 
       col = "dark red", lty = "dotted", lwd = 2.0) 

# x = v
abline(v = 50,
       col = "dark blue", lty = "dotted", lwd = 2.0)

# 평활 직선
lines(stats::lowess(x = dat1$나이, y = dat1$`우울 점수`),
      col = "dark red")
      
h = horizontal line
v = vertical line

 

참고

 

지수평활법

가장 최근 데이터 가장 큰 가중치가 주어지고 시간이 지남에 따라(과거로 갈수록) 가중치가 기하학적으로 감소되는 가중치 이동 평균 예측 기법의 하나. 데이터들이 시간의 지수 함수에 따라 가중치를 가지므로 지수 평활법이라고 한다. 이 기법은 가장 최근의 예측 데이터와 주요 판매 데이터 간의 차이에 적합한 평활 상수를 사용함으로써 과거의 데이터를 유지할 필요성을 갖지 않는다. 이러한 접근 방법은 어떤 추세를 갖지 않거나 계절적인 패턴을 나타내는 데이터 또는 추세와 계절성을 모두 갖는 데이터에 사용될 수 있다.

[네이버 지식백과] 지수 평활법 [exponential smoothing, 指數平滑法] (IT용어사전, 한국정보통신기술협회)

1. 데이터 읽어오기

# as 명령어로 pd 별칭 지정하기
import pandas as pd

# train.csv, test.csv, sample_submission.csv 파일을 읽어옵니다.
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
submission = pd.read_csv('sample_submission.csv')

 

2. 데이터 확인하기

# 데이터의 개수, 열 이름, 결측값의 수, 데이터 타입 등을 확인할 수 있습니다. 
train.info()

 

3. Column 열 확인

train.columns()

 

4. 데이터 기술 통계량 확인

train.describe()

 

5. 무작위 샘플데이터 확인하기 

train.sample(10)

 

6. 원하는 열의 평균값 얻기 

mean_target = train['열 이름'].mean()
mean_target

 

7. 데이터 프레임 csv 파일로 저장 후 확인

# to_csv를 통해 폴더에 저장
submission.to_csv('submission.csv', index = False)

'프로그래밍 > 프로젝트' 카테고리의 다른 글

ARIMA 모델  (0) 2024.05.21
데이콘 - 고객 대출 등급 분류 프로젝트  (1) 2024.02.09
고객 유지를 위한 필요한 행동 예측  (1) 2024.01.14
원본 데이터 보존  (0) 2023.11.28
머신러닝 기초 및 순서  (0) 2023.11.21

정렬 (sorting)

- 일반적으로 정렬하는 변수는 수치형이거나 문자형

- 종류: 오름차순, 내림차순

- 숫자 > 영어 > 한글

- sort(<object>, ...)

- 예시

c("a", "b", "가", "나", "1", "2")
vec = sample(c("a","b","가","나","1","2"), 10, replace = T)

sort(vec) # ascending
sort(vec, decreasing = T) # descending

sort(c("a", "b", NA), na.last = NA)
sort(c("a", "b", NA), na.last = TRUE) 
# NA의 값이 제일 뒤에 출력
sort(c("a", "b", NA), na.last = F) 
# NA의 값이 앞에서 출력

 

 

 

그룹화(grouping)

- 데이터 가공/전처리 과정 중 하나로 어떠한 특성을 기준으로 자료를 여러 개로 분할하는 작업

- 조건 활용

data(InsectSprays)
unique(InsectSprays$spray)
insect_gp.D = InsectSprays[InsectSprays$spray == "D",]
subset(InsectSprays, subset = (InsectSprays$spray == "D"))
insect_gp.D = InsectSprays[
    InsectSprays$spray == "D",
]
# 변수 SUBJECT를 기준으로 crop 자료를 분할
head(crop[crop$SUBJECT == unique(crop$SUBJECT)[1]], n = 2)
head(crop[crop$SUBJECT == unique(crop$SUBJECT)[2]], n = 2)
head(crop[crop$SUBJECT == unique(crop$SUBJECT)[3]], n = 2)
head(crop[crop$SUBJECT == unique(crop$SUBJECT)[4]], n = 2)

# LOCATION에 포함된 값을 오름차순으로 저장한 목록 생성
loc.list = unique(crop$LOCATION, decreasing = F)

# 생성한 목록 내 세 번째 값을 LOCATION 값으로 가지는 관찰값을 crop3로 저장
crop3 = crop[crop$LOCATION == loc.list[3],]
### split(x = <data>, f = <key_factor>)
insect_gp = split(InsectSprays, f = InsectSprays$spray)
str(insect_gp) # list로 저장됨.
insect_gp$D # indexing
crop_split = split(crop.raw, f = crop.raw$SUBJECT)
# 이렇게 하면 원래 SUBJECT 안에 있던 값들
# "RICE"    "WHEAT"   "MAIZE"   "SOYBEAN"
# 각각의 이름으로 data 프레임이 만들어짐. 
# 한 마디로 list 안에 data frame 이 4개가 있는데
# 그 각각의 이름들이 "RICE"    "WHEAT"   "MAIZE"   "SOYBEAN"
str(crop_split)
nrow(crop_split$MAIZE) ; nrow(crop_split[[1]])
nrow(crop_split$RICE) ; nrow(crop_split[[2]])
nrow(crop_split$SOYBEAN) ; nrow(crop_split[[3]])
nrow(crop_split$WHEAT) ; nrow(crop_split[[4]])

 

근데 아래와 같이 반복해서 나타내기에는 코드가 너무 길어짐.

그래서 lapply(), sapply() 사용

- X의 각 원소에 FUN(함수)을 적용하고 그 결과를 list 또는 vector로 반환하는 함수

- lapply(x = <list>, FUN = <function>) # list로 반환

- sapply( x = <list>,  FUN = <function> )  # vector로 반환 

- apply(x, margin, FUN) 

   >> x  는 matrix 또는 data.frame , 

   >> margin 은 어느 방향으로 할 건지 1은 행방향으로 2는 열방향으로 

   >> FUN은 함수 

 

예시

lapply(crop_split, nrow)
sapply(crop_split, nrow)

mat = matrix(1:111, nrow =3 )
apply(mat, 1, sum)
apply(mat, 2, sum)

 

데이터 프레임의 경우 (apply)

tmp = crop_split[[1]][, c("LOCATION", "TIME", "Flag.Codes")]
apply(tmp, 2, table)
apply(tmp, 1, is.na) # flag.codes 전체가 NA인지 의문 발생
sum(is.na(tmp$Flag.Codes)) == nrow(tmp) # flag.codes 전체가 NA임을 확인

 

주의!

함수 apply에 열 방향(MARGIN = 2)으로 is.numeric, is.character를 적용하면 실제와 모순되는 결과가 나옴.

이것은 apply가 객체를 모두 동일한 type으로 뭉그러뜨리기 때문임. 

 

is.numeric(tmp$TIME) # time은 numeric이 맞음.
apply(tmp, 2, is.numeric) # time이 numeric이 아니라고 출력됨.
apply(tmp[,3,drop=F], 2, is.numeric) # time이 numeric이라고 출력됨.

 
예시

label = sample(c("name1", "name2", "name3"),
               size = nrow(InsectSprays),
               replace = T)


sp2 = list(name1 = InsectSprays[InsectSprays$label == "name1",],
     name2 = InsectSprays[InsectSprays$label == "name2",],
     name3 = InsectSprays[InsectSprays$label == "name3",])

InsectSprays = cbind(InsectSprays, label)

sp = split(InsectSprays, InsectSprays$label)

sp2는 그냥 하나하나 정성스럽게 list에다가 넣은 것이고

sp는 split으로 label을 기준으로 나눈 것

mat1 = matrix(1:20, nr = 5, nc = 4)
mat2 = matrix(-1:-20, nr = 5, nc = 4)
mat0 = matrix(0, nr = 5, nc = 4) # 모든 항을 0으로 만들어줌. 즉, 영행렬을 만들어줌. 
mat1 + mat2 == mat0 # T, 값 하나하나를 지정해서 T를 출력해줌.
mat1 - mat1 == mat0 # T, 값 하나하나를 지정해서 T를 출력해줌.
10*mat1 ; mat1/2 # 항마다 곱해주고 나눠줌.
t(mat1) # transposed matrix(전치행렬) : 대각선을 기준으로 뒤집은 행렬

행렬 A의 덧셈의 역원: -A

항등행렬(I): 대각성분은 모두 1, 나머지 원소는 0인 행렬

 

행렬의 곱셈

AI = IA = A

AB = BA = I  # 이렇게 되면 A의 역원은 B가 됨.

- 항등원 : 이항연산을 했을 때 자기자신이 나오게 만드는 원소 

- 역원: 이항연산을 했을 때 항등원이 나오게 만드는 원소 

- 곱셉에서의 항등원 : 단위 행렬(주 대각선의 원소가 모두 1이며 나머지 원소는 모두 0인 정사각행렬)

- 곱셉에서의 역원 : A^-1

- 행렬의 곱셈을 위해서는 좌측 행렬의 열의 수와 우측 행렬의 행의 수가 같아야 함. 

mat3 = matrix(1:9, nr = 3)
mat4 = matrix(seq(1,2,length=9), nr =3)
mat3 * mat4 # 각 원소에 대응되는 것끼리 곱셈
mat3 %*% mat4 # 행렬의 곱셈
det(mat3); det(mat4)
mat5 = matrix(c(1,2,1:7), nr = 3)
det(mat5)
solve(mat5) # 역행렬

 

역행렬이 존재하는 경우의 해 구하기

# 1
# 3 + 9x = 6
# 5 + 9y = 7
(c(6,7)-c(3,5))/9

# 2
# x + 3y = -2
# 2x + 4y = 3
ex2 = matrix(1:4, nrow=2)
solve(ex2)%*%c(-2,3) # 위의 그림의 논리가 사용된 것
# 곱 방향이 양변이 같아야 함. 
# 그러니깐 우변의 오른쪽에 A^-1이 붙으면 좌변의 오른쪽에 A^-1이 붙어야 함.

행렬 (matrix)

- 동일한 자료형인 원소로 구성된 2차원의 자료 구조 

 

 

 

 

배열 (array)

- matrix의 확장된 형태로 3차원 이상의 배열을 의미

- 동일한 자료형, n 차원 이상

array(<원소가 될 vector>,dim = c(행의 수, 열의 수, 페이지 수))
# 참조
<객체명> [<row_index>, <col_index>, <page_index>]
<객체명> [<row_index>, , ]
<객체명> [, <col_index>, ]
<객체명> [, , <page_index>]
# 예시
# 첫 항이 0이고 끝 항이 10인 길이가 48이 되는 등차수열을 원소로 가지는 3X4X4 배열 arry1
arry1 = array(seq(0, 10, length = 48), dim = c(3,4,4))

arry1[3,2,3]
arry1[3,2, ]
arry1[1, , ]
arry1[ ,3, ]

 

 

 

 

 

리스트(list)

- vector와 같은 선형구조

- 각 원소별로 다양한 형태의 자료를 가질 수 있는 다중자료형

- key와 value가 한 쌍으로 저장되며, list에 있는 자료를 참조할 경우 $를 사용

 

# 리스트 자료형 생성

vec1 = c(1,30,-3)
vec2 = c("apple", "banana", "pear")
vec3 = 1:9
arry = array(1:45, dim = c(3,5,3))
mat = arry[,,1]

l = list(vec1, vec2, vec3, arry, mat)

 

# list 참조

l
l[1] ; str(l[1]) 
# 출력 형태
# List of 1
# $ : num [1:3] 1 30 -3

l[[1]] ; str(l[[1]])
# 출력 형태
#  num [1:3] 1 30 -3

names(l)

여기서 출력형태가 l[1]과 l[[1]] 이 다른 이유는 l은 리스트의 형태인데

l[1]은 리스트에서의 첫 번째 값을 통째로 가져왔다고 하는 것이고

l[[1]]은 리스트에 있는 첫 번째의 값을 껍질을 까서 가져왔다고 하는거라서 출력형태가 다른 것이다. 

 

l = list(v1 = vec1, v2 = vec2, v3 = vec3, arry = arry, mtrx = mat) 
# 리스트의 각 원소에 대한 이름 지정
names(l) 
l
l[1] ; str(l[1]) 
# List of 1
#  $ v1: num [1:3] 1 30 -3 
# $ 옆에 이름이 붙어서 나옴. 
# v1을 참조했다는 뜻 

l[[1]] ; str(l[[1]])
# num [1:3] 1 30 -3

names(l)
l$v1 ; l$arry
names(l) = c("e1", "e2", "e3", "e4", "e5"

 

 

 

 

데이터 프레임(data.frame)

- 행과 열로 구성된 2차원 표

- 열 단위로 서로 다른 자료형의 벡터를 저장할 수 있음.

- 각 열에 해당하는 벡터의 길이가 같음.

- 데이터 프레임 생성할 때 vector 여러개를 저장할 수는 있지만 matrix를 저장을 vector와 같이 하면 자료가 이상해지는 것을 확인할 수 있음.

 

# data.frame의 생성
# vector를 이용

vec1 = c(1,30,-3)
vec2 = c("apple", "banana", "pear")
vec3 = 1:9
arry = array(1:45, dim = c(3,5,3))
mat = arry[,,1]

dat1 = data.frame(num1 = vec1, 
                  chr1 = vec2, 
                  num2 = vec3[1:3] 
                  )
dat1
# data.frame의 생성
# matrix를 이용
dat2 = data.frame(mat)

matrix와 dat2의 차이점 비교

 

dat1의 첫 번째값과 두 번째 값 찾아서 각각 5번씩 출력 

dat3 = dat1[rep(1:2, each = 5),]


참조 

dat1$x1
dat2[1,]
dat2[,3]
names(dat3) = c("v1", "v2", "v3") #데이터 프레임 변수 이름 변경

+ Recent posts