이산확률분포

 

이산균등분포

> n개의 불연속적인 값을 가지는 확률변수 X가 아래와 같은 pmf를 가질 때 이산균등분포를 따른다고 하고, 

> X~U(a,b) 혹은 X~unif(a,b)로 표기함.

 

p(x) = 1/n , x = a, a+1, .... ,b 

## 이산균등분포 (Discrete uniform distribution) ----
n = 10
p = 1/n
x = 1:n
p.x = rep(p, n)
plot(x, p.x, xlim = c(1,n), ylim = c(0,1))

 

 

 

베르누이 시행

> 결과가 오직 두 가지 결과만을 가지고 성공할 확률이 일정한 실험

 

이항분포 

> 이항실험에 대해서 n번 시행 중 꼭 x번의 성공할 확률

> 베르누이 시행을 n회 시행했을 때 나오는 총 성공 횟수를 확률변수 X라고 하면, x는 이항분포를 따르며,

> X~B(n,p) 혹은 X~bin(n,p)로 표기함. 

## 이항분포 (Binomial distribution) ----
n = 10
p = 1/5
x = 1:n
p.x = choose(n,x)*p^x*(1-p)^(n-x)  # nCx
plot(x, p.x,
     xlim = c(1,n),
     ylim = c(0,1),
     main = "Binomial Dist.",
     col = "red")

 

 

포아송분포

> 일정한 구간에서 특정 사건이 일어나는 건수에 대한 분포 

> 조건

1. 주어진 구간에서 사건의 평균 발생횟수는 구간의 시작점과 관계가 없고 구간의 길이에만 영향을 받음.

2. 랜덤 발생: 한 순간에 2회 이상의 사건이 발생할 확률은 거의 0에 가까움.

3. 독립적으로 발생: 한 구간에서 사건의 횟수는 겹치지 않는 다른 구간에서 발생하는 사건의 횟수에 영향을 받지 않음. 

> 예) 일주일 동안(구간) 어느 고속도로에서 발생하는 교통사고 건수(특정 사건이 일어나는 건수) 

 

## 포아송 분포 (Poisson distribution) ----
n = 100
mu = 15
x = 0:n 
p.x = (exp(1)^(-mu)*mu^x)/factorial(x)
plot(x, p.x, xlim = c(1,n), ylim = c(0,1),
     main = "Poisson dist.", col = "blue",
     pch = 20)

 

기하분포

1.

> 특정 사건이 발생할 확률이 p로 일정할 때 해당 사건이 발생할 때까지 시행한 횟수를 확률변수 X라고 하자.

> 이때 x번째에 사건이 발생할 확률은 

> p(x) = (1-p)^(x-1) * p     x = 0, 1, .....

 

2. 

> 특정 사건이 발생할 확률이 p로 일정할 때 해당 사건이 발생할 때까지 실패한 횟수를 확률변수 X라고 하자.

> 이때 x번 실패 후 사건이 발생할 확률은 

> p(x) = (1-p)^x*p        x = 0, 1, .........

 

## 기하분포 (Geometric distribution)
n = 100
p = 1/3
x = 0:n
p.x = (1-p)^(x-1)*p
plot(x, p.x, xlim = c(0,n), ylim = c(0,1),
     main = "Geometric Dist.", col = "grey", pch = 20)

 

 

 

연속확률분포

 

연속균등분포 

> 구간 (a,b)에 있는 값을 가지는 확률변수 X가 아래와 같은 pdf(probability density function)를 가질 때 연속 균등 분포를 따른다고 하고, X~U(a,b) 혹은 X~unif(a,b)로 표기함.

p(x) = 1/(b-a) # x는 a,b 구간에 속해있다.

 

+ 연속형 분포의 그래프 그리기 

이산형과 달리 연속형은 'continuous'한 직선 혹은 곡선으로 표현 

 - 이산형 분포 그리기에서는 정의역 값을 vector로 묶어 지정하는 식으로 구현 가능

 - 이산형과 달리 연속형의 변수 값은 '구간' 형태

 

정의역 x의 구간과 x가 포함된 함수/표현식(expression)을 설정해주면 직/곡선을 그려주는 함수 활용

 - curve(expr, from = Null, to = Null, ...)

 -- expr에 x가 포함된 함수의 표현식을 설정 

 -- from,to에 각각 구간의 시작점과 끝점을 설정

 -- 기타 plot, hist에서 쓰는 옵션 지정 가능 

 

# X ~ U (0, 10)

n = 10
curve(1/n, from = 0, to = n, col = 2, lwd = 3)

 

그런데 이런 식으로 하면은 안됨. 위에서 curve의 expr에서 x가 포함된 함수의 표현식을 설정해서 나타내라고 했는데 그렇게 되지 않음. 이렇게 실행하면 다음과 같은 에러가 나옴.

 

 

따라서 이런 식으로 코드를 짜야함. 

curve(x/x/n, from = 0, to = n, col = 2, lwd = 3)

 

# X ~ U(2.3, 7.6)
n = 100
a = 2.3 
b = 7.6

curve(x/x/(b-a), a, b, col = 4, lwd = 3)

 

 

정규분포

> 대표적인 연속확률분포로 평균을 중심으로 좌우대칭이며 bell-shape을 가진 분포

## 정규분포 (normal distribution) ----
mu = 0 
var = 1^2

expr = (1/sqrt(2*pi*var))*exp(-(x-mu)^2/(2*var))
curve((1/sqrt(2*pi*var))*exp(-(x-mu)^2/(2*var)), -50, 50, col = 4, lwd = 3)

 

 

t - 분포 (Student's t - distribution)

> 평균 0 중심으로 좌우대칭인 bell-shape이며, 자유도 v에 의해 결정됨.

> 자유도가 커질수록 정규분포에 가까워지는 특징을 가짐. 

## t-분포 (Student's t - distribution) ----
nu = 3
curve((gamma((nu+1)/2))/sqrt(nu*pi)*gamma(nu/2)*(1+x^2/nu)^(-(nu+1)/2), -10, 10, col = 4, lwd = 3)

 

카이제곱분포 (Chi-square distribution)

> k개의 서로 독립인 (표준)정규확률변수를 제곱하여 합하여 얻은 변수의 분포

> 분포곡선은 수직축의 오른쪽에 위치하며, 모양은 자유도가 작은 경우에는 비대칭이고, 자유도가 증가함에 따라 대칭 모양에 가까워짐. 

## 카이제곱분포 (Chi-square distribution) ----
curve(1/(2^(nu/2)*gamma(nu/2))*x^((mu/2)-1)*exp(-(x/2)), 0, 10, col = 4, lwd = 3)

+ Recent posts