Expectation

 

Theorem

1.8.1

 

1.8.2

'통계학 > 수리통계학(Mathematical Statistics)' 카테고리의 다른 글

Important inequalities  (0) 2024.10.04
Some special Expectations  (0) 2024.10.04
Continuous Random Variables  (0) 2024.10.04
Discrete Random Variables  (1) 2024.10.04
Random variables  (3) 2024.09.20

Continuous Random Variables

 

Transformations

example

 

'통계학 > 수리통계학(Mathematical Statistics)' 카테고리의 다른 글

Some special Expectations  (0) 2024.10.04
Expectation of Random Variables  (0) 2024.10.04
Discrete Random Variables  (1) 2024.10.04
Random variables  (3) 2024.09.20
Conditional Probability and Independence  (1) 2024.09.16

Discrete Random Variables

 

Transformations

 

Example

One-to-one 이 아닌 케이스이기에 Case 2의 방식으로 풀어야함.

'통계학 > 수리통계학(Mathematical Statistics)' 카테고리의 다른 글

Expectation of Random Variables  (0) 2024.10.04
Continuous Random Variables  (0) 2024.10.04
Random variables  (3) 2024.09.20
Conditional Probability and Independence  (1) 2024.09.16
Sigma Field  (1) 2024.09.16

Python의 datetime 모듈은 날짜와 시간을 처리하기 위한 기본 내장 모듈입니다. 

시계열 데이터 전처리에 있어 핵심적인 역할을 하는데, 시계열 데이터 분석은 시간의 흐름에 따른 패턴을 찾는 과정이기 때문에, 날짜와 시간을 다루는 것은 필수적입니다. 

 

datetime 모듈은 다음과 같은 주요 클래스를 제공합니다. 

 

datetime.datetime:

날짜와 시간을 모두 포함하는 클래스입니다. 특정 날짜와 시간을 생성하고, 두 datetime 객체 간의 차이를 계산하거나, 날짜와 시간을 포맷팅하는데 사용됩니다. 

 

datetime.date:

날짜만을 포함하는 클래스입니다. 연도, 월, 일 정보를 다루며, 날짜 간의 차이를 계산할 수 있습니다. 

 

datetime.time:

시간만을 포함하는 클래스입니다. 시, 분, 초, 마이크로초 정보를 다룹니다. 

 

datetime.timedelta:

두 datetime 객체 간의 차이를 나타내는 클래스입니다. 시간 간격을 계산하고, 날짜와 시간에 간격을 더하거나 뺄 수 있습니다. 

 

문자열을 datetime 객체로 변환: 데이터셋에서 날짜와 시간이 문자열로 저장된 경우, 이를 datetime 객체로 변환하여 다양한 시간 연산을 수행할 수 있습니다. 

 

시간 간격 계산: 두 사건 사이의 시간 간격을 계산하여 분석에 활용할 수 있습니다.

날짜/시간 정규화: 날짜와 시간을 표준 형식으로 변환하여 일관된 데이터 처리를 할 수 있습니다. 

특정 시점 추출: 월말, 분기말 등의 특정 시점을 추출하여 분석할 수 있습니다. 

시간 기반 특성 생성: 요일, 월, 분기 등의 시간 기반 특성을 생성하여 모델링에 활용할 수 있습니다. 

 

적용

현재 날짜와 시간 가져오기 

now = datetime.now()

 

 

time delta 클래스를 이용한 날짜 연산

future_date = now + timedelta(days=100)

 

timedelta 클래스는 기간을 표현하며, 날짜나 시간에 더하거나 빼는 연산에 사용됩니다. 예를 들어, 100일 후의 날짜를 계산하려면 timedelta(days = 100)를 현재 날짜에 더해주면 됩니다. 

 

 

날짜만 추출

future_data_only = future_date.date()

 

경우에 따라 시간 부분을 제외하고 날짜만 필요할 수 있습니다. 이때는 datetime객체의 .date() 메서드를 사용하여 날짜 부분만 추출할 수 있습니다. 

 

시간 차이 측정

from datetime import datetime, timedelta

# 현재 날짜와 시간
now = datetime.now()

# 100일 뒤의 날짜 계산
n_days = 100
future_date = now + timedelta(days = n_days)

# 두 날짜 사이의 차이 계산
time_diff = future_date - now
print(f"{n_days}일 뒤까지의 시간 차이: {time_diff}")

# 시간 단위로 변환
hours_diff = time_diff.total_seconds() / 3600
print(f"시간 차이 (시간 단위로): {hours_diff:.2f} 시간")

# 과거 날짜 계산 (예: 어제)
yesterday = now - timedelta(days = 1)
print(f"어제 날짜와 시간: {yesterday}")
  • timedelta 객체를 사용하여 미래 날짜를 계산하려면, 현재 날짜에 timedelta(days=n_days)를 더해줍니다.
  • 두 날짜의 차이를 계산할 때는 datetime 객체끼리의 뺄셈을 사용합니다. 이로 인해 또 다른 timedelta 객체가 생성됩니다.
  • timedelta 객체의 전체 초(second)를 계산하려면 total_seconds() 메서드를 사용하고, 이를 시간 단위로 변환하려면 3600으로 나눕니다.
    total_seconds(): 전체 시간을 초 단위로 반환 
  • 과거 날짜를 계산하려면 현재 날짜에서 timedelta(days=1)을 빼줍니다.
    days: 일 단위 차이
    seconds: 초 단위 차이(일 단위를 제외한 초)
    microseconds: 마이크로초 단위 차이(초 단위를 제외한 마이크로초)

 

datetime의 date 클래스 생성과 날짜 비교

from datetime import date

# 오늘 날짜 가져오기
today = date.today()
print(f"오늘 날짜: {today}")

# 특정 날짜 설정
special_day = date(2024, 12, 25)
print(f"특별한 날: {special_day}")

# 날짜 비교
if today < special_day:
    print("특별한 날이 아직 오지 않았습니다.")
elif today == special_day:
    print("오늘은 특별한 날입니다!")
else:
    print("특별한 날이 지났습니다.")
  • date 클래스를 datetime 모듈에서 가져오려면 from datetime import date를 사용합니다.
  • 오늘 날짜를 가져오기 위해 date.today() 메서드를 사용합니다.
  • 특정 날짜를 설정할 때 date(연도, 월, 일) 형태로 작성합니다. 예를 들어, special_day = date(2024, 12, 25)와 같이 설정합니다.

 

datetime의 time 클래스 생성과 시간 비교

from datetime import datetime, time

# 현재 시간 가져오기
now = datetime.now()
current_time = now.time()
print(f"현재 시간: {current_time}")

# 특정 시간 설정
start_time = time(9, 0)
end_time = time(17, 0)
print(f"업무 시작 시간: {start_time}, 종료 시간: {end_time}")

# 시간 비교
if start_time <= current_time <= end_time:
    print("현재는 업무 시간입니다.")
else:
    print("현재는 업무 시간이 아닙니다.")
  • time 클래스를 datetime 모듈에서 가져오기 위해 from datetime import time을 사용합니다.
  • 현재 시간에서 시간 부분만 가져오기 위해 now.time() 메서드를 사용합니다.
  • 특정 시간을 설정하려면 time(시, 분) 형태로 작성합니다. 예를 들어, start_time = time(9, 0)과 end_time = time(17, 0)를 설정합니다.

 

datetime의 date와 time 결합하여 datetime 생성

from datetime import datetime, date, time

# 특정 날짜와 시간 설정
meeting_date = date(2024, 1, 15)
meeting_time = time(14, 30)

# 날짜와 시간을 결합하여 datetime 객체 생성
meeting_datetime = datetime.combine(meeting_date, meeting_time)
print(f"회의 일시: {meeting_datetime}")
  • datetime 객체를 생성하기 위해 datetime.combine() 메서드를 사용합니다. 이 메서드는 특정 날짜(date 객체)와 시간(time 객체)를 결합하여 datetime 객체를 만듭니다.

 

날짜 포맷팅: strftime을 활용한 날짜 및 시간 형식 지정

from datetime import datetime

# 현재 시간 얻기
now = datetime.now()

# 기본 포맷으로 출력 (예시: 2024-08-07 05:40:28)
basic_format = now.strftime('%Y-%m-%d %H:%M:%S')
print(f"기본 포맷: {basic_format}")

# 한글 포맷으로 출력 (예시: 2024년 08월 07일 05시 40분 28초)
korean_format = now.strftime('%Y년 %m월 %d일 %H시 %M분 %S초')
print(f"한글 포맷: {korean_format}")

# 날짜만 출력 (예시: 2024/08/07)
date_only_format = now.strftime('%Y/%m/%d')
print(f"날짜만: {date_only_format}")

# 12시간제 시간만 출력 (예시: 05:40 AM)
time_12h_format = now.strftime('%I:%M %p')
print(f"12시간제 시간만: {time_12h_format}")

# 요일과 월 이름 포함 포맷 (예시: Wednesday, 07 August 2024)
weekday_month_format = now.strftime('%A, %d %B %Y')
print(f"요일과 월 이름 포함 포맷: {weekday_month_format}")

# ISO 8601 표준 포맷 (예시: 2024-08-07T05:40:28)
iso_format_basic = now.strftime('%Y-%m-%dT%H:%M:%S')
print(f"ISO 8601 표준 포맷 (기본): {iso_format_basic}")

# ISO 8601 표준 포맷 (예시: 2024-08-07T05:40:28+0900)
# 시간대 포함
iso_format_with_timezone = now.strftime('%Y-%m-%dT%H:%M:%S%z')
print(f"ISO 8601 표준 포맷 (시간대 포함): {iso_format_with_timezone}")

 

strftime 메서드는 datetime 객체를 특정 형식의 문자열로 변환하는 강력한 도구입니다. 이 메서드를 사용하면 날짜와 시간을 다양한 형식으로 포맷팅할 수 있어, 보고서 작성, 데이터 시각화, 로그 기록 등에서 유용하게 활용할 수 있습니다. 

 

주요 포맷 코드 

  • %Y: 4자리 연도 
  • %m: 2자리 월
  • %d: 2자리 일
  • %H: 2자리 24시간제 시간(00-23)
  • %l: 2자리 12시간제 시간(01-12)
  • %M: 2자리 분(00-59)
  • %S: 2자리 초(00-59)
  • %p: AM/PM 표시
  • %A: 요일 (예: Wednesday)
  • %B: 월 이름 (예: August)
  • %Y-%m-%d: ISO 8601 표준 날짜 형식 
  • %d %B %Y: 일 - 월이름 - 연도 형식(예: 07 August 2024)

'프로그래밍 > 머신러닝' 카테고리의 다른 글

LightGBM  (1) 2024.09.04
다변량 이상치 탐지 방법  (0) 2024.08.25
정규 표현식 (Regular Expression)  (0) 2024.08.23
로지스틱 회귀분석  (0) 2024.08.13
혼자 공부하는 머신러닝 + 딥러닝(딥러닝)  (0) 2024.08.08

(학부생이라 오류가 있을 수 있습니다. 댓글로 정정해서 남겨주시면 감사드리겠습니다.)


 

단순선형회귀는 input이 하나이고 이 input을 통해 y값을 예측하는 모형입니다.

input이 만약에 여러 개면 Mutiple linear regression이라고 하는데 이 부분은 다음 포스팅 때 다뤄보도록 하겠습니다.

 

단순선형회귀는 독립변수 하나와 종속변수의 관계를 관측할 수 있게 해주는 설명력이 높은 통계적 방법입니다. 

회귀분석의 첫 단추를 끼우는 만큼 단순선형회귀에 대해 제가 배운 내용을 바탕으로 설명을 해보겠습니다. 

 

Simple linear regression model

  • The response variable $Y$ 와 the predictor variable $X$ 는 $$ Y = \beta_0 + \beta_1X + \epsilon $$, where $\epsilon$ is a random error with $E(\epsilon) = 0$. (Population 수준의 모델)

 

Simple regression model with the observed data

Observation Number Response Variable $Y$ Predictor $X$
1 $y_1$ $x_1$
2 $y_2$ $x_2$
.
.
.
.
.
.
.
.
.
.
.
.
n $y_n$ $x_n$
  • The regression model for the observed data is $$ y_i = \beta_0 +\beta_1x_i + \epsilon_i,   i = 1, 2, ...., n$$, where $\epsilon_i$ represents the error in $y_i$.

 

Parameter estimation

  • To estimate the unknown regression coefficients, $\beta_0$ and $\beta_1$, the ordinary least squares(OLS) method is commonly used. 
  • From the regression model, we can write $$\epsilon_i = y_i - \beta_0 - \beta_1x_i,  i = 1, 2,.... , n.$$
  • We estimate $\beta_0$ and $\beta_1$ by minimizing $$ S(\beta_0, \beta_1) = \displaystyle\sum_{i=1}^{n}{(y_i - \beta_0 - \beta_1x_1)^2}$$ >> 가장 오른쪽에 있는 식은 Convex function이어서 미분 최솟값 구하면 됩니다.  

우리가 parameter 값을 구하고 싶은데, 현실은 observed data의 X와 Y값 만을 알고 있는 상태입니다. 

그렇기 때문에 우리는 parameter 값을 추정하는 겁니다.  실제 X값과 Y값을 통해 구할 수 있는데,

추정은 다음과 같은 식을 통해 구할 수 있습니다. 

OLS estimate 

  • It can be shown that the estimates of \beta_0 and \beta_1 that minimize $S(\beta_0, \beta_1)$ are given by $$\hat{\beta_1} =  \frac{\sum_{i = 1}^{n}{(y_i - \overline{y})(x_i - \overline{x})}}{\sum_{i = 1}^{n}{(x_i - \overline{x})^2}}$$ and $$ \hat{\beta_0} = \overline{y} -  \hat{\beta_1}\overline{x}$$
  • $ \hat{\beta_0} = \overline{y} -  \hat{\beta_1}\overline{x}$ 증명

  • $\hat{\beta_1} =  \frac{\sum_{i = 1}^{n}{(y_i - \overline{y})(x_i - \overline{x})}}{\sum_{i = 1}^{n}{(x_i - \overline{x})^2}}$ 증명

 

이렇게 하여 $\hat{\beta_0}$ 과 $\hat{\beta_1}$을 구할 수 있는데,

여기서 $\hat{}$ 을 취한 이유는 True 값(추정치가 아닌 값)을 모르고 추정치만 알고 있어서 $\hat{}$을 취했습니다.

 

 

Fitted values

  • The OLS regression line is obtained as $$ \hat{Y} = \hat{\beta_0} + \hat{\beta_1}X $$.
  • The $i$-th fitted value is given by $$ \hat{y_i} = \hat{\beta_0} + \hat{\beta_1}x_i,  i = 1, 2, ..., n$$.
  • Example.

 

 

이렇게 fitted 했다면 해석은 어떻게 해야 하는지 궁금할 수 있을 것 같은데요... 

그런데 그 전에 $ Y = \beta_0 + \beta_1X + \epsilon $ 이 식 양변에 평균을 취하게 되면 다음과 같이 나옵니다.

$$ E(Y) = \beta_0 + \beta_1X$$.

왜 이렇게 나오냐면 $E(\beta_0 + \beta_1X + \epsilon)$ 에서 $ \beta_0 + \beta_1X $는 이미 값을 알고 있고 그렇기 때문에 상수로 처리됩니다. 그러면 자연스럽게 $ \beta_0 + \beta_1X  + E(\epsilon)$ 이 되고, 회귀분석에서는 $E(\epsilon) = 0$이라고 하는 아주 중요한 가정이 있기에 자연스럽게 $E(Y) = \beta_0 + \beta_1X$ 이 식이 유도가 됩니다. 

 

Interpertation of coefficients

  • Recall that $$ E(Y) = \beta_0 + \beta_1X$$.
    - $\beta_0$ is the expected value of $Y$ when $X = 0$.
    - $\beta_1$ is the amount of increase in the expected value of $Y$ for every one-unit increase inn $X$.
  • For example E(minutes) = 4.162 + 15.509 $\times$ Units.
    - The average length of calls is the 4.162 minutes when no component needs to be repaired.
    - The average length of calls increases by 15.509 minutes for each additional component that has to be repaired. 

 

Test of hypothesis

  • In the simple linear regression analysis, the usefulness of the predictor(= X) can be tested by using the following hypothesis test:
    $H_0: \beta_1 = 0   versus   H_1: \beta_1 \neq 0$.
    (X와 Y의 linear relationship을 $\beta_1$을 체크하여 확인할 수 있습니다.)
    (주의할 점: $\hat{\beta_1}$을 이용해서 가설검정을 하는 것이 아닙니다.)
  • To this end, we need to further assume that

 

 

이렇게 간단한 식에 4가지의 가정이 들어가있습니다. 중요하기에 반드시 알아두는게 좋다고 합니다.

1. $E(\epsilon_i) = 0$

2. $Var(\epsilon_i) = \sigma^2$

3. $\epsilon_i$ ~ Normal

4. $\epsilon_1, ..... \epsilon_n$ are independent.

 

 

T-test

  • Under $H_0$ : $\beta_1 = 0$, it can be shown that $$ T = \frac{\hat{\beta_1}}{s.e.(\hat{\beta_1})}$$ follows a Student's t distribution with n - 2 degrees of freedom, where $$ s.e.(\hat{\beta_1}) = \sqrt{\frac{\sum_{i=1}^{n}{(y_i - \hat{y_i})^2/(n-2)}}{\sum_{i=1}^{n}{(x_i - \overline{x})^2}}}$$.

Using t-distribution, we can compute the p-value. At significant level $\alpha = 0.05$, we reject $H_0$ if the p-value $\leq$ 0.05. Otherwise, we fail to reject $H_0$.

 

보통은 모델이 유용하기를 바라기 때문에 귀무가설을 기각하기를 원합니다. 

 

 

앞서말한 계수들 뿐만 아니라 $\sigma^2$를 추정하는 것도 중요한데요

바로 error의 변동성을 설명하기 위함입니다.

 

Estimation of $\sigma^2$

  • Define $$ e_i = y_i - \hat{y_i}, i = 1, 2, .... , n $$ which are called the residuals.
    이렇게 하는 이유는 $\epsilon_i = y_i - \beta_0 - \beta_1x_i$를 
  • We can estimate $\sigma^2$ by using $$ \hat{\sigma^2} = \frac{\sum_{i=1}^{n}{e_i^2}}{n - 2} = \frac{\sum_{i=1}{n}{(y_i - \hat{y_i})^2}}{n-2} \equiv $$ MSE
    where $\sum_{i=1}{n}{(y_i - \hat{y_i})^2}$ is referred to as SSE (Sum of Squares of Errors) and n -2 is called the df(degrees of freedom).
    여기서 n은 전체 데이터이고 2는 추정치의 개수입니다. 추정치는 $\beta_0, \beta_1$으로 2개가 존재했습니다. 그렇기에 2를 빼주는 것입니다. 

 

SAS라는 통계 프로그램을 통해서 MSE를 관측할 수 있는데 밑에 그림의 빨간색 부분이 MSE입니다. 

 

MSE in SAS

 

 

Confidence intervals 

  • The (1 - $\alpha$) $\times$ 100% confidence intervals (or limits) for $\beta_0 and \beta_1$ are given by $$ \hat{\beta_0} \pm t_{n-2,\alpha/2} \times s.e.(\hat{\beta_1})$$,
    where $t_{n-2, \alpha/2}$ is the (1 - $\alpha$ / 2) percentile of a t - distribution with n - 2 df

Construting Cls for coefficients in SAS

 

이렇게 신뢰구간도 설정하고 회귀모델을 fitting 했으면 이제 예측을 해봅시다

(예측은 크게 설명력과 예측력으로 구분할 수 있습니다.)

 

Prediction

  • There are two types of predictions:
    1. Prediction of the value of Y given X, i.e., $Y = \beta_0 + \beta_1X + \epsilon$.
    2. Prediction of the mean of Y given X, i.e., $E(Y) = \beta_0 + \beta_1X$.

여기서 하나 알아갈 수 있는 점은 confidence interval은 prediction of the value of Y given X가 넓을 수 밖에 없습니다. 왜냐하면 $\epsilon$, 즉, error가 포함되어 있기 때문입니다. 

 

  • Given $X = x_0$,
    - in the first case, the predicted value is $\hat{y_0} = \hat{\beta_0} + \hat{\beta_1}x_0$.
    - in the second case, the mean response is $\hat{\mu_0} = \hat{\beta_0} + \hat{\beta_1}x_0$.

 

 

Prediction intervals

  • The (1 - $\alpha$) $\times$ 1000% prediction limits are given by $$\hat{\mu_0} \pm t_{n-2,\alpha/2} \times s.e.(\hat{\mu_0})$$ and $$\hat{y_0} \pm t_{n-2, \alpha/2} \times s.e.(\hat{y_0})$$,
    where $$s.e.(\hat{\mu_0}) = \hat{\sigma}\sqrt{\frac{1}{n} + \frac{(x_0 - \overline{x})^2}{\sum_{i=1}^{n}{(x_i -\overline{x})^2}}}$$ and $$ s.e.(\hat{y_0}) = \hat{\sigma}\sqrt{1+ \frac{1}{n} + \frac{(x_0 - \overline{x})^2}{\sum_{i=1}^{n}{(x_i -\overline{x})^2}}} $$

    (여기서 보면 Expected value와 value 값의 interval을 측정할 때 차이점이 보입니다. 바로 1이 더해졌냐 안 더해졌냐인데요. value값은 아까 Prediction 파트에서 value값의 confidence interval이 넓을 수 밖에 없다고 한 것과 비슷한 매락의 이야기입니다. $\sigma^2$은 $\epsilon$의 분산이고 $\epsilon$만큼 더해진 것을 확인할 수 있습니다. 그렇기에 더 넓은 confidence interval을 가질 수 밖에 없다고 설명한 것입니다.)

 

 

Role of $\sigma^2$

  • 분산이 크다는 것은 값들이 선에 비교적 가깝지 않고, 분산이 작다는 것은 선에 비교적 선에 가깝다는 얘기입니다. 
  • 그러나 분산 즉, $\sigma$의 분산만을 가지고는 선형성을 추론하기에 어려움이 있습니다. 가령, 범위가 다를 때는 $\sigma$의 분산으로 선형성을 추론하면 오류가 발생할 수 있습니다.

 

그래서 이 상황에서 고안된 것이

 

 

Measuring the strength of the linear relationship

  • To remedy the limitation of $\sigma^2$, we can propose to use $$\frac{\sigma^2}{Var(Y)}$$, since it decreases if $\sigma^2$ decreases or $Var(Y)$ increases.
  • 우리는 $\sigma^2$의 값을 모르기 때문에 $\sigma^2$의 추정치인 MSE를 사용할 것입니다. 복습을 하자면 $$MSE = \frac{\sum_{i=1}^{n}{(y_i-\hat{y_i})^2}}{n-2}$$ 이고 $Var(Y)$도 모르기 때문에 추정치인 $\hat{Var}(Y)$을 사용할 것입니다. 이것도 다시 remind 하자면 $$ \hat{Var}(Y) = \frac{\sum_{i=1}^{n}{(y_i-\overline{y})^2}}{n-1} $$ 입니다. 

 

여기서 선형성인 것을 나타내주는 지표인 결정계수가 나옵니다.

$R^2$

  • To measure the strength of the linear relationship, we define the so-called $R^2$ as follows:
    $$R^2 = 1 - \frac{\sum_{i=1}{n}{(y_i - \hat{y_i})^2}}{\sum_{i=1}{n}{(y_i-\overline{y})^2}} = 1 - \frac{SSE}{SST}$$
    where SST stands for the total sum of squared deviation in $Y$ from its mean.

 

 

Property of $R^2$

  • It can be shown that $$\displaystyle\sum_{i=1}^{n}{(y_i - \overline{y})^2} = \displaystyle\sum_{i=1}^{n}{(\hat{y_i}-\overline{y})^2} + \displaystyle\sum_{i=1}^{n}{(y_i - \hat{y_i})^2}$$
    where 왼쪽 식에서 첫 번째 식은 SSR(the sum of squares due to regression)으로 불린다.
    That is, $$SST = SSR + SSE$$.

  • This implies that $$0 \leq R^2 \leq 1$$
    (그 이유는 $R^2  = SSR/SST$ and $0 \leq SSR \leq SST$).

 

'통계학 > 회귀분석(Regression Analysis)' 카테고리의 다른 글

Matrix format  (0) 2025.02.18
Qualitative variables as predictors  (0) 2024.11.22
Transformation of variables  (0) 2024.11.19
다중선형회귀 (Multiple linear regression)  (0) 2024.10.06

지금 어떻게 살고있나 궁금하지 않겠지만 

 

미래에 나에게 떳떳하기 위해 이렇게 일기를 씁니다~

 

네... 열심히 살고 있냐 물었을 때 아니라는 말이 제일 먼저 나올 것 같네요 

 

주변 사람들은 저를 바쁘다고 생각하겠지만(안 할 수도 있지만) 실상은 노는거 좋아하고 롤하는거 좋아하고 농구만 하면서 인생을 즐기고 싶은 한 청년일 뿐입니다.. 

 

그렇다면 요즘 뭐하고 있냐 하면은

 

프로젝트 2개에 머신러닝 공부, 통계학 공부, 수학 공부 하고 있습니다

 

프로젝트는 데이터 분석 프로젝트인데 가끔 재능이 없는건가 싶을 때 한 번씩 있는데 

 

그럴 때마다 교수님이나 데이콘 관계자 분들이 이메일로 잘하고 있고 좋은 태도로 임하고 있다고 해서 도움이 많이 됐던 것 같네요

 

통계학이랑 수학은 푸는 건 정말 재밌고 혼자 공부하면 알아가는 맛은 있는데 교수님 수업은 왜이렇게 힘든지 모르겠네요 아 물론 회귀분석은 진짜 재밌습니다! 정리해서 글 올려야하는데 계속 미루네요.. 조만간 올리겠습니답

 

요즘 좋아하는건 롤이랑 농구인데 

 

진짜 저 2개 하고 있을 때는 체력적으로 지친 적이 별로 없는 거 같아요 롤은 4-5시간을 해도 다른 애들 허리 아프다고 할 때 저 혼자 더 남아서 할 때도 있고 농구는 경기 끝나면 슛을 좀 더 하고 싶어서 계속 던지고 있고 참 이거 2개로 먹고 살 수만 있다면 참 좋을텐디

 

그런데 그게 안되니깐 조금 아쉽네요 하핫

 

이런 와중에 저한테 꿈이 하나 생겼습니다

 

원하는 대학원과 기업이 생겼는데요 

 

말은 못하겠지만 우리나라에서 가장 좋거나 다섯 손가락 안에 드는 곳이라고 생각합니다

 

그래서 이제 겉으로만 열심히 살아보이는 게 아닌 나 자신한테도 떳떳하게 열심히 산다고 생각하고 

 

주변에 제가 이 정도로 열심히 산다고 말하는 사람이 아닌 주변에서 먼저 열심히 산다고 말해주는 그런 인물이 되겠습니다

 

앞으로의 길이 험난해지기 전에 미래에 제가 잘 할 수 있도록 용기를 줄 수 있는 말을 지금 해주고 싶었네요 하핫

 

말이 너무 길었고 근황토크도 아니긴 했는데 넵 뭐 옙 제 블로그이고 잘 됐을 때 제가 어떤 심정을 가지고 있었는지 보고 싶어서 글을 남기는 거니깐 너무 이상하게 보지는 말아주세여 ㅎㅎ

 

미래에 내가 이 글을 읽으면 어떤 감정일까 참 궁금합니다

 

그러면 여러분 9월 한 달 잘 마무리하시고 앞으로의 일 다 잘 되길 기도하겠습니다 파이팅

'일상 > 일기' 카테고리의 다른 글

2024년 회고록(?)  (0) 2025.01.19
공모전 때문에 심란해서 쓰는 일기(24.11.12)  (6) 2024.11.12
24.08.30 - 24.09.01 서울여행  (11) 2024.09.16
24.08.21 (수) - 계곡여행 + 앞으로의 다짐(?)  (2) 2024.08.21
오랜만에 일기  (0) 2024.04.02

Random variables(확률 변수)

 

random variable 은 일종의 함수라고 생각하면 된다.

probability space에서 real space(실수 집합)으로 mapping이 된다고 생각하면 된다. 

 

예를 들어 random variable $ X $를 주사위를 두 번 굴려서 나온 윗 면의 합이라고 하면,

$X(i, j) = i + j$로 나타낼 수 있고 $ X $의 space는 {2, ... 12}가 된다. 

The Sample space는 $ {(i, j) : 1 \leq i, j \leq 6} $이 되고 $ P[{(i, j)}] = 1 / 36 $이다.

 

즉, 주사위 윗면의 의미로서 1, 2, 3, 4, 5, 6이 X라는 확률변수 함수를 만나서 실수로 표현이 될 수 있다는 것이다.

 

Probability Mass Function

 

여기서 앞서 말한 주사위 사례를 들어보자. 

$B_1 = {x : x = 7, 11}$ and $B_2 = {x: x = 2, 3, 12}$ 라고 할 때,

$P_x(B_1) & P_x(B_2)$를 구해보자. 그러면 간단하게 다음과 같이 나타내면 된다. 

 

 

Probability Density Function

 

Choosing a real number at random from (0, 1).

Let $X$ be the number chosen & the space of $ X $ is $ D $(데, space의 개념이다.) = (0, 1).

 

The pdf of $X$ is $f_X(x) = I_(0 < x < 1)$, where $I_A$ be an indicator function of a set $A$.

 

E.g. the probability that $X$ is less than an eighth or greater than seven eights is 

$$ P[{X < 1/8} \cup {X > 7/8}] = \int_0^\frac{1}{8} \mathrm{d}x + \int_\frac{7}{8}^1 \mathrm{d}x = \frac{1}{4}$$ 

 

 

Cumulative Distribution Function(CDF)

 

Example 

Suppose we roll a fair die. Let $X$ be the upface of the roll and the space of $X$ is {1, 2, 3, 4, 5, 6}.  

 

The pmf is $p_X(i) = 1/ 6, i = 1, 2, 3, 4, 5, 6$.

If $x < 1, P(X \leq x) = 0$; If $1 \leq x < 2, P(X \leq x) = p_X(1) = 1 /6$, and so on. 

 

Hence, the cdf of $X$ is

 

 

= 위에 D가 있는 것은 X 와 Y의 확률 변수가 같다는 의미가 아니라 CDF가 같다는 뜻이다. 즉, 분포적 성질이 같다는 것과 같다. 

 

 

Theorems

'통계학 > 수리통계학(Mathematical Statistics)' 카테고리의 다른 글

Continuous Random Variables  (0) 2024.10.04
Discrete Random Variables  (1) 2024.10.04
Conditional Probability and Independence  (1) 2024.09.16
Sigma Field  (1) 2024.09.16
Set Theory  (0) 2024.09.07

드디어.. 드디어! 

 

연정이랑 같이 이번에 서울여행을 가게 되었다. 

 

무척이나 기대가 되었다. 왜냐하면 이번 서울여행은 내가 가자고 가자고 계속 졸라서 겨우 온거기 때문이다. 

 

그렇기에 무조건 이번 여행은 좋은 여행으로 기억 남게 동선도 깔끔하게 짰다. 

 

예감이 좋다.. 후후

 

1일차!! 

 

ㅠㅠㅠㅠ 1일차에 계획했던 순두부 찌개 전문점이 개인 사정으로 휴업해서... 저녁을 제 시간에 못 먹게 되었다.. 

 

진짜 여기 엄청 기대했는데..ㅠㅠㅠ

 

결국 사진 한 장만 찍고

우리는 다른 곳을 가야만했다..

 

 

하지만 괜찮다..

 

우리에게는 계획해놓은 2차 맛집 닭발집도 있기 때문이다..!!! 

 

그러나! 

 

닭발집도 웨이팅이 너무 길어서 배고팠던 우리는 결국에 맛이 보장되는...

 

역할맥에 갔다...

 

역할맥에서 먹은 라볶이

 

프랜차이즈라 그런지 맛은 보장된 상태였는데,

 

삼계에서 먹었던 라볶이에 비해 맛이 조금 별로였다.. 그래도 뭐 연정이랑 얘기는 이때 재밌게 했던 거 같아서 나름 만족!

 

그러고 난 다음에 교보문고와

무한도전 쩐의 전쟁에서 나왔던 장면이 떠올라 더 재밌었던것 같다.. 쿸쿸

 

청계천을 갔다!

 

청계천 갔을 때 처음 든 생각은 '와 서울은 산책로가 이렇게 좋네' 였다.

 

확실히 사람들도 많고 활기 넘치고 다들 굉장히 행복해보였다.

그저 걷는 연정이

 

다소곳한 연정이

 

그리고 청계천에서 연정이 사진을 많이 찍었는데 이제보니 위의 사진 빼고는 그렇게 막 잘 나온 사진이 없어서 바로 패스하겠다 ㅋㅋ

 

그런데 우리가 저녁을 역할맥에서만 먹어서 배가 너무 고픈 상태였는데, 진짜 너무너무 배고파서 그냥 숙소에서 아구찜이랑 소주 한 병 딱 마시기로 했다. 근데 이 때 먹었던 아구찜이 진짜 개맛있었다..

 

사진을 찍었다면 정말 좋았겠지만 아구찜 너무 정신없이 먹고 술도 먹은 상태여서 사진은 못 찍었고 그냥 빠르게 먹고 정리하고 씻고 다음날에 일정이 바쁘니 바로 자버렸다.

 

 

2일차!! 

 

사실 1일차는 아쉽긴 하지만 2일차가 사실 진짜 메인이다.

 

2일차에 신촌도 갈거고 더현대도 갈거고 한강도 갈거기 때문이다!! 

 

그래서 우리는 굉장히 분주하게 움직였다. 일어나자마자 팔레트 샐러드라는 식당을 갔는데

 

연정이는 샐러드와 비프, 나는 샐러드와 연어가 있는 음식을 먹었는데 

건강한 식단이기는 했다.. 고기가 좀 더 많았으면 좋았을텐뎁.. 하핫

 

공복 8시간 만에 음식을 먹을 생각하니 기분 좋은 연정;;

 

나는 그저 그랬는데 연정이는 굉장히 맛있었다고 한다.

식당 나오면서 찍은 사진

 

위의 사진에서 내가 옷을 벗고 있는데 굉장히 이때 더웠다. 지금 보니깐 엄청 탔네

 

둘 다 더워서 빨리 버스 오기를 기다렸던 기억이 새록새록하답

 

근데 여기서 느꼈는데 확실히 서울이 교통이 잘 돼있다고 생각했던게 버스 노선도 많고 지하철 노선도 많아서 어디든지 갈 수 있다는 점이다. 다만 아쉬운 점은 사람이 너무 많아서 사람에 치인다는 게 조금 아쉬웠다. 뭐 그래도 이 정도면 난 좋다~

 

그리고 더현대를 갔는데

 

평소에 아이스크림 비싸게 먹는다고 하면 베스킨 라빈스만 먹어서 여기 무슨 브랜드인지는 모르는데 그냥 더워서 내가 먹자고 하고 연정이랑 같이 먹었다 ㅋㅋ

 

 

아니 근데 너무 맛있어서 놀랬다

 

여기에 올 일이 있을지는 모르겠지만 다음 번에 오면 꼭 한번 더 먹으러 올거다

 

아이스크림 기다리면서 한 컷

 

아이스크림 기다리며 연정이 혼자 한 컷

 

 

그러고 난 다음에 

 

연필이나 볼펜 같은 걸 굉장히 좋아하는 연정이는 문방구 비스무리한 곳을 가보자고 해서 가봤는데

볼펜들

 

진짜 볼펜들 다양하게 있어서 볼만 했던 것 같다. 하하하하

 

볼펜으로 흔적 남겨주면서~

 

 

그리고 더 많이 지하 1층을 계속 돌아다녔는데 딱히 흥미로운 곳은 없어서 올라가기로 결정했다. 

 

그런데 올라가기 바로 전에 인생네컷 사진을 찍는 곳이 있어서 

 

추억 남길겸 한 번 찍어봤다. 

헤헤

 

찍을 때는 몰랐는데 생각보다 잘 나와서 기분이 좋았던 것 같다.

 

기분이 좋아진 우리는 인생네컷 찍는 곳 거울에서 한 장 더 찍었다.

 

킬포: 연정이의 케이스

 

후후.. 그러고 진짜로 더현대 최고층에 가기로 하고 자리를 옮겼다. 

 

근데 생각보다 별 거 없어서 사진을 몇 장 안 찍었다.

 

찍은 거라고는 

다양한 표정을 시도하는 연정;;

 

7층인가 8층의 풍경이 보이는 곳에서 한 장 정도였다. 

 

사실 이 때 너무 많이 걸어서 힘이 들었다. 그 힘듦을 나타내는 영상이 하나 있어서 업로드 하고 싶은데 영상이 용량이 커서 안된다고 한다.

 

어쨌든 이렇게 더현대에서의 일정도 마무리했으니 가장 기대가 되는 한강으로 가보도록 하자!

 

그런데 저녁을 안 먹어서 너무 배고팠기에 일단 먼저 라면을 먹기로 했다. 

 

맛있었다..ㅠㅠ 고생하다가 먹어서 그런가 굉장히 맛있었다. 

나: 여..연정아.. 안 뺏어먹는다..

 

연정이가 평소에 소식좌라 많이 안 먹을 때가 많은데 이번에 라면 먹을 때는 굉장히 전투적으로 먹었다. 

그 만큼 맛있으셨다는 거지~ 

 

저 사진 계속 보니깐 글을 쓰고 있는 지금 라면이 조금 땡긴다

 

나중에 라면 먹으러가야징

 

라면 먹고 연정이가 사진을 찍어줬는데 굉장히 마음에 들었다.

 

연정이는 참 사진을 잘 찍는 것 같다 하하

 

라면을 다 먹고 한강을 배경으로 사진 몇 개 좀 찍었으면 해서 한 번 찍어보았다.

 

해탈한 연정이

 

연정이는 사진을 잘 찍는다 굳

 

자전거를 타러 갔는데 연정이가 자전거를 오랫동안 탄 적이 없어서 굉장히 무서워했다.

 

그래서 자전거를 타면서 영상은 못 찍었는데 

 

너무 재밌었다. 한강 주변에는 자전거 도로가 정말 잘 돼있었는데 이 점은 굉장히 좋았던 것 같다.

KakaoTalk_20240916_172617540.mp4
11.07MB

반납하러 가는 모습

 

그런데 사람들이 진짜 너무너무너무너무 많았다. 

 

진짜 한강에 사람 많다는 말은 많이 들었는데 이 정도일 줄이야 어후

 

뭐 어쨌든 이렇게 한강의 일정도 마무리했는데

 

마지막에 숙소로 가기 전에 버스 정류장을 헷갈려서 버스들 놓칠 뻔 했는데 다행히 이상한 점을 빨리 알아차려서 제 때 버스를 탈 수 있었다. 

 

2일차는 굉장히 많이 걸었다. 하루 동안 2만 걸음 이상을 걸어서 그런지 매우 피곤했다. 

 

그래도 1일차에 비하면 굉장히 만족스러웠다.

 

 

 

3일차!!

 

3일차는 2일차때 자기 전에 술을 조금 마셨기 때문에 아침에 해장한다는 느낌으로 연정이가 찾아 놓은 국밥집을 갔다. 

 

 

맛있었다! 그런데 국밥 가격치고는 너무 비싸고 오징어 순대도 양이 무슨 병아리 눈물만큼 줘서 진짜 화가 났다!

 

그런데 뭐 연정이 말로는 원래 오징어 순대 양은 그 정도가 맞다고 하니.. 암튼 만족스러운 식당은 아니었다. 

 

식사를 마치고 근처에 별마당 도서관이 있다고 해서 별마당 도서관을 가려고 했는데 알고보니 

 

코엑스에 별마당 도서관이 있어서 코엑스 근처에 팝업스토어가 있으면 가기로 했다. 

 

그렇게 해서 도착한 별마당 도서관!

 

웅장하긴 한데 내가 생각했던 웅장함과 비교하자면 많이 아쉬웠다.

 

약간 과시만 하는 그런 느낌이라 별로였다.... (지극히 개인적인 의견입니답)

 

 

코엑스가 별마당 도서관을 기준으로 여기저기 둘러볼 수 있는 형태라 우리가 안 가본 방향으로 발걸음을 옮겼는데 두바이 초콜릿을 한정 판매하는 곳을 보고 '이건 못 참지'하고 바로 가서 먹어보았다. 

 

처음 먹어보는거라 약간 설렜다ㅋㅋ

 

시중에서 먹는 초콜릿이랑은 다른 식감이라 새로웠다. 

 

처음에는 너무 딱딱해서 별로였는데 살짝 녹으니 달달하고 씹는 느낌이 좋아서 맛있게 먹었던 것 같다. 

 

 

다먹고는 코엑스에서 막걸리와 와인 시음회를 하길래 가서 시음해봤는데

 

막걸리는 너무 맛있었는데 와인은 별로... ㅋㅋㅋㅋ 연정이도 와인을 먹을 때는 표정이 별로 안 좋았던 것 같다ㅋㅋㅋ

 

그러고 난 다음에 각자의 집으로 가기위해 우리는 서울역으로 출발했다. 

 

지하철역에서 지하철을 타려고 하는데 우리가 도착할 타이밍에 맞춰 지하철이 출발해버려서 많이 기다려야 했다. 

 

그 동안 우리는 지하철역 풍경과 서로의 사진을 찍었다. 

이렇게 찍어서 보니 굉장히 느낌이 있었다.

 

 

연정이는 사진을 잘 찍는다2
풍경사진을 찍는 연정이 사진을 찍는 나

 

무슨 감성인지는 모르겠지만 어쨌든 감성사진이라고 하는 연정이

 

ㅋㅋㅋㅋㅋㅋㅋㅋㅋ

이렇게 보니 코엑스에서보다 지하철역에서 더 사진을 많이 찍은 것 같다ㅋㅋㅋㅋ

 

 

어쨌든 이렇게 우리는 여행을 마무리하고 

 

각자의 대학교로 출발했다.

 

개강하기 전에 마지막 힐링이었는데

 

서울을 갔다 온 느낌으로는 나는 지방에서 살아야겠다는 것이었다 ㅋㅋㅋ

 

서울은 다양한 사람이 있고 활기가 넘치지만 그 만큼 사람이 너무 많아서 사람이 치이고 복잡하다.

 

연정이도 서울여행을 갔다오면 서울살이에 대한 욕구가 생길 것 같다고 했는데 이번 여행 후 그런 느낌은 싹 사라졌다고 했다ㅋㅋㅋㅋ

 

어쨌든 2024년 여름방학을 마무리하는 아주 재밌는 여행이었다. 다음번에는 연정이랑 해외여행을 한 번 가볼 수 있도록 경제적 여건이랑 시간을 만들어봐야겠다!!

 

파이팅!!

 

 

(긴 여행 기록기를 읽으시느라 고생하셨고 감사합니다! 좋은 하루 되세요!)

'일상 > 일기' 카테고리의 다른 글

공모전 때문에 심란해서 쓰는 일기(24.11.12)  (6) 2024.11.12
요즘 근황(24.09.23)  (6) 2024.09.23
24.08.21 (수) - 계곡여행 + 앞으로의 다짐(?)  (2) 2024.08.21
오랜만에 일기  (0) 2024.04.02
24년도 새해목표  (0) 2024.01.26

Conditional Probability (조건부 확률)


The probability that $C_2$ occurs given that event $C_1$ has occurred is called the conditional probability of $C_2$ given $C_1$ and is defined by 

 

그림으로 표현하자면 아래와 같다.

Conditional probability is a probability? 

조건부확률이 확률의 정의를 만족하는지 살펴보자.

 

Properites of Conditional Probability

 

Ex. Four cards are to be dealt successively, at random and without replacement, from an ordinary deck of playing cards. The probability of receving a spade, a heart, a diamond, and a club, in that order is.. 

 

$C_1$ : 1st - 13 / 52

$C_2$ : 2nd - 13 / 51

$C_3$ : 3rd - 13 / 50

$C_4$ : 4th - 13 / 49

 

(카드 놀이에서 4번을 뽑는데 각각 다른 걸 뽑을 확률을 나타낸 것)

 

 

- Prior probability vs. posterior probability

- Let $C_1, ... C_k$ : k causes of an event.

- P($C_i$) indicates the chance of $i$th cause.

  If known, it is obtained from the past investigation >>>> prior probability 

  (쉽게 말해 알려진 확률을 prior probability)

- P($C_i | C$) indicates the chance of $i$th cause when the event $C$ happened.

  It updates the past information >>>> posterior probability

 

 

Independence

  1. Statistically / stochastically independent means independent in a probability sense.
  2. Two events A and B are independent if and only if $P(A|B) = P(A|B^c) = P(A)$ or $P(B|A) =P(B|A^c) = P(B)$. Otherwise, they are independent.
  3. Events $C_1, C_2, C_3$  are pairwise independents if and only if $P(C_1 \cap C_2) = P(C_1)P(C_2)$, $P(C_1 \cap C_3) = P(C_1)P(C_3)$, $P(C2 \cap C_3) = P(C_2)P(C_3)$.

 

Mutual Independence (모든 경우가 독립이면)

 

ex. Pairwise independence does not imply mutual independence

1,2,3,4가 적혀있는 spinner를 2번 돌렸다. 

$C_1$은 두 번 돌린 spinner의 숫자의 합이 5가 되는 사건이고, $C_2$는 첫 번째 돌렸을 때 1이 나오면 되는 사건이고, $C_3$는 두 번째 돌렸을 때 4가 나오면 되는 사건이다. 

 

표를 통해서 모든 경우의 수를 생각해보면

1st \ 2nd 1 2 3 4
1 (1, 1) (1, 2)  (1, 3) (1, 4)
2 (2, 1) (2, 2) (2, 3) (2, 4)
3 (3, 1) (3, 2) (3, 3) (3, 4)
4 (4, 1)  (4, 2) (4, 3) (4, 4)

 

$C_1$ > 빨간색

$C_2$ > 파란색

$C_3$ > 민트색

 

Then $P(C_i) = 1/4, i = 1, 2, 3$, and for $i \neq j$, $P(C_i \cap C_j) = 1/16$.

Thus, C_1, C_2, C_3 are pairwise independent.

 

But, $C_1 \cap C_2 \cap C_3$ is the event that (1, 4) is spun and its probability is 1/16.

$P(C_1 \cap C_2 \cap C_3) = 1 / 4 \times 1/4 \times 1/4 \neq 1 / 16 $

 

이것이 의미하는 것이 두 사건이 독립이라고 해서 mutual independence가 성립한다고 보장할 수 없다를 예제를 통해서 확인할 수 있다. 

 

'통계학 > 수리통계학(Mathematical Statistics)' 카테고리의 다른 글

Discrete Random Variables  (1) 2024.10.04
Random variables  (3) 2024.09.20
Sigma Field  (1) 2024.09.16
Set Theory  (0) 2024.09.07
Basic Concepts  (1) 2024.09.07

$\sigma$-field

 

$ \sigma $ - field는 위의 세 조건을 반드시 만족해야한다. 

 

Example

1. Find the smallest $\sigma$-field of subsets of $C$(체) = {1, 2, 3}.

2. Find the largest $\sigma$-field of subsets of $C$(체) = {1, 2, 3}.

 

 

 

Probability Space

 

 

 

 

Theorems 

 

 

 

Remark

 

Thm 3.6. Continuity Property

위의 특징을 시각화하면 아래의 그림과 같다.

반드시 increasing sequence라는 조건이 있어야 한다.

증명을 해보면

파란색 별 모양이 의미하는 것이 $C_n$이 increasing sequence 중에서 가장 마지막에 나오는 집합이기에 앞서 나온 집합들을 다 포함할 수 있다는 것이다. 그러고 난 다음에 우리는 donut 모양으로 집합을 생각할 것인데 이것은 mutually exclusive의 성질을 사용하여 집합의 덧셈으로 표현하기 위함이다. 아래와 같이 표현할 수있다. 

 

그러면 mutually exclusive 하기에 다음과 같이 표현이 가능하다.

 

 

 

decreasing sequence의 경우에도 같은 방향으로 살펴볼 수 있다. 그런데 이 때는 여집합을 사용해서 mutually exclusive한 성질을 사용하고자 한다. 

이것이 성립하기 때문에 모든 식에 여집합을 취해주면 증명하고자 하는 식이 도출된다. 

 

'통계학 > 수리통계학(Mathematical Statistics)' 카테고리의 다른 글

Discrete Random Variables  (1) 2024.10.04
Random variables  (3) 2024.09.20
Conditional Probability and Independence  (1) 2024.09.16
Set Theory  (0) 2024.09.07
Basic Concepts  (1) 2024.09.07

+ Recent posts