목록Coding/Project(Data-analysis) (11)
exestudiary
GPT한테 물어보니깐 다음과 같이 쓰면 논리적일 것 같다고 해서 이렇게 씁니답.1. 공모전에 참여한 이유공모전에 어떻게 관심을 가지게 되었나요? 학교에서 수업 시간에 공모전에 참여하여 개개인마다의 인사이트를 얻고 발표를 하라는 교수님의 지시에 공모전을 찾아보다가 한 팀원이 '여기에 참여해보자!' 하여 24년 홍천군 공모전에 참여하게 되었습니다.참가하게 된 계기나 목표가 있었나요? 기왕 참가하게 된 거 상은 무조건 타고 간다는 마인드였습니다. '세상은 2등은 기억해주지 않기 때문에 1등 해보자라는 마음가짐'이였습니다.2. 준비 과정어떤 방식으로 준비했나요? (팀원 구성, 역할 분배, 공부 방법 등)팀원들 중 2명은 서류 작성에 많은 도움을 주셨고, 저랑 다른 팀원 한 명은 전반적인 데이터를 분석하는 역할..
ACF(자기상관 함수 - 왼쪽) 플롯은 시계열 데이터의 현재 값과 과거 값 사이의 상관 관계를 시간 지연에 따라 보여준다.PACF(부분 자기상관 함수 - 오른쪽)플롯은 시간 지연 간의 상관 관계를 보여준다. 이는 다른 지연의 영향을 배제한 후의 상관 관계를 나타낸다. ACF 그래프는 라그(lag) 증가함에 따라 상관계수가 천천히 감소하는 패턴을 보여준다.일반적으로 이런 패턴은 데이터에 계절성이나 추세와 같은 비정상적인 성분이 포함되어 있을 수 있음을 나타낸다.그러나 이 경우, ADF 테스트를 통해 데이터가 정상 시계열임을 확인했기에 ACF 그래프에서 나타나는 느린 감소나 주기적 패턴에도 불구하고, 우리는 이 데이터를 정상적인 시계열로 간주하고 ARIMA 모델링에 사용할 것이다.이로 인해 비정상 시계열..
정상성시계열 데이터의 통계적 속성이 시간에 따라 변하지 않음을 의미하는데, 데이터의 평균과 분산이 일정함을 의미한다. adfuller() 함수를 통해 시계열 데이터의 정상성을 검증하기 위한 Augmented Dicker-Fuller 테스트를 수행한다.from statsmodels.tsa.stattools import adfuller# ADF 테스트adf_result = adfuller(train_data['평균기온'])print(f'ADF 통계값: {adf_result[0]}')print(f'p-value: {adf_result[1]}') ADF 테스트ADF 테스트는 '단위근'이라는 특정 유형의 비정상성을 확인한다. 이 테스트에서 계산되는 ADF 통계치는 데이터에 단위근이 없다는 대립 가설에 대한 증거를..
평균 절대 오차 (Mean Absolute Error, MAE) MAE는 회귀 문제에서 모델의 정확도를 평가하는데 사용되는 방법 중 하나이다. MAE는 실제값과 예측값 간의 차이의 절대값의 평균을 의미한다. 이는 모델의 예측이 얼마나 정확한지를 나타내는 지표로, 값이 낮을수록 더 정확한 예측을 의미한다. 장점모든 오차의 절대값을 평균을 계산하므로, 예측하고자 하는 단위가 동일하다. (예: MAE가 5라면 모델이 평균적으로 실제값과 5정도 차이남을 나타낸다.)다른 평가 지표에 비해 이상치에 덜 민감하다. 단점모든 오차를 동일하게 취급하므로, 특정 오차에 가중치를 주고싶을 경우 부적절한 평가방법일 수 있다.
ARIMA - 자기회귀 누적 이동 평균 (Autoregressive Integrated Moving Average)의 약자- 시계열 데이터의 과거 값과 오류를 사용하여 미래 값을 예측- 이 모델은 자기회귀(AR), 차분(I), 이동평균(MA) 세 가지의 구성 요소로 이루어져 있음. 자기회귀(AR)'자기회귀'는 과거의 값들이 미래 값에 어떤 영향을 미치는지를 설명한다.예를 들어, 지난 주의 판매량이 이번 주의 판매량에 영향을 미치는 경우, 이는 자기 회귀 관계에 해당한다.AR 부분에서는 'p'라는 파라미터를 사용하는데, 이는 과거 데이터 포인트 중 얼마나 많은 것을 고려할 것인지를 결정한다. 차분(I)'차분'은 비정상적인 시계열 데이터를 정상적인 상태로 만들기 위해 사용된다.비정상 시계열은 평균, 분산 등..
한글폰트 적용 - 코랩 !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf Fixed Random Seed seed 값에 의해 동일한 코드를 사용해도 결과가 다를 수 있기에, 동일한 결과를 위해 seed값을 고정시킵니다. import numpy as np import random import os def seed_everything(seed): random.seed(seed) os.environ['PYTHONHASHSEED'] = str(seed) np.random.seed(seed) seed_everything(42) # Seed 고정 데이터 불러오기 및 확인 import pandas as pd train..
코칭스터디 2024 1. 데이터 구성 Kaggle 데이터셋( https://www.kaggle.com/blastchar/telco-customer-churn )은 통신사 고객 이탈(Churn)에 대한 정보 IBM에서 제공했으며 고객 데이터를 분석하여 고객 유지 프로그램을 개발하는 데 도움이 됨. 고객 인구 통계 정보(Demographic info): 고객의 성별, 연령대, 배우자 및 부양 가족의 유무(Gender, SeniorCitizen, Partner, Dependents) 고객 이탈(Churn) 정보: 서비스를 중단 여부에 대한 정보 서비스 가입 정보(Services subscribed): 고객들이 가입한 서비스들, 예를 들어 전화, 다중 라인, 인터넷, 온라인 보안, 온라인 백업, 장치 보호, 기..
train = raw_data_train.copy() test = raw_data_test.copy() submission = raw_data_submission.copy() 원본 데이터를 보존하면서 독립적으로 작업하기 위해 사용 원본 데이터를 직접 수정하는 대신, 복사하여 새로운 데이터프레임을 생성하면 원본 데이터의 무결성 보존 가능 copy() 메서드를 사용하여 원본 데이터를 복사하는 방법은 데이터프레임의 독립성을 유지하고, 원본 데이터와의 연관성을 끊을 수 있음.
출처 : 데이콘 train.csv : 모델을 학습하기 위해 사용하는 데이터 test.csv : 모델을 통해 정답을 예측하기 위해 사용하는 데이터 sample_submission.csv : 예측한 정답 값을 기록하여 제출하기 위한 샘플 정답 파일 순서 (출처: 데이콘, 영화 관객 수 예측 프로젝트) 1. 데이터 불러오기 2. 데이터 확인 3. 데이터 이해 4. 결측치 이해 5. 결측치 처리 6. 모델 구조의 이해 7. 모델링
