scanf("변환 명세", &변수명)

 

- &변수명

  • scanf에서는 입력된 값을 저장할 기억장소의 주소를 명시해야 하므로 변수명 앞에 반드시 &(ampersand)를 붙여야함.
  • 문자열의 경우에는 &를 붙이지 않는다. (문자열은 %s)

- 사용시 주의사항

1. 변환명세 안에 변환명세가 아닌 문자는 사용X.

  • 예: scanf("키를 입력하세요: %d", &height) (X);
  • 예: printf("키를 입력하세요: "); scanf("%d, &height");

2. 변환명세에서 큰 따옴표로 닫기 전에 공백문자 사용X.

  • scanf("%d  ", &height); (X)
  • scanf("%d\t", &height); (X)
  • scanf("%d\n", &height); (X)
  • 이 경우 정수 입력 후 엔터키를 눌러도 %d 뒤의 공백문자 때문에 공백 문자가 아닌 데이터를 추가로 입력하여야 scanf가 완료된다.
  • scanf("%d", &height); (O)

3. 변환명세에서 필드폭은 꼭 필요할 때만 사용한다.

  • 예: 만약 height = 1234
  • scanf("%3d", &height);
  • scanf("%d", &age);
  • 이러면 처음에는 123이 height가 저장되는데
  • 나머지 정수 4가 age에 저장됨. 

4. 자료형에 맞는 변환 지시자(d, lf, c, s 등)를 사용해야 한다.

 

 

%s를 사용한 문자열 입력

char name[10];

printf("이름은? ");
scanf("%s", name);
printf("입력한 이름: %s", name);

 

 

 

여러 개의 자료를 한꺼번에 입력하기

int n1, n2, n3, n4;

printf("곱셈을 하고 싶은 두 개의 정수는? ");
scanf("%d %d", &n1, &n2);
printf("\n덧셈을 하고 싶은 두 개의 정수는? ");
scanf("%d, %d", &n3, &n4);

이런 식으로 데이터 구분자를 해줘서 입력해줘야함.

 

'프로그래밍 > C,C++' 카테고리의 다른 글

C,C++ - 제어문(if)  (0) 2024.04.03
C,C++ - 다양한 연산  (0) 2024.04.03
C,C++ - 필드폭과 정밀도 지정  (0) 2024.04.02
C, C++ - 변수 생성  (0) 2024.04.01
C,C++ - 문자, 문자열 상수 표현 문법  (1) 2024.04.01

%d를 사용한 정수 출력

%필드폭d

> 필드폭: 자료를 출력하는데 사용할 전체 칸을 의미

> d: 자료를 정수 형식으로 출력하라는 의미

> 정수형 자료를 출력하기 위해 필드폭 만큼의 칸을 확보한 후 출력 자료를 오른쪽 정렬 방식에 맞추어 출력

 

%+필드폭d

> +: 무조건 부호 출력을 지정하는 것으로 출력하는 값이 양수라면 숫자 앞에 '+'를 음수라면 '-'를 출력한다.

 

%-필드폭d

> -: 왼쪽 정렬을 지정하는 것으로 출력할 값의 첫 숫자와 왼쪽 첫 칸을 맞추어 출력

 

int n = 123;

printf("n = %d\n", n);
printf("n = %5d\n", n);
printf("n = %+5d\n", n);
printf("n = %-5d\n", n);
printf("n = %-+5d\n", n);

 

결과

n = 123
n =   123
n =  +123
n = 123
n = +123

 

 

%lf를 사용한 정수 출력

%필드폭.정밀도1f

> 필드폭: 전체 출력 칸을 의미

> f: 자료를 실수 형식으로 출력하라는 의미

> 정밀도: 소수점 아래 몇 자리까지 출력할지를 지정

 

%.정밀도1f

> 정밀도: 소수점 아래 몇 자리까지 출력하지를 결정

> 소수점 위의 값은 꼭 필요한 만큼만 칸을 확보하여 출력한다.

> 출력한 값에 포함된 소수점 아래 값의 자리가 지정한 정밀도보다 크다면 (정밀도 +1)번째 자리에서 반올림하여 출력.

 

# include <stdio.h>

int main()
{
	double ave = 83.768;

	printf("ave = %7.3lf\n", ave);
	printf("ave = %6.2lf\n", ave);
	printf("ave = %.2lf\n", ave);
	printf("ave = %10lf\n", ave);
	printf("ave = %5.lf\n", ave);

	return 0;
}

 

결과

 

'프로그래밍 > C,C++' 카테고리의 다른 글

C,C++ - 다양한 연산  (0) 2024.04.03
C,C++ - 입력함수 scanf()  (0) 2024.04.02
C, C++ - 변수 생성  (0) 2024.04.01
C,C++ - 문자, 문자열 상수 표현 문법  (1) 2024.04.01
C언어와 코딩 (INTRO)  (0) 2024.04.01

학기가 시작되고 3월 한 달이 지나갔다. 

나는 방학 때는 내 삶이 너무 지루하고 진부해서 빨리 학교를 가서 새로운 사람 만나면서 성장하고 싶다는 생각이 굉장히 컸다. 그런데 막상 와보니 그런 마음은 이제 사라지고 빨리 방학을 맞이하고 싶은 그런 마음이다..ㅋㅋㅋ

 

3월 한 달 동안 많은 일이 있었다. 로봇 관련 프로젝트 한답시고 전공과목 다 빼고 로봇 관련 과목을 채워서 들을려고 하지를 않나, 하다가 아닌 것 같아 교수님들께 찾아가서 증원신청하지를 않나 참 많이 바빴다. 혼자서 북치고 장구치고 다했다.

 

그런데 이 당시 굉장히 힘들었다. 내가 한 선택에 대해 책임은 져야하는데, 내가 그럴만한 능력이 없고 안일했다는 생각이 계속 들었다. 이러던 때에 연정이가 해준 말이 굉장히 기억에 남는데, 바로 "어떤 선택을 하든 후회는 남아. 그런데 그 선택을 옳게 만드는 건 대성이 몫이지." 맞는 말이다. 생각해보면 작년에도 내가 선택을 잘못해서 한 과목을 드랍 못해서 후회했는데 결국에는 열심히해서 좋은 결과를 얻을 수 있었다.

 

증원 신청한 교수님께서도 굉장히 좋은 말씀을 해주셨는데, "학생은 이미 로봇 쪽으로는 길이 아니라는 걸 깨달았잖아요. 그럼 그건 실패가 아니라 그게 아니라는 걸 깨달아서 오히려 성공인거지. 생각하기 나름이에요." 어느 한 분야에 베테랑이 되면 말 한마디 한마디가 무게감이 많이 실리는 것 같다. 교수님의 말씀을 듣고 너무 힘이 되었다.

 

그래서 지금 현재 나는 어떤 상태냐? 뭐 시험 기간 다가와서 굉장히 긴장되고 성적 잘 받고 싶다는 욕심이 큰 상태이긴 하다. 그런데 내가 이번년도 새해 목표에 '과욕금지!' 라고 한 걸 봤다. 그렇다. 지금 나는 너무너무넘누먼너무 욕심이 큰 상태이다. 이 욕심을 조금은 버릴 필요가 있는 것 같다. 과욕은 나를 옥죄고 이게 독이 되어 잘 되던 일도 이상하게 만드는 것 같다. 이럴 때마다 책을 읽어야겠다. 저번에 이 상황에서 읽었던 자기계발서 "그릿"이라는 책이 있는데 굉장히 좋았던 것 같다. 한번 더 읽으면서 마음을 달래야겠다.

 

음 뭐 결론은 욕심 과하게 부리지말고 최선을 다하고 너무 불안해하지 않기. 아직 나는 젊으니깐 잘하고 있으니깐 이대로만 쭉하면 되지 않을까? 암암 

 

파이팅하고 시험기간 동안 힘들 사람들 모두 파이팅!

'일상 > 일기' 카테고리의 다른 글

24.08.30 - 24.09.01 서울여행  (7) 2024.09.16
24.08.21 (수) - 계곡여행 + 앞으로의 다짐(?)  (2) 2024.08.21
24년도 새해목표  (0) 2024.01.26
24.01.26  (0) 2024.01.26
우매함의 봉우리  (2) 2023.12.05

변수 식별자 생성 규칙

- 기본규칙

  • 영문자 소문자, 대문자, 숫자, 언더라인('_')문자의 조합
  • 첫 문자는 숫자로 시작할 수 없음.
  • 예약어와 같은 이름을 사용할 수 없음.
  • 내장함수(printf, scanf 등)와 같은 이름의 사용을 권장하지 않음.

- 관습적 규칙

  • 역할에 맞는 이름을 만들 것
  • 길이에 제한이 없으나 31자 이하 권장

 

변수의 자료형

문자 char
정수 int
실수 float
실수 double

 

 

변수의 선언

# include <stdio.h>

int main()
{
	int inch = 25;
	float cm;

	cm = inch * 2.54;
	printf("%dinch는 %fcm입니다.", inch, cm);

	return 0;
}

 

결과: 25inch는 63.500000cm입니다.

'프로그래밍 > C,C++' 카테고리의 다른 글

C,C++ - 다양한 연산  (0) 2024.04.03
C,C++ - 입력함수 scanf()  (0) 2024.04.02
C,C++ - 필드폭과 정밀도 지정  (0) 2024.04.02
C,C++ - 문자, 문자열 상수 표현 문법  (1) 2024.04.01
C언어와 코딩 (INTRO)  (0) 2024.04.01
  일상에서의 문자 표현 C언어 문자 표현법
문자 A 'A', '65', '\0x41'
문자 [엔터키] '\n'
문자열  홍길동 "홍길동" (O), '홍길동' (X)

 

'홍길동'과 같이 두 개 이상의 문자를 넣을 수 없으며 이 경우 컴파일할 때 문법 오류가 발생한다.

C 문법에서 한글 한 문자 또한 단일 따옴표로 표현할 수 없다. "홍길동", "홍"과 같이 이중 따옴표를 사용(문자열)해야한다.

 

탈출문자

탈출문자  ASCII 문자 의미
\b BS 백스페이스
\t TAB
\n LF 개행
\" " 이중인용부호

 

 

++

C언어의 정수 상수 표현법

 

제일 앞에 보고 2진수인지 8진수인지 16진수인지 판단할 수 있음. 

=========

0b : 이진수

0 : 8진수

0x : 16진수

=========

 

 

 

'프로그래밍 > C,C++' 카테고리의 다른 글

C,C++ - 다양한 연산  (0) 2024.04.03
C,C++ - 입력함수 scanf()  (0) 2024.04.02
C,C++ - 필드폭과 정밀도 지정  (0) 2024.04.02
C, C++ - 변수 생성  (0) 2024.04.01
C언어와 코딩 (INTRO)  (0) 2024.04.01

코딩

> 문제해결과정 + 알맞은 언어

> 컴퓨팅적 사고력, 알고리즘, 코딩

 

기계어

> 0,1의 이진 코드만 이해할 수 있음.

 

어셈블리어 

> 기계어의 이진 명령 대신 ADD나 SUB와 같이 사람이 이해하기 쉬운 기호를 사용하도록 개발된 언어 

> 그런데 이것도 사람이 쓰는 자연어와는 거리가 멀어서 프로그램을 작성하는데에는 어려움이 여전히 있음.

 

고급언어

> 사람이 알아듣기 쉬움.

 

저급언어

> 컴퓨터와 밀접함,

> 기계어나 어셈블리어가 여기에 속함.

 

프로그램 개발 과정

  1. 요구사항 분석
  2. 설계(모듈 - 함수)
  3. 구현
  4. 테스트
  5. 배포 및 유지보수

소스파일은 기계어로 번역함.(컴파일)

 

 

C언어로 작성한 소스 파일에서 실행형 파일을 만들어 실행하는 과정 

 

소스파일 ---(컴파일링 - 컴파일러)---> 목적파일 ---(링킹)---> 실행파일 

(*.c, *.cpp)                                            (*.obj)                          (라이브러리 파일)

 

디버깅: 프로그램의 오류를 찾아내서 수정하는 과정

 

디버깅의 종류

  • 구문오류(컴파일 시간 오류 - 문법이 틀린 경우)
  • 링크오류(ex. 여러 소스 파일에 같은 이름의 함수가 중복으로 정의된 경우...)
  • 실행시간 오류(파일을 열고자 하는데 파일을 찾을 수 없을 때, )
  • 논리오류 (디버깅도구, 로그메시지 - 실행은 되지만 알고리즘이 잘못되어 의도한 대로 작동 X)

 

변수선언 > 입력 > 처리 > 출력

 

컴퓨터는 이산적 데이터만을 처리함.

 

비트는 데이터 표현의 최소 단위

ex) 8bits = 1byte

 

주석처리

  • // (한 줄)
  • /**/ (여러 줄)

'프로그래밍 > C,C++' 카테고리의 다른 글

C,C++ - 다양한 연산  (0) 2024.04.03
C,C++ - 입력함수 scanf()  (0) 2024.04.02
C,C++ - 필드폭과 정밀도 지정  (0) 2024.04.02
C, C++ - 변수 생성  (0) 2024.04.01
C,C++ - 문자, 문자열 상수 표현 문법  (1) 2024.04.01

이 책을 한 줄로 요약하자면 다음과 같다. 

'우리는 예지력을 갖고 미래를 알아맞힐 수는 없지만, 우리가 원하는 미래를 만들기 위해 노력하고 대응할 수 있습니다.'

 

 

 사람들은 예상하지 않은 미래가 오면 두려워한다. 그렇기 때문에 다가오는 미래에 대비하기 위해 각종 예방책과 대응수단을 마련한다. 카이스트 미래전략 2024는 미래에 효과적으로 대비하기 위해 과거와 현재, 미래를 한 권에 담아 독자에게 최대한 주관적인 요소를 배제하고 객관적으로 정보를 전달하고자 한다. 

 첫 번째 목차인 포스트 AI시대 휴머니즘의 미래는 도구가 어떻게 진화를 해왔는지 살펴보고 현 시점에 기술이 얼마만큼 발전했는지 설명한다. 가장 인상깊었던 목차는 초지능 사회를 열어줄 21세기 새로운 도구인데 여러 도구를 소개했지만 그 중 펌웨어의 도전 부분은 많이 충격적이었다. 이전에 필자는 사이버펑크라는 애니메이션을 본 적이 있는데 이 애니메이션은 2070년의 인간의 미래모습을 그린 작품으로 신체에 기계장치가 이식된 채로 살아가는 삶은 어떨지 보여준다. 이 작품을 보면서도 충격이었지만 실제로 비슷하게 그러한 시도를 현재 2023-2024년에 시행되고 있었다는 점이 충격이었다.

 한 가지 예를 소개하자면 최근 바이오닉스 분야에서 가장 뜨거운 이슈는 바로 인공 청각과 인공 시각이다. 인공 청각은 손상된 와우에 전극을 삽입해 전기신호로 변환된 소리를 청신경에 전달하는 장치인데 이미 1970년대에 사용화가 되어 선천적으로 청력을 잃은 많은 청각장애인에게 세상의 소리를 들려주고 있다고 한다. 또 일론머스크의 뇌공학 스타트업인 뉴럴링크는 뇌에 실 형태의 미세전극을 매우 높은 밀도로 정교하게 삽입하고 신경세포를 선택적으로 자극하거나 측정된 신경신호를 무선으로 전송하는 기술을 개발하고 있다. 이 기술이 상용화된다면 뇌를 직접 자극해 사물을 보게하고 소리를 듣게 하고 마비된 사지를 로봇의 힘을 빌려 움직일 수 있게 할 수 있다고 하는데 시간이 많이 걸리기는 하겠지만 실현된다면 이것 자체로 바이오 산업에서 챗GPT 만큼의 파장을 일으킬 수 있을거라고 생각한다. 하지만 이렇게 장애를 가진 사람들의 한계를 극복할 수 있는 장점이 될 수도 있지만 앞서말한 애니메이션 사이버펑크처럼 장애가 없는데도 신체의 기능을 높이기 위한 인간 증강의 기술로 활용될 수도 있다는 불안감도 준다. 이로 인해 인위적으로 개인의 능력을 증강한 사람이 그렇지 않은 사람보다 더 상위 계급이 되어 새로운 양극화를 만들어낼 수 있다. 따라서 우리가 원하는, 즉 인류의 행복을 위해서는 바이오닉스 기술의 감시와 통제는 필수적으로 이행되어야 할 것이다. 

 

 두 번째 목차인 변화에 대처하는 STEPPER 전략에서는 기업이나 국가, 개인, 가정이 다가오는 미래에 어떻게 대처해서 급변하는 사회에 대비할 수 있는지 담았다. 여기서 우리나라가 인구가 꾸준하게 감소하고 있는데 이에 대한 대비로 이민자를 수용해야한다는 얘기가 나온다. 이와 같은 유사 사례로 독일이 이민자 정책에 성공했다는 걸 알고 있었던 필자는 이 책에서 어떤 해결책을 제시할지 궁금했다. 여기서는 이민자 정책의 장단점을 따지기에 앞서 왜 인구감소가 문제인지 이민자 정책을 시행한 뒤의 우리나라가 어떤 사회로 뒤바뀔지를 설명했다. 일단 인구가 줄어든다는 것은 인재가 줄어든다는 것으로 이는 국가경쟁력의 약화로 이어진다. 그렇기에 해외 이민자들을 받아들여 우수인재 유치에 힘써야한다는 것이 주된 내용이었다. 그러나 해외 이민자들을 받아들였을 때의 우리 사회 구성원들이 제대로 수용할 수 있을지는 의문이다. 아직까지 외국인에 대한 편견이나 선입견이 존재하기에 이에 대한 교육이 필요하고 이민자들이 우리나라에 왔을 때 잘 자리잡을 수 있도록 해주는 것이 중요하다. 이 책에서는 인구감소의 문제에 대해 국가가 더욱 적극적으로 힘써줘야한다고 주장하고 있는 듯하다. 필자 또한 개개인의 노력만으로는 이 문제를 해결할 수 없다고 생각하기에 국가가 전면적으로 나서야한다고 생각한다. 이처럼 두 번째 목차에서는 STEPPER가 되기위해 우리는 무엇을 신경써줘야하는지 방향을 알려준다.

 

 '선비정신', 우리 선조들이 정파나 개인의 이해관계를 떠나서 오로지 대의와 국가, 백성을 위해 시시비비를 가리고자 하는 한국 고유의 정신. 요즘 우리나라에서는 이런 모습이 거의 보이지 않는 것 같다. 모두가 선비정신을 갖고 대의와 국가를 위해 자신이 맡은 위치에서 힘쓴다면 지금 현재 우리나라의 위기는 충분히 극복할 수 있을 것이라고 생각한다.

 

 2024년 세계의 정세와 우리나라의 상황, 그리고 산업의 동향을 한 권의 책을 통해 대략적으로 파악하고 자신만의 새로운 인사이트를 얻고 싶은 분들에게 이 책을 추천한다. 

'독서 > 과학' 카테고리의 다른 글

K반도체 대전략  (1) 2024.07.08
AI 이후의 세계  (1) 2024.01.19

한글폰트 적용 - 코랩

!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

 

Fixed Random Seed 

seed 값에 의해 동일한 코드를 사용해도 결과가 다를 수 있기에, 동일한 결과를 위해 seed값을 고정시킵니다.

import numpy as np
import random
import os

def seed_everything(seed):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)

seed_everything(42) # Seed 고정

 

데이터 불러오기 및 확인 

import pandas as pd

train_df = pd.read_csv('/content/sample_data/train.csv')
test_df = pd.read_csv('/content/sample_data/test.csv')

display(train_df.head(3))
display(test_df.head(3))

 

 

EDA

범주형 변수 확인

# 시각화 패키지 불러오기
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

# 한글 폰트 설정하기
fe = fm.FontEntry(fname = 'MaruBuri-Regular.otf', name = 'MaruBuri')
fm.fontManager.ttflist.insert(0, fe)
plt.rc('font', family='NanumBarunGothic')

fig, axes = plt.subplots(2, 2, figsize=(25,10)) # 2x2 형식으로 4개 그래프 동시에 표시

sns.countplot(x = train_df['대출기간'], ax=axes[0][0]).set_title('대출기간')
sns.countplot(x = train_df['근로기간'], ax=axes[0][1]).set_title('근로기간')
sns.countplot(x = train_df['주택소유상태'], ax=axes[1][0]).set_title('주택소유상태')
sns.countplot(x = train_df['대출목적'], ax=axes[1][1]).set_title('대출목적')

plt.show()

 

근로기간에서 < 1 year이랑 <1 year이 있는걸 확인했습니다.

둘 다 똑같은 의미를 취하는 것이기에 같게 만들어주는 작업이 필요할 듯 합니다.

그런데 근로기간의 데이터를 다시 한번 살펴보니 year에 3이 들어가있는걸 확인했고 10+ year, 1year도 중복이 되기에 마찬가지로 바꿔줍니다.

 

fig, axes = plt.subplots(2, 2, figsize=(25,10)) # 2x2 형식으로 4개 그래프 동시에 표시

sns.countplot(x = train_df['대출기간'], ax=axes[0][0]).set_title('대출기간')
sns.countplot(x = train_df['근로기간'], ax=axes[0][1]).set_title('근로기간')
sns.countplot(x = train_df['주택소유상태'], ax=axes[1][0]).set_title('주택소유상태')
sns.countplot(x = train_df['대출목적'], ax=axes[1][1]).set_title('대출목적')

plt.show()

 

다시 확인해주면 잘 처리된걸 확인할 수 있습니다.

 

세분화된 변수형 찾기

# '범주형 변수 찾기'
numeric_columns = train_df.select_dtypes(include=['number'])
categorical_col_names = train_df.select_dtypes(include=['object']).columns.tolist()

# '범주형 변수 정보 확인하기'
summary = {}
unique_counts = {}
for col in categorical_col_names:
    summary[col] = train_df[col].value_counts().to_dict()
    unique_counts[col] = train_df[col].nunique()

print(unique_counts)

 

범주형 변수의 경우 범주가 너무 세분화되어 있을 경우, One-Hot Encoding시 차원의 저주에 빠지기 쉽습니다. 따라서 너무 세분화된 범주형 변수를 제거해주기로 결정합니다.

따라서 ID를 제거해줍니다.

 

 

EDA: 수치형 변수 확인하기

결측치 확인

numeric_columns_train = train_df.select_dtypes(include=['number'])
numeric_columns_test = test_df.select_dtypes(include=['number'])

null_tot_train = numeric_columns_train.isnull().sum()
null_tot_test = numeric_columns_test.isnull().sum()

print(null_tot_train)
print(null_tot_test)

 

Describe & info

numeric_columns_train.describe()

부채_대비_소득_비율: max가 9999인게 조금 이상합니다.

총계좌수: max가 169인게 이상합니다. 

최근_2년간_연체_횟수: max가 30번인게 이상합니다.

연간소득: 0인데 대출이 가능했는지 의문이 듭니다. 

min_income = train_df['연간소득'].min()
rows_with_min_income = train_df[train_df['연간소득'] == min_income]
rows_with_min_income

부채_대비_소득_비율의 값이 9999인 것과 연간소득 0인데이터가 중복되는걸 확인할 수 있습니다.

 

이 데이터는 모델을 학습시킬 때 좋지 않다고 판단하여 제거하기로 결정했습니다.

수치형 변수 시각화

# 수치형 변수들을 시각화 (예: 히스토그램)
numeric_columns_train.hist(bins=10, figsize=(10, 6))
plt.suptitle('Numeric Variables Distribution')
plt.show()

 

대출금액을 제외하고 대부분의 데이터들이 좌측편향돼있다는 걸 확인할 수 있습니다.

이걸 로그변환시킬지 아니면 이상치의 값들을 제거해야할지 결정을 해줘야할 듯합니다.

그러나 저는 로그변환을 시도한 데이터가 좋지 않은 예측값을 냈기에 이상치의 값들을 일부분 제거하여 모델을 학습시키는게 좋을 듯 합니다. 

데이터 전처리 1: 학습 및 추론 데이터 설정

제출을 위한 코드와 제가 확인할 코드를 나눠서 진행하였습니다.

from sklearn.model_selection import train_test_split

X = train_df.drop(columns=['ID', '근로기간','대출등급'])
y = train_df['대출등급']
train_x = train_df.drop(columns=['ID', '근로기간', '대출등급'])
train_y = train_df['대출등급']

test_x = test_df.drop(columns=['ID', '근로기간'])
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

데이터 전처리 2: 범주형 변수 수치화

LabelEncoder를 통해 범주형 변수 수치화를 진행합니다.

from sklearn.preprocessing import LabelEncoder

categorical_features = ['대출기간', '주택소유상태', '대출목적']

for i in categorical_features:
    le = LabelEncoder()
    le=le.fit(train_x[i])
    le=le.fit(X[i])

    train_x[i]=le.transform(train_x[i])
    X[i]=le.transform(X[i])

    for case in np.unique(test_x[i]):
        if case not in le.classes_:
            le.classes_ = np.append(le.classes_, case)
    test_x[i]=le.transform(test_x[i])

display(train_x.head(3))
display(test_x.head(3))

 

 

모델 선정 및 학습

RandomForestClassifier

from sklearn.ensemble import RandomForestClassifier

RFC = RandomForestClassifier()
RFC.fit(X_train, y_train)
max_depth_list = range(20,25)
accuracy = []

for m in max_depth_list:
    RFC = RandomForestClassifier(random_state = 42, max_depth = m)
    RFC.fit(X_train, y_train)
    pred = RFC.predict(X_test)
    score = accuracy_score(pred, y_test)
    accuracy.append(score)

plt.plot(max_depth_list, accuracy)
plt.xlabel('max_depth')
plt.ylabel('accuracy')
plt.show()

최적의 깊이를 찾기위한 코드

from sklearn.metrics import accuracy_score

pred = RFC.predict(X_test)
score = accuracy_score(pred, y_test)
print(f"정확도: {score}")

가장 잘 나온 max_depth의 값을 선택하여 예측한 결과 정확도는 0.8231이 나왔습니다.

 

DecisionTreeClassifier

DT = DecisionTreeClassifier(random_state = 42, criterion = 'entropy', max_depth = 5)
DT.fit(X_train, y_train)
max_depth_list = range(1,101)
accuracy = []

for m in max_depth_list:
    DT = DecisionTreeClassifier(random_state = 42, criterion = 'entropy', max_depth = m)
    DT.fit(X_train, y_train)
    pred = DT.predict(X_test)
    score = accuracy_score(pred, y_test)
    accuracy.append(score)

plt.plot(max_depth_list, accuracy)
plt.xlabel('max_depth')
plt.ylabel('accuracy')
plt.show()

가장 최적의 max_depth

DT = DecisionTreeClassifier(random_state = 42, criterion = 'entropy', max_depth = 19)
DT.fit(train_x, train_y)

 

가장 잘 나온 max_depth로 학습시켜줍니다.

 

KNeighborsClassifier

n_neighbors_list = range(1,10)
accuracy = []

for m in n_neighbors_list:
    KNN = KNeighborsClassifier(n_neighbors = m)
    KNN.fit(X_train, y_train)
    pred = KNN.predict(X_test)
    score = accuracy_score(pred, y_test)
    accuracy.append(score)

plt.plot(n_neighbors_list, accuracy)
plt.xlabel('n_neighors')
plt.ylabel('accuracy')
plt.show()

정확도가 앞서 실행한 두 모델에 비해 현저하게 낮기에 이 모델은 채택안하기로 결정합니다.

 

그래서 예측을 수행하여 데이콘 대회에 제출한 결과

0.79의 정확도를 얻었습니다.

처음으로 대회에 참여하여서 이정도면 나쁘지 않은 결과라고 생각합니다. 

앞으로 더욱 정진하겠습니다!

'프로그래밍 > 프로젝트' 카테고리의 다른 글

ARIMA 모델 검증 및 예측 정확도 평가  (0) 2024.05.21
ARIMA 모델  (0) 2024.05.21
고객 유지를 위한 필요한 행동 예측  (1) 2024.01.14
원본 데이터 보존  (0) 2023.11.28
머신러닝 기초 및 순서  (0) 2023.11.21

문제

어떤 숫자 n이 자신을 제외한 모든 약수들의 합과 같으면, 그 수를 완전수라고 한다.

예를 들어 6은 6 = 1 + 2 + 3 으로 완전수이다.

n이 완전수인지 아닌지 판단해주는 프로그램을 작성하라.

입력

입력은 테스트 케이스마다 한 줄 간격으로 n이 주어진다. (2 < n < 100,000)

입력의 마지막엔 -1이 주어진다.

출력

테스트케이스 마다 한줄에 하나씩 출력해야 한다.

n이 완전수라면, n을 n이 아닌 약수들의 합으로 나타내어 출력한다(예제 출력 참고).

이때, 약수들은 오름차순으로 나열해야 한다.

n이 완전수가 아니라면 n is NOT perfect. 를 출력한다.

예제 입력 1 복사

6
12
28
-1

예제 출력 1 복사

6 = 1 + 2 + 3
12 is NOT perfect.
28 = 1 + 2 + 4 + 7 + 14

 

 

내가 한 틀린 코드

nl = []
ll = []

while True:
    n = int(input())

    if n == -1:
        break
        
    l = []
    
    for i in range(1,n+1):
        if n % i == 0:
            l.append(i)

    l.remove(l[-1])
    ll.append(l)
    nl.append(n)

for j in range(len(ll)):
    if nl[j] == sum(ll[j]):
        print(f"{nl[j]} = ", end = "")

        for k in ll[j]:
            if k == 1:
                print(f"{k}", end = "")

            else:
                print(f" + {k}", end = "")
    else:
        print()
        print(f"{nl[j]} is NOT perfect.")

 

이 코드는 정답이랑 똑같은 형식으로 출력되기는 하는데

출력되는 형식이 이렇게 되면 안되기 떄문에 틀린 문제이다.

한 줄에 하나씩 출력되도록 해야하는데 그렇게 하지 않았기에 틀린문제

 

그럼 어떻게 해야하나?

옛날에 썼던 적이 있는 것 같은데 요즘 안써서 까먹은 join을 써야한다.

join을 통해 반복문 사이에 있는 인자들을 +로 연결해준다는 생각을 해주면 이렇게 길게 코드를 쓰지 않아도 된다.

 

정답 코드

nl = []
ll = []

while True:
    n = int(input())

    if n == -1:
        break
        
    l = []
    
    for i in range(1,n+1):
        if n % i == 0:
            l.append(i)

    l.remove(l[-1])
    ll.append(l)
    nl.append(n)

for j in range(len(ll)):
    if nl[j] == sum(ll[j]):
        temp = ' + '.join(str(i) for i in ll[j])
        print(f"{nl[j]} = {temp}")

    else:
        print(f"{nl[j]} is NOT perfect.")

'알고리즘' 카테고리의 다른 글

백준 파이썬 - 2869  (0) 2024.02.02
백준 파이썬 - 2292  (0) 2024.01.30
백준 파이썬 - 2903  (1) 2024.01.30
백준 파이썬 - 2720  (1) 2024.01.29
백준 파이썬 - 2745  (1) 2024.01.29

문제

땅 위에 달팽이가 있다. 이 달팽이는 높이가 V미터인 나무 막대를 올라갈 것이다.

달팽이는 낮에 A미터 올라갈 수 있다. 하지만, 밤에 잠을 자는 동안 B미터 미끄러진다. 또, 정상에 올라간 후에는 미끄러지지 않는다.

달팽이가 나무 막대를 모두 올라가려면, 며칠이 걸리는지 구하는 프로그램을 작성하시오.

입력

첫째 줄에 세 정수 A, B, V가 공백으로 구분되어서 주어진다. (1 ≤ B < A ≤ V ≤ 1,000,000,000)

출력

첫째 줄에 달팽이가 나무 막대를 모두 올라가는데 며칠이 걸리는지 출력한다.

예제 입력 1 복사

2 1 5

예제 출력 1 복사

4

예제 입력 2 복사

5 1 6

예제 출력 2 복사

2

예제 입력 3 복사

100 99 1000000000

예제 출력 3 복사

999999901

 

 

 

내가 실패한 답들 

A,B,V = map(int, input().split())

now = 0
day = 0

while True:
    now += A
    day += 1
    if now >= V:
        break
    else:
        now -= B

print(day)

 

A,B,V = map(int, input().split())
tot = A-B

now = 0
day = 0

while True:
    now += tot
    day += 1
    if V == now + A or V <= now + A:
        day += 1
        break
        
print(day)

 

출력은 되는데 모두 시간초과로 인해 실패하였다.

 

그래서 알고리즘 분류가 수학으로 돼있어서

x를 다 올라가는 횟수라하고 x-1을 내려가는 횟수라고 해서

식을 세우니 아래와 같은 결과가 나왔다.

 

Ax - B(x - 1) = V

Ax - Bx + B = V

(A - B)x = V - B

X = (V - B)/(A - B)

 

그래서 이걸 바탕으로 코드를 만들었다.

import math

A, B, V = map(int, input().split())
day = (V-B) / (A-B)
print(math.ceil(day))

 

ceil을 한 이유는 올림을 해줘야 우리가 원하는 답이 나오기 때문이다.

예를 들어 day의 값이 5.6이 나오면 5가 답이 아닌 6이 답이 나와야 하기 때문이다. 

 

앞으로 실행시간도 신경써서 코드를 만들어야겠다는 생각을 하게 되는 문제였다. 

'알고리즘' 카테고리의 다른 글

백준 파이썬 - 9506  (1) 2024.02.02
백준 파이썬 - 2292  (0) 2024.01.30
백준 파이썬 - 2903  (1) 2024.01.30
백준 파이썬 - 2720  (1) 2024.01.29
백준 파이썬 - 2745  (1) 2024.01.29

+ Recent posts