1. I feel like + 동사ing

  • I feel like eating something spicy.
  • I feel like running away.

2. 문장(주어 + 동사) + to + 동사

  • I go to Seoul to go to Byulmadang library.
  • I work out every day for at least 2 hours to lose weight.
  • I read books to broaden my knowledge.

3. and, or, so, but, because

  • Take care and I'll call you later.
  • I couldn't sleep last night but I'm ok.
  • I should go home and rest because I'm so tired.

 

Conversation 

What's your bucket list?

- Winning against professional basketball player by 1 on 1 is my bucket list. It's just a dream. :)

 

How do you release your stress?

- When I'm stressed, I feel like playing basketball.

 

What are the latest products you bought? Why did you buy them?

- I recently bought book to study machine learning. 

 

What makes you study AI?

- This is just my opinion, I think if I don't study AI now, it seems like I will be hard to keep up with the speed of the future.

 

Why do we need to work?

- Work sometimes makes us tired. But, we can't live without work. Because everything around us is made by work of us. 

 

Late at night, if you suddenly have something you want to do, what would it be?

- I feel like playing computer game late at night or drinking beer. 

 

Why do people drink?

- This is not my opinion, it's my friend's opinion. He said if people were tired by physically exhausting, they find alcohol. However, if peoply were tired by mentally exhausting, they find beer. I think that's right.

 

Do you have any plans for self-improvement?

- I plan to get a prize of competition. 

 

For what? 

- Making career. 

'일상 > 영어' 카테고리의 다른 글

24.08.22  (0) 2024.08.28
24.01.30  (0) 2024.01.30
24.01.27  (0) 2024.01.27

1. She/He said + 문장(주어 + 동사) 

  • She said I have to clean up my room every day, but I'm busy.

2. I have to / should + 동사 

  • I have to find the answer by myself.

3. Sure, I can + 동사 

  • Sure, I can go home by myself.
  • Sure, I can show you my bank balance.

 

Conversation

What did your parents nag you about?

- My father said you have to save money for your future. 

 

How can you save the money?

- By investing in stocks, Installment savings.

 

May I ask how much you have?

- I can't tell you my assets, but I don't think I have much money.

 

What is the most important thing someone you like has ever said to you? Why do you like it?

- My father said "The higher you go, the lonelier you become. As you progress up the career ladder, things change dramatically. You will have far fewer colleagues; it gets increasingly lonely and there is much greater responsibility. The level of fear, uncertainity, and doubt will jump and so will stress levels. Hence, all the more reason why you should be a self-starter." I think he wanted me to be a person who could do anything on my own. What my father said was so impressive. It made me better person than before. 

 

Whose words motivated you the most? What did they say? 

- The mathematical analysis professor said "We need to do more and not be complacent now. "

 

'일상 > 영어' 카테고리의 다른 글

24.08.27  (2) 2024.08.28
24.01.30  (0) 2024.01.30
24.01.27  (0) 2024.01.27

1. 정규 표현식 

 

1.1 정규 표현식이란? 

정규 표현식(Regular Expression)은 텍스트 내에서 문자열의 패턴을 찾기 위해 사용되는 일련의 문자와 특수문자의 조합.

이를 통해 데이터를 검색하고, 대체하고, 추출하는 등의 작업을 수행할 수 있다. 

 

1.2 정규 표현식 사용 시기

  • 데이터의 형식 검사
  • 특정 패턴이나 조건에 맞는 문자열을 검색
  • 데이터 정제 및 가공, 특정 정보 추출

 

1.3 정규 표현식의 장점

  • 수동으로 검사하기 어려운 대량의 텍스트 데이터를 빠르게 처리 가능
  • 다양한 문자열 패턴과 조건을 간단한 식으로 표현할 수 있어 데이터를 매우 유연하게 데이터를 다룰 수 있음.
  • 정규 표현식 문법은 언어마다 거의 동일하므로, 다른 프로그래밍 언어에서도 손쉽게 활용 가능

 

1.4 정규 표현식 주의사항

  • 복잡하거나 비효율적으로 작성된 정규 표현식은 성능 저하를 유발할 수 있음.
  • 광범위하게 매치되는 패턴이 있거나, 놓친 특수 케이스가 발생할 수 있음.
  • 작성한 방식에 따라 가독성이 낮아질 수 있음.
  • 정규표현식 대신 간단한 문자열 처리 함수를 사용하는 것이 더 효율적일 수 있음. 

 

2. 메타문자 

 

2.1 메타문자란?

메타문자는 정규 표현식에서 특별한 의미를 갖는 문자들을 말한다.

이들은 단순한 글자가 아니라, 데이터를 검색하고 패턴을 정의하는 데 사용된다.

 

2.2 메타문자의 종류

  • . : 어떤 한 개의 문자와 일치한다. 단, 행을 바꾸는 개행 문자(\n)는 제외된다.
  • ^: 문자열의 시작을 나타낸다.
  • $: 문자열의 끝을 나타낸다.
  • |: 두 패턴 중 하나와 일치한다. OR 연산자라고 한다.
  • \: 특수 문자를 일반 문자로 사용하거나, 특수 시퀀스를 나타내는 데 사용된다. 

 

2.3 주의사항

  • 메타문자는 그 자체로 특별한 의미를 갖기 때문에, 글자 그대로 매치하려면 \를 앞에 붙여 이스케이프해야 한다. 예를 들어, . 자체를 찾으려면 \. 를 사용해야한다. 
  • 메타문자를 사용할 때는 패턴이 어떤 문자열과 일치하는지 정확히 이해하고 사용하는 것이 중요하다.
  • 메타문자를 사용할 때 예상치 못한 결과를 가져올 수 있으므로 주의해서 사용해야 한다. 

 

3. 특수시퀀스와 반복자 이해하기

 

3.1 특수시퀀스란?

특수 시퀀스는 정규 표현식에서 자주 사용되는 특정 패턴을 간단한 코드로 나타낼 때 사용한다. 

 

3.2 특수시퀀스의 종류

  • \d: 모든 숫자와 일치한다. 예를 들어, \d는 '0', '1', '2', '3', .... , '9'와 매치된다.
  • \D: 숫자가 아닌 모든 문자와 일치한다. 
  • \s: 모든 공백 문자와 일치한다.
  • \S: 공백 문자가 아닌 모든 문자와 일치한다. 
  • \w: 문자, 숫자, 밑줄 문자와 일치한다.
  • \W: \w에 해당하지 않는 모든 문자와 일치한다. 

 

3.3 반복자란?

반복자는 특정 문자 또는 문자 집합이 몇 번 반복되어야 하는지 정의한다.

반복자를 사용하면, 동일한 문자 또는 패턴의 반복을 간결하게 표현할 수 있다. 

 

3.4 반복자의 종류

  • * : 바로 앞의 문자가 0회 이상 반복될 때 일치한다. 즉, 문자가 없거나 여러 번 있을 수 있다.
  • + : 바로 앞의 문자가 1회 이상 반복될 때 일치한다. 이는 적어도 한 번은 해당 문자가 있어야 한다는 것을 의미한다.
  • ? : 바로 앞의 문자가 0회 또는 1회 있을 때 일치한다. 이는 문자가 있거나 없을 수 있다는 것을 의미한다. 
  • {n} : 바로 앞의 문자가 정확히 n회 반복될 때 일치한다. 
  • {n, } : 바로 앞의 문자가 n회 이상 반복될 때 일치한다. 
  • {n, m} : 바로 앞의 문자가 최소 n회, 최대 m회 반복될 때 일치한다. 

 

3.5 예시

  • \d{2, 4} 는 숫자이면서 최소 2자리 최대 4자리의 연속된 숫자와 일치한다. 
  • \S+ 는 문자열 Hello World!가 있을 때 공백이 아닌 문자가 1회이상 연속되는 부분을 찾는다. 따라서 Hello와 World! 를 각각 별도로 찾아내어 일치시킨다. 

 

4. 적용 예시

 

법규위반 열 데이터 정제 : 문자열 탐색

# '법규위반' 열에서 '안전' 단어가 포함된 경우 찾기
pattern = r'안전'
train['법규위반_안전'] = train['법규위반'].str.contains(pattern)

display(train.head(3))

 

r'안전'에서 r은 raw string을 나타낸다. 

파이썬에서 raw string은 문자열 앞에 'r'을 붙여 표시하며 문자열 내에 특수 시퀀스(\s, \w, \등)가 특별한 처리없이 문자 그대로 취급하도록 한다. 

raw string을 사용하면 이스케이프 문자가 별도의 처리 없이도 정확히 인식되기 때문에 편리하게 사용할 수 있다. 

 

train['법규위반_안전'] = train['법규위반'].str.contains(pattern)은 train 데이터 프레임의 법규위반 열에서 각 값에 대해 패턴을 확인하고, 해당 패턴이 맞을 경우 True, 아닐 경우 False를 법규 위반_안전 열에 반환한다. 

 

즉, str.contains 메서드는 데이터 프레임의 각 행에서 지정된 패턴 또는 문자열이 존재하는지 여부를 확인하고, 이를 통해 불리언(참/거짓) 값을 생성한다.

 

 

도로형태 열 데이터 정제 : 값 대체

# '도로형태' 열에서 ' - ' 이후 문자열 제거
pattern = r'\s-\s.*'
train['도로형태_대분류'] = train['도로형태'].str.replace(pattern, '', regex=True)

display(train.head(3))

 

변수 pattern에 정의된 패턴은 공백(\s)과 하이픈(-), 공백(\s)을 포함한 뒤의 모든 문자(.)를 찾는 것을 목표로 한다. 

* 은 0회 이상 반복될 수 있다는 것을 의미한다. 

 

str.replace 메서드는 정규표현식을 사용하여 문자열에서 원하는 패턴을 찾아 다른 문자열로 치환할 수 있게 해주는 함수이다. 

코드는 pattern을 발견하면, 그 패턴에 해당하는 문자열을 제거('')한다. 

regex = True은 해당 패턴에서 정규 표현식을 사용한다는 의미이다. 

 

 

시군구 열 데이터 정제 : 캡처 그룹을 활용한 지역명 추출

 

캡처 그룹이란?

 

캡처 그룹(capture group)은 정규표현식 내에서 특정 부분을 하나의 단위로 묶기 위해 사용하는 기술이다. 

이를 통해 복잡한 문자열 패턴 내에서 특정 부분을 식별하고 추출하는 데 사용된다. 

각 캡처 그룹은 괄호 ()를 사용하여 정의되며, 정규표현식 내에서 하나 이상의 문자열을 그룹으로 묶을 수 있는데, 복수의 선택 사항 중 하나를 식별하고, 필요한 부분만을 추출할 수 있다. 

 

사용방법

r'()' 의 괄호 () 안에 여러 문자열 또는 패턴을 넣어 복수의 선택지 중에서 일치하는 요소를 찾을 수 있다. 

r'(창원 | 마산)' 캡처그룹은 '창원' 또는 '마산'과 일치하는 문자열을 찾는다. 

이러한 방식은 데이터에서 특정 키워드나 패턴을 필터링할 때 유용하다. 

또한, 캡처 그룹은 정규표현식 내에서 특정 부분의 반복을 지정하는 데에도 사용된다. 

예를 들어 r'(ab)+' 는 'ab', 'abab', 'ababab' ... 등 문자열이 한 번 이상 반복되는 경우와 일치한다. 

 

pattern = r'(남구|달서구)'

# '남구' 또는 '달서구'를 추출하고, 해당되지 않는 경우 '기타'로 표시
train['시군구_특정'] = train['시군구'].str.extract(pattern)
train['시군구_특정'] = train['시군구_특정'].fillna('기타')

display(train.head(3))

 

pattern = r '(남구 | 달서구)'

 

이 정규 표현식은 '남구' 또는 '달서구' 문자열을 찾기 위해 그루핑을 사용하였다. 

 

train['시군구_특정'] = train['시군구'].str.extract(pattern)

 

위 코드는 판다스(pandas)의 str.extract 메서드를 사용하여 시군구 열(columns)이 패턴(pattern)과 일치하는 부분을 추출한다. 

위의 코드를 실행한 결과, '시군구' 칼럼에 패턴에 해당하는 값이 존재하지 않을 경우 결측값이 반환된다. 

fillna 메서드를 사용하여 결측값을 모두 '기타'로 대체할 수 있다. 

 

 

 

사고일시 열 정제 : 연, 월, 일, 시간 추출

time_pattern = r'(\d{4})-(\d{2})-(\d{2}) (\d{2})'

train[['연', '월', '일', '시간']] = train['사고일시'].str.extract(time_pattern)
display(train.head(3))

 

time_pattern = r '(\d{4})-(\d{2})-(\d{2}) (\d{2})'

 

(\d{n})

이 패턴은 n자리의 숫자를 찾는데 사용된다.

여기서 \d는 숫자를 나타내고, {n}은 연속되는 숫자의 개수를 의미한다.

따라서 \d{4}는 4자리 숫자를 찾는 패턴이다. 

 

이를 활용하여, 각 자리의 값을 순서대로 찾는데 사용되는데, 각 숫자 그룹은 하이픈(-)과 공백() 을 통해 구분된다. 

 

train[['연', '월', '일', '시간']] = train['사고일시'].str.extract(time_pattern)

위 코드는 위에서 정의한 time_pattern을 이용하여 연, 월, 일, 시간 칼럼을 생성한다. 

특이한 점은 이전 스텝에서 str.extract 메서드를 사용했을 때와 달리 연, 월, 일, 시간 4개의 반환값을 가진다. 

 

이는 정규표현식에서 하이픈(-)을 제외한 \d{n} 형태가 각각 별도의 캡처 그룹으로 지정되기 때문이다. 

정규표현식의 각 캡처 그룹은 괄호 ()를 사용하여 정의되며, 이들은 매칭된 문자열의 특정 부분을 추출하는데 사용된다. 

str.extract 메서드는 이러한 캡처 그룹에 해당하는 각 부분을 별도의 칼럼으로 반환하므로, 여기서는 총 네 개의 칼럼(연, 월, 일, 시간)이 생성된다. 

진짜 많이 놀았다.

이번에 친구들이랑 간 계곡 여행 너무 재밌었다.. 다시 또 가고싶네

계곡 여행 생각하니 이번 여행 갔던 거 사진 정리도 할 겸 한 번 올리고 싶어졌다!

단체사진 1

 

이 단체사진은 전부 다 잘 나온거 같다 굳

 

 

단체사진 2

 

ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 왜 이렇게 피곤해보이냐 다

저 브이 포즈는 조금 없애고 싶긴 하네.. 다른 포즈를 조금 연구해와야겠다!

 

이외에도 각자 베스트짤이라고 하면

 

수영장파티 숭코
정예해군
팔굽혀펴기 장인과 물개
'코'
느낌 on

 

이외에도 많은 짤이있지만 추억회상은 여기까지 하는 걸로 하고

 

이렇게 많이 놀아서 너무 좋았는데 앞으로 내 블로그에 자주 놀러오는 쿵쿵따님이랑 같이 놀러 간 것도 올려야겠다. 진짜 이 글 쓰면서 느끼는 건데 사진을 많이 찍어야겠다고 생각이 드는게 사진을 보면서 추억을 회상할 때 나도 모르게 입가에 미소가... 지어질 때가 있는거 같다 ㅋㅋㅋㅋㅋㅋㅋ 

 

어쨌든! 정말 재밌었는데!

 

이번 여름 방학이 다 끝나간다... 

 

여름방학동안 뭐했냐! 라고 물어보면 이것저것 많이 만져본 거 같기는 하다. 

혼자 공부하는 머신러닝 + 딥러닝 2회독, 책 4권 정도 읽은 거 같고 영어 회화도 꾸준히 하고 블로그도 나름 열심히 쓰고 한 거 같은데.... 그런데! 아쉽다. 그것도 많이. 

 

왜냐면 게임을 조금 많이 해서 그런거 같다. 학기 마무리되고 진짜 고생한 거 같아서 보상심리로 그렇게 한 거 같은데..

너무 많이 한 게 패착이다. 

그래서 앞으로 게임을 조금 줄이기로 했다. 

2학기도 곧 시작하고 데이터 분석 동아리도 열심히 해야 하니깐!

 

그런데 이런 다짐 작년 겨울방학 끝날 때 쯤에도 그랬던 거 같은데 ㅋㅋ

 

다짐할 때는 언제나 장엄하다. 그러니 이번에는 지킬 수 있도록 하자!

 

2학기도 고생할 나를 위해 한 잔, 2학기도 고생할 친구들과 쿵쿵따를 위해 한 잔,

앞으로의 미래를 걱정할 사람들을 위해 같이 힘내보자는 의미에서 한 잔.. 

 

파이팅~!

 

 

 

'일상 > 일기' 카테고리의 다른 글

요즘 근황(24.09.23)  (6) 2024.09.23
24.08.30 - 24.09.01 서울여행  (13) 2024.09.16
오랜만에 일기  (0) 2024.04.02
24년도 새해목표  (0) 2024.01.26
24.01.26  (0) 2024.01.26

1. 로지스틱 회귀분석 개념

1.1. 로지스틱 회귀분석이란?

로지스틱 회귀분석은 20세기 초에 발전한 통계방법입니다. 이 모델은 로지스틱 함수에서 이진 분류 문제를 풀기위해 발전되었습니다. 이 모델은 주로 예/아니오, 성공/실패와 같이 두 가지 범주로 결과가 나뉘는 경우에 사용됩니다. 로지스틱 회귀분석의 핵심 개념은 다음과 같습니다.

  • 확률 추정: 로지스틱 회귀는 주어진 데이터가 특정 클래스에 속할 확률을 추정합니다. 이 확률은 0과 1 사이의 값으로, 예측된 확률이 특정 임계값(보통 0.5) 이상이면 하나의 클래스로, 이하면 다른 클래스로 분류됩니다.
  • 시그모이드 함수: 로지스틱 회귀는 시그모이드 함수(또는 로지스틱 함수)를 사용하여 입력 데이터의 선형 조합을 0과 1 사이의 확률 값으로 변환합니다. 시그모이드 함수는 S자 형태의 곡선을 그리며, 이 함수는 선형 조합의 결과를 확률로 매핑합니다.
  • 최대 우도 추정: 로지스틱 회귀 모델은 최대 우도 추정(Maximum Likelihood Estimation, MLE) 방법을 사용하여 모델 파라미터를 추정합니다. 이는 주어진 데이터에 대해 관측된 결과의 확률을 최대화하는 파라미터 값을 찾는 과정입니다.
  • 이진 분류: 로지스틱 회귀는 기본적으로 이진 분류를 위해 설계되었지만, 원-대-다(One-vs-Rest) 방식이나 원-대-원(One-vs-One) 방식을 통해 다중 클래스 분류 문제에도 적용될 수 있습니다.

1.2. 언제 사용하면 좋을까요?

로지스틱 회귀분석은 주로 이진 분류(Binary Classification) 문제를 해결하기 위해 사용됩니다. 이는 결과가 두 가지 범주(예: 예/아니오, 성공/실패) 중 하나로 나누어지는 경우에 적합합니다. 주로 데이터 수가 많지 않은 경우 간단한 모델이 필요할 때 사용합니다. 또한, 분석결과에 대한 설명과 해석이 중요할 때 사용하면 좋습니다.

1.3. 장점

  • 해석 용이성: 로지스틱 회귀 모델은 결과를 해석하기 쉽습니다. 각 특성의 가중치를 분석하여 어떤 특성이 결과에 더 큰 영향을 미치는지 이해할 수 있습니다.
  • 확률 추정: 결과의 확률을 제공하여, 단순한 분류뿐만 아니라 결과의 불확실성을 평가할 수 있습니다.
  • 유연성: 다른 회귀 모델과 마찬가지로 다양한 유형의 데이터에 적용할 수 있으며, 커널 방법 등을 사용해 비선형 관계를 모델링할 수도 있습니다.

1.4. 한계점

  • 비선형 관계의 제한적 모델링: 로지스틱 회귀는 기본적으로 선형 관계를 가정합니다. 복잡한 비선형 관계를 모델링하기 위해서는 추가적인 기법이 필요합니다.
  • 특성 선택의 중요성: 중요하지 않거나 상관관계가 높은 특성이 포함되어 있으면 모델의 성능이 저하될 수 있습니다.
  • 과적합의 위험성: 특성의 수가 많거나 모델이 복잡할 경우 과적합(Overfitting)이 발생할 수 있으며, 이를 피하기 위해 적절한 규제가 필요합니다.

 

2. 로지스틱 회귀분석 이론

오즈(Odds): 특정 사건이 발생할 확률과 그 사건이 발생하지 않을 확률 간의 비율 입니다.

예를 들어, 어떤 사건의 발생 확률이 0.75라고 가정해 봅시다. 이 경우, 이 사건이 발생하지 않을 확률은 0.25가 됩니다. 그러면 이 사건의 오즈는 다음과 같이 계산됩니다. 이것은 사건이 발생할 확률이 발생하지 않을 확률보다 3배 높다는 것을 의미합니다.

로그 변환: 로지스틱 회귀에서는 종속 변수의 로그 오즈(log odds)를 독립 변수들의 선형 조합으로 모델링합니다. 즉, 로지스틱 회귀는 확률을 직접 모델링하지 않고, 오즈를 로그 변환하여 사용합니다. 오즈는 0이상의 값만 존재하지만, 로그변환을 하면 값의 범위가 실수 전체로 확장되어, 종속변수와 독립 변수 사이의 관계를 선형방정식으로 표현할 수 있습니다. 로그 오즈는 다음과 같이 정의됩니다.

이 식에서 각각의 요소는 다음과 같은 의미를 갖습니다

  • , , , ..., 은 모델의 계수(가중치) 입니다. 이들은 각 독립 변수가 종속 변수에 미치는 영향의 크기를 나타냅니다.
  • , ,... ,Xn  독립 변수(설명 변수) 입니다. 이들은 분석 대상이 되는 데이터의 특성을 나타냅니다.

위 식을 P(Y=1)에 대해 정리하면 아래와 같습니다.

위 식은 시그모이드 함수와 같은 형태입니다. 데이터의 독립 변수들을 이용하여 하나의 선형 값 z를 계산합니다. 그리고 0과 1 사이의 값(확률)으로 변환합니다.

로지스틱 회귀에서 시그모이드 함수는 입력 데이터의 선형 조합을 확률 값으로 변환하는 데 사용됩니다. 예를 들어, 로지스틱 회귀 모델에서는 데이터의 특성과 가중치의 선형 조합을 계산한 다음, 이 값을 시그모이드 함수의 입력으로 사용하여 0과 1 사이의 값을 얻습니다. 이 값은 특정 클래스에 속할 확률로 해석됩니다. 식으로 표현하면 아래와 같습니다.

위 수식을 그래프로 표현하면 아래와 같습니다.

  • 빨간 점: 실제 데이터
  • 파란색 선: 로지스틱 회귀모델

 

3. LogisticRegression() 매개변수

penalty 정규화 종류. 'l1', 'l2', 'elasticnet', 'none' 중 선택. 기본값은 'l2'.
dual 이중 또는 원시 방법 선택. 기본값은 False.
tol 최적화 중단을 위한 허용 오차. 기본값은 1e-4.
C 정규화 강도의 역수. 값이 작을수록 강한 정규화. 기본값은 1.0.
fit_intercept 모델에 절편(상수 항) 포함 여부. 기본값은 True.
intercept_scaling 절편에 적용되는 스케일링 팩터. fit_intercept가 True일 때 사용.
class_weight 클래스 불균형을 처리하기 위한 가중치. 기본값은 None.
random_state 난수 발생기 시드. 결과 재현성을 위함.
solver 최적화 문제를 해결하기 위한 알고리즘. 'newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga' 등 선택 가능.
max_iter 최적화를 위한 최대 반복 횟수. 기본값은 100.
multi_class 다중 클래스 분류 전략. 'auto', 'ovr', 'multinomial' 중 선택.
verbose 로그 출력 상세도.
warm_start 이전 호출의 솔루션을 재사용하여 피팅을 초기화 여부. 기본값은 False.
n_jobs 병렬 처리를 위한 CPU 코어 수. 기본값은 None (1개 코어 사용).

 

예시

model = LogisticRegression(penalty='l2',       # L2 정규화 사용
                           C=0.5,              # 정규화 강도 (낮을수록 강한 정규화)
                           fit_intercept=True, # 절편을 포함
                           random_state=42,    # 결과 재현을 위한 난수 시드
                           solver='lbfgs',     # 최적화를 위한 알고리즘
                           max_iter=100,       # 최대 반복 횟수
                           multi_class='auto', # 다중 클래스 처리 방식
                           verbose=0,          # 로그 출력 정도 (0은 출력하지 않음)
                           n_jobs=1           # 사용할 CPU 코어 수 (1은 하나의 코어 사용)
)

 

 

4. 파이썬 예제코드

# 데이터 셋 준비
X, y = make_classification(n_features=1, n_samples=300,n_redundant=0, n_informative=1,
                            n_clusters_per_class=1, class_sep=0.5,random_state=7)

X.shape, y.shape

 

make_classifications 함수는 Scikit-learn의 데이터셋 생성 도구로 연습용 데이터셋을 생성한다.  

 

파라미터 설명

  • n_features = 1: 독립 변수(특성)의 수를 1로 설정
  • n_samples = 300: 샘플(데이터 포인트)의 총 개수를 300으로 설정
  • n_redundant = 0: 중복되는(불필요한) 특성의 수를 0으로 설정
  • n_informative = 1: 유익한(목표 변수와 관계 있는) 특성의 수를 1로 설정
  • n_clusters_per_class = 1: 각 클래스별 클러스터의 수를 1로 설정. 이는 각 클래스가 하나의 밀집된 클러스터로 구성되어 있음을 의미한다.  
  • class_sep = 0.5: 클래스 간 분리 정도를 설정한다. 값이 클수록 클래스 간의 분리가 뚜렷해진다. 
  • random_state = 0: 결과의 재현 가능성을 위해 랜덤 상태(seed)를 0으로 고정한다. 

 

로지스틱 회귀분석 결과 해석

import statsmodels.api as sm

X_con = sm.add_constant(X) # 상수항 추가
sm_model = sm.Logit(y, X_con) # 모델 생성
result = sm_model.fit() # 모델 학습
print(result.summary()) # 결과 확인

 

Dep.Variable: 종속 변수 Y

No.Observations: 분석에 사용된 관측치의 수

Df Residuals: 잔차의 자유도는 97

Method: 모델 최적화 방법으로 사용된 방법은 MLE(Maximum Likelihood Estimation)

Pseudo R-squ: 이 모델이 데이터에 대해 어느 정도 설명력을 가지고 있는지 나타낸다. 높을수록 모델이 데이터에 대해 더 높은 설명력을 가진다고 할 수 있음.

Log-Likelihood: 로그 우도 값은 -50.00

LL-Null: 모델 없이(상수항만 있는 경우)로그 우도 값은 -100.00

LLR p-value: 로그 우도 비 테스트의 p-값은 1.000e-10로, 모델이 통계적으로 유의미함을 의미.

 

 

우도(Likelihood) 

: 우도는 주어진 모델 매개변수에서 관측된 데이터가 나타낼 확률을 의미한다. 로지스틱 회귀에서는 관측된 데이터가 주어진 매개변수(예: 회귀 계수)에 대해 나타날 가능성을 수치적으로 나타낸다. 

베타값에서 관측치 y가 나타날 조건부 확률이다. 

 

 

로그 우도(Log-Likelihood)

 우도의 로그 값을 취하는 이유는 여러가지이다. 

 첫째, 로그를 취하면 수치적 안정성이 증가한다. 우도는 확률의 곱셈으로 계산되기 때문에 매우 작은 숫자가 될 수 있으며, 이는 컴퓨터에서의 계산에서 부정확성을 야기할 수 있다. 로그를 취하면 곱셈이 합셈으로 변환되어 이러한 문제를 완화한다. 

 둘째, 로그를 취하면 최적화 문제를 해결하기가 수학적으로 더 쉬워진다. 즉, 최대 우도를 찾는 문제가 더 단순한 형태로 변환된다. 

 Log-Likelihood 값은 높을수록 좋다. 높은 값은 모델이 데이터를 더 잘 설명하고 있음을 의미한다.

제너레이터는 딥러닝에서 학습용 데이터의 Batch를 만들 때 많이 사용된다.  

제너레이터를 이해하기 위해서는 다음과 같은 함수를 먼저 소개한다.  

시작할 때 print를 이용하여 메시지를 출력하고, 0부터 4까지 각 값의 제곱을 val이라는 리스트에 추가하여 반환해주는 함수이다.  

def method():
	print("Start method()")
    val = []
    for x in range(0, 5):
    	val.append( x**2 )
   	return val

 

그러나 Return 키워드를 사용한 코드에는 성능 문제가 있다.  

만약에 range(0, 10000) 같이 범위가 매우 커지면, 메모리 공간도 부족하고 성능도 저하된다.  

 

out = method()
for i in range(0, 5):
	print(out[i])

 

out = method() 가 실행되는 순간 for문을 돌고 나온 후 리스트가 반환된다.  

다음과 같이 출력값이 나온다.  

# Start method()
# 0
# 1
# 4
# 9
# 16

 

제너레이터는 이와 같은 메모리 문제와 성능 저하 문제를 해결해줄 수 있다.  

Yield 키워드를 사용하여 제너레이터를 이용할 수 있다.  

def generator():
	print("Start generator()")
    for x in range(0, 5):
    	yield x**2

 

방금 전 살펴보았던 method()와는 다르게 다음과 같이 generator()를 실행해도 메시지가 출력되지는 않는다.  

gen = generator()

 

계산 부분이 아직 실행되지 않은 채로 제너레이터가 선언만 되어 있는 상태이다.  

다음과 같이 next()를 사용해야 실제 계산이 실행된다. 

for i in range(0, 5):
	print(next(gen))

 

next를 호출할 때마다 yield까지만 실행이 된다.  

그러므로 메모리 공간도 아낄 수 있고 성능 저하도 막을 수 있다.  

 

 

'프로그래밍 > Python' 카테고리의 다른 글

Python - Closure 함수  (0) 2023.12.15
Python - 클래스 속성과 메서드 사용  (2) 2023.11.25
Python - 인스턴스 변수 vs 정적변수  (0) 2023.11.25
Python - 클래스 생성자  (2) 2023.11.25
Python - 클래스  (1) 2023.11.25

7-1 인공 신경망.ipynb
0.07MB
7-2 심층 신경망.ipynb
0.03MB
7-3 신경망 모델 훈련.ipynb
0.24MB

'프로그래밍 > 머신러닝' 카테고리의 다른 글

LightGBM  (1) 2024.09.04
다변량 이상치 탐지 방법  (0) 2024.08.25
정규 표현식 (Regular Expression)  (0) 2024.08.23
로지스틱 회귀분석  (0) 2024.08.13
혼자 공부하는 머신러닝 + 딥러닝(머신러닝)  (0) 2024.07.19

 

 이 책은 굉장히 오래된 책이다. 

 그럼에도 불구하고 아직도 사람들이 찾는 이유가 뭘까? 이 책을 읽으면서 알게 되었는데, 일단 주식 투자에 대해 어떤 가치관과 사고관을 가져야하는지 알려주는 책이다. 요즘같이 정보의 홍수시대 속에서는 소위 말해 경제 전문가, 투자 전문가의 말에 사람들의 의견이 휩쓸리기 쉽다. 이럴 때일수록 정보가 아닌 그 속에 있는 알맹이를 보는 것이 더 중요하다.

 이 책의 1부에서 나한테 가장 와닿았던 것은 '주식의 단기 등락을 무시하라.'는 것이었다. 나는 아침에 한 번, 점심에 한 번, 3시에 한 번 현재 주가 차트를 보는 습관이 있다. 오르는 날의 하루는 굉장히 기분 좋게 시작하고, 내리는 날의 하루는 무언가 찝찝한 느낌으로 하루를 시작한다. 바로 이러한 느낌이 들지 않도록 주식의 단기 등락을 무시하라는 것인데, 이 책에서 말하기를 가치가 있는 주식은 언젠가 오르게 된다는 것이다. 그런데 이걸 누가 모르겠나 다 아는 사실이지. 그런데 모두가 다 알면서도 하지 않는 것이 현실이다. 그렇기 때문에 나는 이 말을 앞으로 주식에서 관철해 나갈 것이다. 

 그리고 또 하나 인상깊었던 구절은 대기업은 움직임이 둔하다는 것이다. 이게 진짜 맞는 말인게 내가 삼성전자를 조금 가지고 있는데 누구나 알다시피 삼성전자는 전세계가 알아주는 대기업이다. 그런데 이렇게 큰 대기업의 주식을 아무리 좋은 가격에 산다고해도 2년 안에 대박을 터트리는 것은 거의 불가능하다. 왜냐하면 성장이 어느 정도 안정화된 상태이기에 빠르게 성장할 수 있는 기업이 아니기 때문이다. 이 점은 동의한다. 그래서 이 책에서는 '다른 조건이 같다면, 소형주에 투자해야 유리하다.'라고 한다. 하지만, 우리나라의 경우 소형주에 잘못 투자하면 상장 폐지가 되어 돈을 한순간에 다 잃을 수 있기에 이 구절은 조금 비판적으로 읽어야한다고 생각한다. 

 

 책 자체가 약간 전문적인 느낌으로 투자를 할 때 이렇게 하세요, 저렇게 하세요 느낌보다는 어떤 마음가짐으로 시작하는 것이 좋은지에 대해 알려주고 있다. 그런데 나는 이 책이 조금 아쉬운 점이 이 책에서 전달하는 지식이 현재의 주식시장에 비해 비교적 변동성이 낮은 과거의 주식시장을 기준으로 말하기에 이것을 현재의 주식 시장에 적용되는지는 의문이다. 그렇지만 주식을 입문하기 전에 가볍게 읽기에는 좋은 책이라고 생각해서 주식을 이제 시작하려고 하는 사람들한테 강력하게 추천한다. 

 

1-3 마켓과 머신러닝.ipynb
0.05MB
2-1 훈련 세트와 테스트 세트 240701.ipynb
0.07MB
2-2 데이터 전처리 240701.ipynb
0.29MB
3-1 k-최근접 이웃 회귀.ipynb
0.03MB
3-2 선형 회귀.ipynb
0.11MB
3-3 특성 공학과 규제.ipynb
0.08MB
4-1 로지스틱 회귀.ipynb
0.06MB
4-2 확률적 경사 하강법.ipynb
0.11MB
5-1 결정 트리.ipynb
0.72MB
5-2 교차검증과 그리드서치.ipynb
0.77MB
5-3 트리의 앙상블.ipynb
1.43MB
6-1 군집 알고리즘.ipynb
1.06MB
6-2 k-평균.ipynb
1.75MB
6-3 주성분 분석.ipynb
3.78MB

 

 

위의 내용은 7월 2주동안 공부한 내용인데

원래 한 달안에 끝내는 마음으로 이 책을 시작했는데, 너무 내용을 쉽게 풀어서 써줘서 생각보다 빨리 끝날 것 같다.  

이 책이 진짜 쉽게 설명한 만큼 내용이 깊지는 않은데

추후에 깊게 공부하기 위해 전반적인 내용을 훑어본다는 느낌으로 공부하면 좋을 것 같다. 

 

딥러닝 파트도 끝나면 정리해서 올려야겠다. 

(내용은 모두 혼자 공부하는 머신러닝 + 딥러닝을 기반으로 작성되었다.)

'프로그래밍 > 머신러닝' 카테고리의 다른 글

LightGBM  (1) 2024.09.04
다변량 이상치 탐지 방법  (0) 2024.08.25
정규 표현식 (Regular Expression)  (0) 2024.08.23
로지스틱 회귀분석  (0) 2024.08.13
혼자 공부하는 머신러닝 + 딥러닝(딥러닝)  (0) 2024.08.08

+ Recent posts