본문 바로가기
Data/[스파르타 내일배움캠프]

[TIL]본캠프 39일차

by MIN_JOON 2024. 6. 12.
  • 머신러닝 모델의 성능 평가
    • 머신러닝 모델을 평가하고 선택하는 기준을 정하는 것은 중요
    • 다양한 평가지표와 방법이 존재
    • 분류모델: 정확도, 정밀도, 리콜, F1점수 등
    • 회귀모델: 평균 제곱 오차, R-제곱 등
    • 한 데이터 세트의 성능이 높다고 다른 데이터 세트의 성능도 높은 것이 아님→교차검증 필요
    • 모델의 해석 가능성, 복잡성 및 계산 비용 등 다른 요소도 고려해야 함
  • 교차 검증(Cross Validation)
    • 데이터를 학습 세트와 테스트 세트로 나눔
    • 학습 세트를 이용해 모델을 학습
    • 테스트 세트를 이용해 모델을 평가
    • 위 과정은 여러 번 반복 가능하며, 모든 반복에 걸친 모델의 평균 성능을 전체 성능의 척도로 사용
  • KNN(K-Nearest Neighbors)
    • 주변의 K개의 가장 가까운 데이터들의 범주를 기반으로 예측(다수결로 분류를 결정)
    • 데이터 분포에 대한 사전 가정이 필요 없음
    • 간단하고 직관적인 분류 알고리즘으로 많이 사용됨(패턴 인식, 추천 시스템 등)
    • 유클리드 거리나 맨하탄 거리 등의 거리 측정 방식을 사용
  • 나이브 베이즈(Naive Bayes)
    • 확률 기반의 분류 기법으로 독립 변수 간의 독립성을 가정하여 확률을 계산
    • 주어진 데이터가 특정 클래스에 속할 확률을 계산하여 분류하는 베이즈 정리를 기반으로 함
    • 베이즈 정리를 사용하여 데이터의 조건부 확률을 계산한 후, 가장 높은 확률을 가진 클래스로 분류
    • 텍스트 분류에서 매우 효율적
  • 로지스틱 회귀(Logistic Regression)
    • 이진 분류 문제를 해결하는데 주로 사용
    • 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 더 가능성이 높은 범주로 분류
    • 로짓 함수(Logit Function): 로그 확률을 계산하는 함수
    • 오즈(Odds): 특정 사건이 발생할 확률과 발생하지 않을 확률의 비율
    • 시그모이드 함수(Sigmoid Function): 확률을 0과 1 사이로 변환하는 함수(딥러닝에도 사용)
    • 선형 회귀와 유사하나 출력값이 이진형으로 표시
  • SVM(Support Vector Machine)
    • 다차원 공간에서 데이터를 분리하기 위한 최적의 초평면(Hyperplane)을 찾는 방법
    • 비선형 문제도 해결할 수 있음
    • 초평면: 데이터 포인트를 분류하는 경계
    • 서포트 벡터(Support Vector): 초평면에 가장 가까이 위치한 데이터 포인트
    • 마진(Margin): 서포트 벡터와 초평면 사이의 거리
    • 분류와 회귀 분석에 모두 사용할 수 있으며 최대 마진을 찾기 위해 최적화 문제를 해결함
    • 하드 마진 SVM: 모든 데이터 포인트가 마진 외부에 위치하도록 초평면을 설정
    • 소프트 마진 SVM: 일부 데이터 포인트가 마진 내부에 위치할 수 있도록 허용(벌점 변수 도입)
    • 대규모 데이터셋에서는 계산 속도가 느려지며 최적화된 하이퍼 파라미터를 잘 선택해야함

머신러닝 배울수록 느끼는 점

내 졸업논문 정말 아무렇게나 썼구나....😭

'Data > [스파르타 내일배움캠프]' 카테고리의 다른 글

[TIL]본캠프 41일차  (0) 2024.06.14
[TIL]본캠프 40일차  (1) 2024.06.13
[TIL]본캠프 38일차  (1) 2024.06.11
[TIL]본캠프 37일차  (2) 2024.06.10
[WIL]본캠프 8주차  (2) 2024.06.07