- 머신러닝 모델의 성능 평가
- 머신러닝 모델을 평가하고 선택하는 기준을 정하는 것은 중요
- 다양한 평가지표와 방법이 존재
- 분류모델: 정확도, 정밀도, 리콜, F1점수 등
- 회귀모델: 평균 제곱 오차, R-제곱 등
- 한 데이터 세트의 성능이 높다고 다른 데이터 세트의 성능도 높은 것이 아님→교차검증 필요
- 모델의 해석 가능성, 복잡성 및 계산 비용 등 다른 요소도 고려해야 함
- 교차 검증(Cross Validation)
- 데이터를 학습 세트와 테스트 세트로 나눔
- 학습 세트를 이용해 모델을 학습
- 테스트 세트를 이용해 모델을 평가
- 위 과정은 여러 번 반복 가능하며, 모든 반복에 걸친 모델의 평균 성능을 전체 성능의 척도로 사용
- KNN(K-Nearest Neighbors)
- 주변의 K개의 가장 가까운 데이터들의 범주를 기반으로 예측(다수결로 분류를 결정)
- 데이터 분포에 대한 사전 가정이 필요 없음
- 간단하고 직관적인 분류 알고리즘으로 많이 사용됨(패턴 인식, 추천 시스템 등)
- 유클리드 거리나 맨하탄 거리 등의 거리 측정 방식을 사용
- 나이브 베이즈(Naive Bayes)
- 확률 기반의 분류 기법으로 독립 변수 간의 독립성을 가정하여 확률을 계산
- 주어진 데이터가 특정 클래스에 속할 확률을 계산하여 분류하는 베이즈 정리를 기반으로 함
- 베이즈 정리를 사용하여 데이터의 조건부 확률을 계산한 후, 가장 높은 확률을 가진 클래스로 분류
- 텍스트 분류에서 매우 효율적
- 로지스틱 회귀(Logistic Regression)
- 이진 분류 문제를 해결하는데 주로 사용
- 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 더 가능성이 높은 범주로 분류
- 로짓 함수(Logit Function): 로그 확률을 계산하는 함수
- 오즈(Odds): 특정 사건이 발생할 확률과 발생하지 않을 확률의 비율
- 시그모이드 함수(Sigmoid Function): 확률을 0과 1 사이로 변환하는 함수(딥러닝에도 사용)
- 선형 회귀와 유사하나 출력값이 이진형으로 표시
- SVM(Support Vector Machine)
- 다차원 공간에서 데이터를 분리하기 위한 최적의 초평면(Hyperplane)을 찾는 방법
- 비선형 문제도 해결할 수 있음
- 초평면: 데이터 포인트를 분류하는 경계
- 서포트 벡터(Support Vector): 초평면에 가장 가까이 위치한 데이터 포인트
- 마진(Margin): 서포트 벡터와 초평면 사이의 거리
- 분류와 회귀 분석에 모두 사용할 수 있으며 최대 마진을 찾기 위해 최적화 문제를 해결함
- 하드 마진 SVM: 모든 데이터 포인트가 마진 외부에 위치하도록 초평면을 설정
- 소프트 마진 SVM: 일부 데이터 포인트가 마진 내부에 위치할 수 있도록 허용(벌점 변수 도입)
- 대규모 데이터셋에서는 계산 속도가 느려지며 최적화된 하이퍼 파라미터를 잘 선택해야함
머신러닝 배울수록 느끼는 점
내 졸업논문 정말 아무렇게나 썼구나....😭
'Data > [스파르타 내일배움캠프]' 카테고리의 다른 글
[TIL]본캠프 41일차 (0) | 2024.06.14 |
---|---|
[TIL]본캠프 40일차 (1) | 2024.06.13 |
[TIL]본캠프 38일차 (1) | 2024.06.11 |
[TIL]본캠프 37일차 (2) | 2024.06.10 |
[WIL]본캠프 8주차 (2) | 2024.06.07 |