- 분류(Classification)
- 예측해야할 대상의 개수가 이미 정해져 있는 문제
- 회귀(Regression)
- 예측해야할 대상이 연속적인 숫자인 경우
- 혼돈행렬(Confusion Matrix)
- 예측과 실제 값 사이의 관계를 행렬 형태로 표현한 것
Confusion Matrix | 예측 | ||
Negative | Positive | ||
실제 | Negative | TN(True Negative) | FP(False Positive) |
Positive | FN(False Negative) | TP(True Positive) |
- 정확도(Accuracy)
- (TP+TN)/(TP+TN+FP+FN)
- 전체 데이터 중 바르게 분류한 비율
- 불균형한 데이터에겐 부적합한 평가 지표
- 정밀도(Precision)
- TP/(TP+FP)
- Negative의 중요도가 Positive보다 높을 때 사용
- 재현율(Recall)
- TP/(TP+FN)
- Positive의 중요도가 Negative보다 높을 때 사용(실제로 Positive인 경우를 Negative로 판단하면 안될 때)
- ROC(수신자 조작 특성) 곡선
- 모델의 성능을 시각적으로 판단할 수 있으며 정확한 수치가 필요할 경우 AUC값으로 구체적으로 확인
- 좋은 모델일 수록 ROC곡선의 면적이 큼
- AUC(Area Under Curve)
- ROC 곡선의 면적을 값으로 표현한 것
- 베이스라인 모델
- 모델의 성능을 비교하는 참조 지점으로 사용되는 단순한 모델
- 머신러닝 모델이 의미있기 위해 넘어야하는 최소한의 성능을 제공
본 포스트의 학습 내용은 부스트클래스
<AI 엔지니어 기초 다지기 : 부스트캠프 AI Tech 준비과정>
강의 내용을 바탕으로 작성되었습니다.