- 데이터 마이닝
- 거대한 양의 데이터 속에서 유용한 정보를 찾아내는 과정
- 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용
- 통계분석과 달리 굳이 가설과 검정을 하지 않아도 됨,
- 궁극적으로 인사이트를 얻어 이를 활용하는 것이 목적
- 지도학습
- 알고리즘에게 입력 데이터와 그에 대한 정답을 제공하여 모델을 훈련시키는 것
- 손글씨 이미지를 입력하고 새로운 사진을 통해 어떤 숫자인지 판별하는 경우
분류(범주형) | 의사결정나무(분류트리모형) |
인공신경망(Artificial Neural Network,ANN) | |
로지스틱 회귀분석 | |
앙상블 모형 | |
SVM(Support Vector Machine) | |
나이브 베이즈 분류 | |
K-NN(K-Nearest Neighborhood) | |
회귀(연속형) | 의사결정나무(회귀트리모형) |
인공신경망(Artificial Neural Network,ANN) | |
선형회귀분석 | |
SVR(Support Vector Regression) | |
릿지(Ridge) | |
라쏘(Lasso) |
- 비지도 학습
- 지도학습과 달리 정답을 제공하지 않고 학습하는 방식
- 정답 레이블이 없는 데이터에서 패턴이나 구조를 찾는 머신러닝 방법
- 정확한 정답은 정의할 수 없지만 비슷한 특징끼리 군집화를 실시
군집 | 군집분석(K-Means Clustering) |
SOM(Self Organizing Map) | |
DBSCAN(밀도 기반 군집) | |
병합 군집 | |
계층 군집 | |
연관 | Apriori |
차원축소 | PCA(주성분 분석) |
LDA(선형판별분석) | |
SVD(특이값 분해) | |
MDS(다차원 척도법) |
- 데이터 마이닝의 기능
- 분류(Classification): 가장 많이 사용되는 작업으로 대표적인 지도학습, 새롭게 나타난 현상을 기존의 집합에 배정
- 추정(Estimation): 연속된 변수의 값을 추정하는데 사용
- 예측(Prediction): 미래의 양상을 예측하거나 추정한다는 것을 제외하면 분류, 추정과 동일
- 연관분석(Association Analysis): 데이터의 연관성을 파악
- 군집(Clustering): 이질적인 모집단을 동질성을 지닌 그룹별로 세분화하는 것
- 기술(Description): 데이터가 가진 의미를 기술, 설명이 가능해야 하며 답을 찾을 수 있어야 함
이번 주 마무리~~~
연휴에 조금만 쉬고
또 할거 열심히 해야겠다
'Data > [스파르타 내일배움캠프]' 카테고리의 다른 글
[TIL]본캠프 16일차 (2) | 2024.05.07 |
---|---|
[WIL]본캠프 3주차 (2) | 2024.05.03 |
[TIL]본캠프 14일차 (3) | 2024.05.02 |
[TIL]본캠프 13일차 (2) | 2024.05.01 |
[TIL]본캠프 12일차 (0) | 2024.04.30 |