728x90
내일배움캠프
- [WIL]본캠프 18주차 일주일 동안 뭐했지?최종 발표 PPT 제작인사이트 도출용 기업 조사FEELINGS🧐 다음주면 최종 프로젝트 끝나고 내배캠도 끝...!!시간이 진짜 빨리가는 느낌이다. 생각보다 최종 프로젝트에서 하려던 것들을 다 못한 느낌이라 아쉬운 느낌이 점점 더 커지고 있는 중FINDINGS🔎 회귀분석 시 데이터의 양이 적을 경우 단순 선형 회귀를 고려해보는 것이 좋은 선택. 그러나 데이터의 양이 너무 적을 경우 회귀분석이 의미 없을 수도 있음 FUTURE✨ 최종 발표 후 수료하고 이제 진짜 포트폴리오 정리하고 이력서 쓰기...!! 2024.08.16
- [TIL]본캠프 83일차 회귀분석 용어정리제곱근평균제곱오차(RMSE): 회귀모형을 평가하는데 가장 널리 사용되는 측정지표잔차 표준오차(RSE): 평균제곱오차와 동일하지만 자유도에 따라 보정된 값R-squared: 0에서 1까지 모델에 의해 설명된 분산의 비율t 통계량: 계수의 표준오차로 나눈 예측변수의 계수, 모델에서 변수의 중요도를 비교하는 기준가변수: 요인 데이터를 사용하기 위해 0과 1의 이진변수로 부호화한 변수다중공선성: 예측변수들이 완벽하거나 거의 완벽에 가까운 상관성을 갖는다고 할 때, 회귀는 불안정교란변수: 중요한 예측변수이지만 회귀방정식에 누락되어 결과를 잘못되게 이끄는 변수회귀모형의 주의점데이터의 범위를 초과하면서까지 외삽하는데 사용해서는 안됨시계열 예측을 위해 회귀를 고려하지 않을 것충분한 데이터 값이 있는 예.. 2024.08.13
- [TIL]본캠프 82일차 데이터 분석 유형설명분석(Descriptive Analysis): 이전에 일어났던 일에 대해 해석 및 분석진단분석(Diagnosis Analysis): 내외부 변수와의 인과관계를 분석 및 요인의 영향도 파악예측분석(Predictive Analysis): 통계기법이나 머신러닝 등을 통해 미래에 대한 예측 진행처방분석(Precriptive Analysis): 예측분석과 비슷하나, 의사결정을 위한 결론까지 도출회귀분석매개변수 모델을 이용하여 통계적으로 변수들 사이의 관계를 추정독립변수가 종속변수에 미치는 영향을 확인하고자 사용하는 분석방법단순회귀분석: 하나의 종속변수와 하나의 독립변수 사이의 관계를 분석다중회귀분석: 하나의 종속변수와 여러 독립변수 사이의 관계를 분석회귀분석의 설명력설명력을 높이는 방법은 오차.. 2024.08.12
부스트 클래스
- [2주차]11차시 Ensemble learning(앙상블 학습)여러 개의 개별 모델을 조합하여 최적의 모델로 일반화 하는 방법weak classifier들을 결합하여 strong classifier를 만드는 것오버피팅의 문제를 감소시킨다는 장점이 존재배깅(Bagging)Bootstrap aggregation의 약자로 샘플을 여러 번 뽑아 모델을 학습시킨 후 결과물을 집계하는 방식기존의 앙상블 학습과 달리 하나의 모델에 다양한 데이터를 대입훈련 세트에서 중복을 허용하여 샘플링 진행범주형 데이터는 보팅을 통해 집계하고, 연속형 데이터는 평균을 통해 집계학습 데이터가 충분하지 않더라도 충분한 효과를 낼 수 있음High variance 모델이 적합페이스팅(Pasting)배깅과 달리 훈련 세트에서 중복을 허용하지 않음보팅(Voti.. 2024.05.28
- [2주차]10차시 하이퍼파라미터(Hyperparameter)기계학습 모델훈련을 관리하는데 사용하는 외부 구성 변수모델을 훈련하기 전에 사용자에 의해 수동으로 설정됨최적값이나 기본값이 없음파라미터(Parameter)모델 내부에서 결정되는 변수로 데이터로부터 결정사용자에 의해 조정되지 않음모델링에 의해 자동으로 결정되는 값하이퍼 파라미터 튜닝기계학습 모델의 성능을 최적화하는 중요한 과정으로 최적의 하이퍼파라미터 세트를 선택하는 방법Manual Search: 설계자의 직관이나 경험에 기반하여 추정하고 결과를 관찰Grid Search: 모든 하이퍼파라미터 조합을 대상으로 모델을 학습하고 평가하여 가장 우수한 성능을 보이는 조합을 찾는 것Random Search: Grid Search와 동일한 방식으로 사용하나, 모든 조합을 다 .. 2024.05.27
- [2주차]9차시 피쳐 중요도(Feature Importance)타겟 변수를 예측하는데 얼마나 유용한 지에 따라 피쳐에 점수를 할당하여 중요도를 측정하는 방법Model-specific vs Model-agnosticModel-specific: 머신러닝 모델 자체에서 피쳐 중요도 계산이 가능한 경우Model-agnostic: 모델에서 제공하는 기능에 의존하지 않고 모델을 학습한 후에 적용되는 피쳐 중요도 계산법Boosting Tree 피쳐 중요도(Model-specific)LightGBM 피쳐 중요도 함수→학습된 LightGBM 모델 클래스에서 feature_importance(importance_type) 함수로 피쳐 중요도 계산 가능→importance_type 값에 'split'(트리를 만드는데 피쳐가 얼마나 사용됐는.. 2024.05.07
SeSAC
- [성동1기 전Z전능 데이터 분석가] Day 43 Mobility: 이동성-자유롭게 이동할 수 있는 성질 또는 능력 Logistics(물류): 생산자와 소비자의 시간적·공간적 문제를 해결하기 위한 활동 물적 유통의 약자로 물건의 흐름을 의미 물자를 생산자로부터 소비자에게 이동시키는 모든 활동으로 생산과 소비의 연결활동 제품을 물리적으로 생산자로부터 최종소비자에게 이전하는데 필요한 보관, 하역, 운송, 포장, 정보처리 등의 행위 생산자와 소비자 사이에 존재하는 시간적 효율과 공간적 효율을 창출 제품의 생산, 판매, 반품, 회수 및 폐기에 이르기까지 전략적이고 통합적인 활동 공급자, 제조업자, 물류업자, 유통업자 간 물자, 자금, 정보를 통합하여 최적화하는 것 물류의 5대 기능: 운송, 보관, 하역, 포장, 정보처리 운송: 생산지(A공간)에서 소비지(B공간.. 2023.12.13
- [성동1기 전Z전능 데이터 분석가] Day 42 데이터 시각화를 진행할 때 어떤 차트를 써야할까 변화를 보여주는 차트 라인 차트(Line Chart): 연속형 데이터의 트렌드 표현에 주로 이용/전반적인 트렌드의 증감 변화를 확인 →축이 0에서 시작할 필요는 없으며 라인이 많아진다면 차트는 혼란을 유발할 수 있음 칼럼 차트(Column Chart): 시간에 따른 변동을 보여주거나 서로 다른 카테고리의 값을 비교 →축은 0부터 시작해야하며 시간에 따른 변화를 보여줄 때는 바가 아닌 칼럼을 사용 영역 차트(Area Chart): 시간의 흐름에 따른 변화를 보여주며 라인 차트와 다르게 volume을 표현할 수 있다 비율을 보여주는 차트 비율 바 차트(% Bar Chart): 전체에서의 구성 비율을 간단하게 표현 도넛 차트(Donut Chart): 구성 비중을.. 2023.12.12
- [성동1기 전Z전능 데이터 분석가] Day 41 데이터 시각화로 어떻게 설득할 수 있을까 기본적으로 지표에 대한 비교를 보여주어야함 필요하다면 지표에 평가 기준을 부여 + 액션을 유도하는 의미를 부여 전달하고자 하는 메시지에서 출발해 비교와 평가로 액션을 유도하는 방향으로 설득 그래프를 그려보고 나서 인사이트를 도출하려해서는 안된다→논리적이지 못한 결론을 도출할 수 있음 시각화의 시작은 목적 who: 이걸 보는 사람은 누구인가 why: 그 사람들은 이걸 왜 봐야 하는가 what: 이를 위해 무슨 지표가 필요한가 how: 그래서 어떻게 대응할 수 있을 것인가 when: 이게 언제 필요한가 who: 이걸 보는 사람은 누구인가 유저의 사용 목적에 맞는 지표 구성과 대시보드 설계(관리자용 vs 실무자용) why: 그 사람들은 이걸 왜 봐야 하는가 조직에 의미.. 2023.12.12
728x90