데이터 정규화, 표준화, 백분위수, 주성분 분석 (PCA), 회귀분석, 회귀 성능 평가(MAE, MSE, RMSE, R² 스코어)
정규화와 표준화1. 정규화 (Normalization)목적: 데이터를 특정 범위로 스케일링 (데이터의 스케일 차이를 줄이고, 분석 및 모델링 과정에서 특정 변수의 값이 다른 변수에 비해 과도한 영향을 미치는 것을 방지하는 것 일반적으로 [0, 1] 범위로 조정) 방법: Min-Max Scaling이 가장 일반적인 방법 -> 각 데이터 값을 0과 1 사이로 변환 사용 예: 신경망과 같은 머신러닝 알고리즘에서 입력 데이터를 동일한 범위로 조정하여 학습 속도와 성능을 향상시킴 2. 표준화 (Standardization)목적: 데이터를 평균 0, 표준 편차 1을 가지도록 변환주로 사용되는 방법: Z-score 표준화수식결과: 데이터가 평균이 0이고, 표준 편차가 1인 정규 분포 형태를 가집니다.장점: 각 변수..
통계의 이해(기술통계, 확률분포, 중심극한정리, 추론통계, 구간추정, 가설검정, 정규성검정, 평균검정)
통계의 구분기술(Descriptive) 통계 : 평균, 분산 등의 요약 통계량이나 그래프를 이용하여 정리, 요약추론(Inferential) 통계 : 표본에 포함된 정보로부터 모집단의 특성 파악 및 타당성 검토로 모수 추론, 미래 예측 모집단과 표본1. 모집단 (Population)모집단은 연구나 조사의 대상이 되는 전체 집단을 의미알고자 하는 모든 개체나 항목의 집합모평균, 모표준편차, 모분산, 모비율2. 모수 (Parameter)모수는 상수로 간주되는 값이며, 모집단의 특정 특성을 나타내는 대표값모집단 전체의 평균, 분산, 비율 등의 값이 값들은 고정되어 있으며, 모집단의 분포 특성을 요약하는 데 사용3. 표본 (Sample)표본분포는 모집단에서 무작위로 추출된 표본들의 통계량에 대한 분포이는 표본 ..