n231 Choose your ML problems

예측모델을 위한 타겟을 올바르게 선택하고 그 분포를 확인할 수 있다.
테스트/학습 데이터 사이 or 타겟과 특성들간 일어나는 정보의 누출(leakage)을 피할 수 있다.
상황에 맞는 검증 지표(metrics)를 사용할 수 있다.

Data science Workflow

*데이터 사이언티스트 실무 프로세스

비즈니스 문제
- 실무자들과 대화를 통해 문제를 발견
데이터 문제
- 문제와 관련된 데이터를 발견
데이터 문제 해결
- 데이터 처리, 시각화
- 머신러닝/통계
비즈니스 문제 해결
- 데이터 문제 해결을 통해 실무자들과 함께 해결

* Project process( 먼저 데이터 수집 Data Collection )

== * 해결하고자 하는문제는 무엇인가?

* 답을 얻기 위해 필용한 data는?

* data와 결과는 어떤 상관관계 ?

예측해야하는 Target 명확히 설정, Target 분포확인(균형, 불균형(=대표적)) 왜?
회귀, 분류 문제인지 확인 ( 회귀의 경우 log transform )
해당 문제 평가지표 설정
특성공학 FE (= Descriptive Statistics 기술통계 ( barplot, violine ... )
E. D. A 탐구적 자료분석(= 특징( 패턴, 특이점 ) ) ==> clustering, classification, Deep learning ...
Hypothesis testing 가설검정(= P-value, T-test, Likelihood, cross-validation .....)
Estimation 추정
정보누수(leakage) 확인

* 정보누수(leakage)

Target 변수 외에 예측시점에 사용할 수 없는 data가 포함되어 학습이 이루어질 경우
train, val 완전히 분리가 안되었을때

==> 타겟을 통해서 새로운 특성을 만든 경우 원래 타겟 특성을 삭제 해줘야한다

*평가지표( Metrics )

분류문제에서 타겟 클래스비율이 70% 이상 차이날 경우에는 정확도만 사용하면 판단을 정확히 할 수 없습니다.

정밀도, 재현율, ROC curve, AUC 등을 같이 사용하여야 합니다.

대부분 scikit-learn 분류기들은 class_weight 와 같은 클래스의 밸런스를 맞추는 파라미터를 가지고 있습니다.
==> class_weight= 'balance'
1. 데이터가 적은 범주 데이터의 손실을 계산할 때 가중치를 더 곱하여 데이터의 균형을 맞추거나
2. 적은 범주 데이터를 추가샘플링(oversampling)하거나 반대로 많은 범주 데이터를 적게 샘플링(undersampling)하는 방법이 있습니다.

from sklearn.metrics import roc_auc_score

y_pred_proba = pipe.predict_proba(X_val)[:, -1]
print('AUC score: ', roc_auc_score(y_val, y_pred_proba))

from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt

fpr, tpr, thresholds = roc_curve(y_val, y_pred_proba)

plt.scatter(fpr, tpr, color='blue')
plt.plot(fpr, tpr, color='green')
plt.title('ROC curve')
plt.xlabel('FPR')
plt.ylabel('TPR')

# class weights 계산
# n_samples / (n_classes * np.bincount(y))
custom = len(y_train)/(2*np.bincount(y_train))
custom

* target 연속성= 회귀 ( 클래스 비율이 편중되어 있다면 log Transform 사용 )

==> 이상치 제거 안하고 진행

==> TransformedTargetRegressor / (np.log1p, np.expm1) == inverse 무조건 해줘야함

from category_encoders import OrdinalEncoder
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestRegressor
from sklearn.compose import TransformedTargetRegressor

pipe = make_pipeline(
    OrdinalEncoder(), 
    SimpleImputer(),
    RandomForestRegressor(random_state=2)
)

tt = TransformedTargetRegressor(regressor=pipe,
                                func=np.log1p, inverse_func=np.expm1)

tt.fit(X_train, y_train)
tt.score(X_val, y_val)

'Data Analysis, DA > Interpreting Model' 카테고리의 다른 글

n234 Interpreting ML Model( X-AI ) (0)	2021.06.26
n233 Feature Importances/ bagging, boosting (0)	2021.06.26
n232 Data Wrangling(랭글링) / merge / groupby (0)	2021.06.26

그때 그때 끄적

n231 Choose your ML problems

Data science Workflow

*데이터 사이언티스트 실무 프로세스

* Project process( 먼저 데이터 수집 Data Collection )

* 정보누수(leakage)

*평가지표( Metrics )

* target 연속성= 회귀 ( 클래스 비율이 편중되어 있다면 log Transform 사용 )

'Data Analysis, DA > Interpreting Model' 카테고리의 다른 글

댓글

티스토리툴바

n231 Choose your ML problems

Data science Workflow

*데이터 사이언티스트 실무 프로세스

* Project process( 먼저 데이터 수집 Data Collection )

* 정보누수(leakage)

*평가지표( Metrics )

* target 연속성= 회귀 ( 클래스 비율이 편중되어 있다면 log Transform 사용 )

'Data Analysis, DA > Interpreting Model' 카테고리의 다른 글

관련글

댓글

티스토리툴바