728x90 기계학습(ML)/Interpreting Model4 n234 Interpreting ML Model( X-AI ) 부분의존도그림(Partial dependence plot, PDP)을 시각화하고 해석할 수 있습니다. 개별 예측 사례를 Shap value plots을 사용해 설명할 수 있습니다. black box model이란? * X-AI - 모델이 어떻게 이런 예측을 했는지를 확인하기 위한 ( 예측모델 설명 ) *Partial Dependence Plots( PDP ) - ICE곡선들의 평균(= ICE 곡선은 하나의 관측치에 대해 관심 특성을 변화 시킴에 따른 타겟값 변화 곡선 ) 복잡한 모델 -> 이해하기 어렵지만 성능이 좋다. ( 특성중요도가 긍정인지 부정인지 파악 어려움 ) ==> so, PDP사용 = feature 가 target의 어떻게 영향을 미치는지 파악 가능 단순한 모델 -> 이해하기 쉽지만 성능이 .. 2021. 6. 26. n233 Feature Importances/ bagging, boosting 특성 중요도 계산 방법들(permutation importances, Feature importance, ...)을 이해하고 사용하여 모델을 해석하고 특성 선택시 활용할 수 있다. gradient boosting 을 이해하고 xgboost를 사용하여 모델을 만들 수 있다. *특성 중요도( Feature Importances ) 보통 가지에서 몇번 등장하는지, 혹은 불순도를 얼마나 낮추는 지에 대한 지표 기본 특성 중요도는 빠르지만 특성 종류에 따라 부정확한 결과가 나올 수 있어 주의가 필요합니다. = 트리 모델에서 feature_importances_를 사용하면 cardinality가 높은 특성은 분기에 이용될 확률이 높아 중요도가 높게 나오는데, 따라서 모델이 과적합될 위험 and 문제점은 (-)영향을.. 2021. 6. 26. n232 Data Wrangling(랭글링) / merge / groupby prior['product_id'].mode() = 최빈값으로 가장 많이 나온 값이 나옴 prior['product_id'].value_counts() In [24]: df3 = pd.DataFrame({"X": ["A", "B", "A", "B"], "Y": [1, 4, 3, 2]}) In [25]: df3.groupby(["X"]).get_group("A") Out[25]: X Y 0 A 1 2 A 3 In [26]: df3.groupby(["X"]).get_group("B") Out[26]: X Y 1 B 4 3 B 2 2021. 6. 26. n231 Choose your ML problems 예측모델을 위한 타겟을 올바르게 선택하고 그 분포를 확인할 수 있다. 테스트/학습 데이터 사이 or 타겟과 특성들간 일어나는 정보의 누출(leakage)을 피할 수 있다. 상황에 맞는 검증 지표(metrics)를 사용할 수 있다. Data science Workflow *데이터 사이언티스트 실무 프로세스 비즈니스 문제 실무자들과 대화를 통해 문제를 발견 데이터 문제 문제와 관련된 데이터를 발견 데이터 문제 해결 데이터 처리, 시각화 머신러닝/통계 비즈니스 문제 해결 데이터 문제 해결을 통해 실무자들과 함께 해결 * Project process( 먼저 데이터 수집 Data Collection ) == * 해결하고자 하는문제는 무엇인가? * 답을 얻기 위해 필용한 data는? * data와 결과는 어떤 상관.. 2021. 6. 26. 이전 1 다음