본문 바로가기
728x90

통계, EDA, 선형대수13

N121 기술통계치 / 가설검정 Hypothesis ds_before = pd.read_csv('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/seoul_tree/seoul_tree.txt', sep='\t', skiprows= 1) #skipprow 맨 처음 행 제외하고 보여줌 // thouusands= ',' 콤마 미리 없애 *기술 통계치(Descriptive Statistics)란? - 평균(mean), 중앙값(median), SD(표준편차, Standard Devidation= 평균에서 떨어진 정도) 등을(통계치) 계산한 것 count, mean, standard dev, min, 1Q, median, 3Q, max ==> DataFrame.describe() boxplot violin plot.. 2021. 5. 15.
n114 기초미분 Basic Derivative 미분 = 함수를 작게 나눈다. ==> 특정부분에서의 순간 변화율을 찾기 위해서 변화율이 한없이 0에 가까워 질때의 기울기를 계산하는것 ==> y = b + ax # 랜덤하게 평균0, 표준편차1의 가우시안 표준정규분포 난수 x, y를 50개씩 뽑습니다 np.random.seed(42) # 동일한 결과를 보기 위해 시드를 고정합니다. https://numpy.org/doc/stable/reference/random/generated/numpy.random.seed.html x = np.random.randn(50) y = np.random.randn(50) #seaborn 을 통해서 산점도를 확인할 수 있음 sns.regplot(x, y) plt.show() y'(오차함수) = b + ax ( 알파는 y절편.. 2021. 5. 15.
n113 Data Manipulation(merge, melt, concat) *pandas version 확인 *pd.__version__ /// pd.show__version() def coloring_text(val): if val > 0: color = '#1e3799' else: color = '#eb2f06' return 'color: %s' % color df[['순이익률']].style.applymap(coloring_text) 해당 부분 색바꿔줌 *df.applymap(lambda x: x**2) ==> 해당 함수 적용 pip install pandas ##pandas version 확인 *pd.__version__ /// pd.show__version() ==> python, pandas, numpy, matplotlib ... 버전확인가능 ##create Dat.. 2021. 5. 10.
N111a EDA(Exploratory Data Analysis) EDA (exploratory data analysis) =분석과 이해를 통해서 ===> Data Preprocessing(전처리) 과정이 들어감 EDA란, 데이터 분석에 있어서 매우 중요한, 초기 분석의 단계를 의미하며 시각화 같은 도구를 통해서 패턴을 발견하거나 데이터의 특이성을 확인하거나 통계와 그래픽 (혹은 시각적 표현)을 통해서 가설을 검정하는 과정 등을 포함합니다. EDA의 방법은 크게 2가지 (Graphic, Non-Graphic) 으로 나눠질 수 있으며 Graphic : 차트 혹은 그림 등을 이용하여 데이터를 확인하는 방법입니다. Non-Graphic :그래픽적인 요소를 사용하지 않는 방법으로, 주로 Summary Statistics를 통해 데이터를 확인하는 방법입니다. 동시에, EDA의 .. 2021. 5. 9.
N112a Feature Engineering / iloc Feature Engineering 특정 값을 새롭게 만들어 내는 것 (데이터셋에 존재하는 feature들을 재조합하여 새로운 feature 특성을 부여) 함수가 메소드보다 더 포괄적인의미를 가짐... 메소드 = 객체와(자료형)연관되어 사용되는 것은 메소드(= .split(), .append() ....) from google.colab import data_table data_table.enable_dataframe_formatter() ''' 데이터 불러오기 ''' sep 또는 delimiter = 지정된 문자로 열을 구분하여 데이터 프레임을 만든다. *sep=',' ==> csv는 쉼표로 구분된 엑셀 파일이라 sep=',' 해줘여하는데 안해도 잘나옴 *thousands= "," ==> 하게 되면 모.. 2021. 5. 9.
728x90