본문 바로가기

분류 전체보기230

데이터 전처리 스케일러에 관해 좋은 글이 있어서 2개를 들고와봤다. 요즘 그동안 공부한것을 정리하고 있다. https://mkjjo.github.io/python/2019/01/10/scaler.html [Python] 어떤 스케일러를 쓸 것인가? * 본 포스트는 개인연구/학습 기록 용도로 작성되고 있습니다. By MK on January 10, 2019 데이터를 모델링하기 전에는 반드시 스케일링 과정을 거쳐야 한다. 스케일링을 통해 다차원의 값들을 비교 분 mkjjo.github.io https://homeproject.tistory.com/3 데이터 스케일링 (Data Scaling) 데이터 스케일링이란 데이터 전처리 과정의 하나입니다. 데이터 스케일링을 해주는 이유는 데이터의 값이 너무 크거나 혹은 작은 경우에 .. 2021. 7. 21.
데이터분석 3 df.groupby('neighborhood')['rent'].mean().to_frame('mean').sort_values(by='mean', ascending=False) df.groupby('neighborhood')['rent'].mean() 2021. 7. 21.
데이터분석 2 drink_df['continent'] = drink_df['continent'].fillna('ETC') fillna : 결측값을 특정값으로 채운다. plt.pie(데이터의 실질적인 값, labels=데이터의 레이블 리스트) plt.pie(pie_values, labels=pie_labels, autopct='%.02f%%') plt.title('Percentage of each continent') 이름.groupby('보고자 하는 열')['그룹핑 기준이 되는 열'].통계 함수 drink_df.groupby('continent')['beer_servings'].mean() drink_df.groupby('continent')['wine_servings'].describe() # 전체 평균보다 많은 알.. 2021. 7. 21.
데이터분석 1 url = 'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/drinks.csv' drink_df = pd.read_csv(url, ',') 판다스로 csv파일을 읽으면 df형식으로 반환됨 drink_df.head() 상위 5개 보여줌 drink_df.tail() 하위 5개 보여줌 type(drink_df) // 타입 확인 drink_df.sample(10) // 랜덤 10개 보여줌 df.index 인덱스 확인 # 각 컬럼의 타입 출력 drink_df.dtypes 타입을 출력해서 각 컬럼의 정보를 알아내야한다. 꼭 필요한 작업이다. # 데이터프레임의 행과 열의 개수 출력 drink_df.shape 행과 열의 개수를 출력한다. (행, 열) c.. 2021. 7. 21.