본문 바로가기
카테고리 없음

데이터 전처리

by 흰색남자 2021. 7. 21.

스케일러에 관해 좋은 글이 있어서 2개를 들고와봤다.

요즘 그동안 공부한것을 정리하고 있다.

https://mkjjo.github.io/python/2019/01/10/scaler.html

 

[Python] 어떤 스케일러를 쓸 것인가?

* 본 포스트는 개인연구/학습 기록 용도로 작성되고 있습니다. By MK on January 10, 2019 데이터를 모델링하기 전에는 반드시 스케일링 과정을 거쳐야 한다. 스케일링을 통해 다차원의 값들을 비교 분

mkjjo.github.io

https://homeproject.tistory.com/3

 

데이터 스케일링 (Data Scaling)

데이터 스케일링이란 데이터 전처리 과정의 하나입니다. 데이터 스케일링을 해주는 이유는 데이터의 값이 너무 크거나 혹은 작은 경우에 모델 알고리즘 학습과정에서 0으로 수렴하거나 무한으

homeproject.tistory.com

차원축소에 관해서

클러스터링에 사용한 변수(특성, 위 데이터프레임의 열)는 5개입니다. 다시 말해 각 샘플은 5개의 특성을 가지고, 그걸 가지고 클러스터링을 한 것입니다. 변수가 5개인 것을 시각화하려면 5차원으로 시각화를 해야하는데, 5차원 시각화는 힘들기 때문에 이를 2차원으로 그리기 위해서 는데이터의 차원을 5차원에서 2차원으로 축소시켜야 합니다. 2차원으로 축소시키면, x축과 y축에 시각화가 가능하기 때문입니 다. 이를 차원 축소(Dimensionality reduction)라고 합니다. 차원 축소란 기존의 데이터의 정보를 되도록 잃지 않도록 하게 하면서 차원을 축소한 데이터를 만들어 시각화를 하였을 때 데이터가 서로 중첩되지는 않는지, 잘 분리되고 있는지를 판단할 수 있도록 도 와줍니다. 시각화를 할 때를 포함하여 차원 축소는 굉장히 많이 사용되는 개념이므로 기억해둡시다.

 

(5) [머신러닝] PCA 차원 축소 알고리즘 및 파이썬 구현 (주성분 분석) - YouTube