클러스터링2 [머신러닝] Hierarchical Clustering 하이어라키컬 클러스터링은 각 데이터간의 거리가 가장 가까운것부터 묶어 순차적으로 클러스터링한다. 또한 이를 관계도인 덴드로그램을 통해 나타낼수 있다. 완성된 덴드로그램을 분석하여 사용자가 데이터를 몇개의 그룹으로 나눌지 결정한다. # 주로 거리가 긴 (관계가 먼) 곳을 기준으로 나눠준다. df= 먼저 X값을 정한다. X = df.iloc[:,3:] 그 후, sch.dendrogram함수와 sch.linkage함수를 사용하여 덴드로그램을 그린다. in: sch.dendrogram(sch.linkage(X,method='ward')) plt.title('Dendrogram') plt.xlabel('Customers') plt.ylabel('Eculidean Distance') plt.show() out: #.. 2022. 5. 10. [머신러닝] K-Means Clustering 클러스터링은 Unsupervised Learning이다. kmeans 클러스터링은 랜덤한곳에 점 두개를 찍어 점사이를 기준으로 수직이등분하여 영역을 나눈다. (클러스터링) 구분된 영역의 중앙으로 점들을 이동시키며 다시 수직이등분하여 영역을 나누는 작업을 반복하여 나눈 영역안에 다른 카테고리가 더이상 나타나지 않으면 작업을 끝낸다. 클러스터링은 k 개의 그룹을 만드는데 3개 이상의 클러스터링을 위해 위의 작업을 반복할때 사용자가 원치 않는 그룹이 될수있다. 위와 같은 문제는 해결한것이, K-Means++ 알고리즘이다. K-Means++는 WCSS(within-cluster sums of squares)를 구해 그룹화 작업을 한다. # 센터가 원소들과의 거리가 멀수록 값이 커진다. # 최소값에 가까워지는 갯.. 2022. 5. 9. 이전 1 다음