Download PDFOpen PDF in browser클래스 불균형 문제에 대한 거리 기반 가중치 k-평균 클러스터링 기법EasyChair Preprint 111454 pages•Date: October 23, 2023Abstract본 논문에서는 클래스(class) 불균형 문제를 해결하기 위해 거리 기반 가중치를 활용한 k-평균 클러스터링(distance-weighted k-means clustering) 기법을 제안한다. k-평균 클러스터링은 데이터 포인트를 클러스터(cluster)로 그룹화하는 대중적인 기술 중 하나로, 동일한 클러스터에 속하는 모든 데이터 포인트들의 평균(mean)을 통해 각 클러스터의 중심점(centroid)을 업데이트하는 특징이 있어 클래스 간의 데이터 불균형이 있는 경우 성능 저하 문제가 발생할 수 있다. 이러한 문제에 대응하여 제안하는 모델은 클러스터의 중심점을 업데이트할 때마다 모든 데이터 포인트와 클러스터 중심점과의 거리를 계산하고, 이를 기반으로 가중평균으로 계산하여 새로운 중심점을 얻는다. 과정의 반복을 통해 불균형한 클래스 간의 클러스터링 결과를 개선하는 것을 목표로 하였으며, 실데이터를 사용한 실험 결과에서 제안 모델은 평균 또는 중앙값을 사용하여 클러스터 중심점을 계산하는 기존 연구들보다 클러스터링 품질이 우수함을 확인하였다. 특히 클러스터의 내부 간 응집도와 클러스터 간 분리도를 측정하는 실루엣 계수(silhouette coefficient) 지표에서 평균 또는 중앙값을 이용한 비교 모델들이 음의 값으로 측정된 반면에 제안 모델은 0.1919로 측정되었음을 확인하였다. Keyphrases: K-means clustering, class imbalance, cluster centroid
|