python-clustering/hierarhical-cluster.py at master · famasya/python-clustering · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
import pandas as pd
import random
import matplotlib.pyplot as plt
import math

k = 2
colorarray = []
clustered = []

def main():
    df = pd.read_csv("dummy.csv")
    df['g'] = 0
    l = len(df)
    for i,row in df.iterrows():
        c = color()
        plt.scatter(row['x'],row['y'],color=c)
        row['g'] = i
        colorarray.append(c)

    # while available cluster > k, iterate
    while(l>k):
        l = group(df,l)
        print 'Jumlah cluster',l
    print df
    plt.show()

def color():
    r = lambda: random.randint(0,255)
    return ('#%02X%02X%02X' % (r(),r(),r()))

def group(df,l):
    merge = []
    merge.append(0)
    merge.append(0)
    minval = 99999
    # calculate two closest data
    for x,y in df.iterrows():
        for j,k in df.iterrows():
            if((j > x) and (y['g'] != k['g'])):
                c = math.sqrt((y['x']-k['x'])**2+(y['y']-k['y'])**2)
                if(c < minval):
                    minval = c
                    merge[0] = x
                    merge[1] = j
    ga = df['g'][merge[0]]
    gb = df['g'][merge[1]]
    # merge it to most populate cluster
    if(clustered.count(ga) > clustered.count(gb)):
        a = merge[1]
        b = merge[0]
    else:
        a = merge[0]
        b = merge[1]
    plt.scatter(df['x'][a],df['y'][a],color=colorarray[b])
    colorarray[a] = colorarray[b]
    df['g'][a] = df['g'][b]
    clustered.append(df['g'][b])
    # return how many cluster left
    return len(set(df['g']))


if __name__ == '__main__':
    main()