prs-watch/fg_cluster_executer.py

## fg_cluster_executer.py
import pandas as pd
import umap
from pyclustering.cluster import xmeans

class FGClusterExecuter:
    """
    FanGraphs stats clustering class
    """

    @classmethod
    def cluster(cls, csv_file, labels, sep=','):
        labels, data = cls.__load_data(csv_file, labels, sep)
        ndata = cls.__normalize(data)
        arrdata = ndata.as_matrix()
        umap_emb = cls.__exec_umap(arrdata)
        clusters = cls.__exec_xmeans(arrdata)
        return labels, data, umap_emb, clusters

    @staticmethod
    def __load_data(csv_file, labels, sep):
        df = pd.read_csv(csv_file, sep=sep)
        labels =df[labels]
        data = df.drop(labels, axis=1)
        return labels, data

    @staticmethod
    def __normalize(df):
        df = df.fillna(0)
        ndata = (df - df.mean()) / (df.max() - df.min())
        return ndata.fillna(0)

    @staticmethod
    def __exec_umap(array):
        return umap.UMAP().fit_transform(array)

    @staticmethod
    def __exec_xmeans(array):
        init_center = xmeans.kmeans_plusplus_initializer(array, 2).initialize()
        xm = xmeans.xmeans(array, init_center, ccore=False)
        xm.process()
        return xm.get_clusters()
	import pandas as pd
	import umap
	from pyclustering.cluster import xmeans

	class FGClusterExecuter:
	"""
	FanGraphs stats clustering class
	"""

	@classmethod
	def cluster(cls, csv_file, labels, sep=','):
	labels, data = cls.__load_data(csv_file, labels, sep)
	ndata = cls.__normalize(data)
	arrdata = ndata.as_matrix()
	umap_emb = cls.__exec_umap(arrdata)
	clusters = cls.__exec_xmeans(arrdata)
	return labels, data, umap_emb, clusters

	@staticmethod
	def __load_data(csv_file, labels, sep):
	df = pd.read_csv(csv_file, sep=sep)
	labels =df[labels]
	data = df.drop(labels, axis=1)
	return labels, data

	@staticmethod
	def __normalize(df):
	df = df.fillna(0)
	ndata = (df - df.mean()) / (df.max() - df.min())
	return ndata.fillna(0)

	@staticmethod
	def __exec_umap(array):
	return umap.UMAP().fit_transform(array)

	@staticmethod
	def __exec_xmeans(array):
	init_center = xmeans.kmeans_plusplus_initializer(array, 2).initialize()
	xm = xmeans.xmeans(array, init_center, ccore=False)
	xm.process()
	return xm.get_clusters()
No results found