import seaborn
import pandas

iris = pandas.read_table("https://fxjollois.github.io/donnees/Iris.txt", sep = "\t")
iris_num = iris.iloc[:,:4]
iris_num.head()

from sklearn import manifold

isomap = manifold.Isomap(n_components = 2, n_neighbors = 25)
res = isomap.fit_transform(iris_num)

res_df = pandas.DataFrame(res, columns = ["X", "Y"])
res_df

g = seaborn.scatterplot(res_df.assign(Species = iris["Species"]),
                        x = "X", y = "Y", hue = "Species")

lle = manifold.LocallyLinearEmbedding(n_components = 2, n_neighbors = 25)
res = lle.fit_transform(iris_num)

res_df = pandas.DataFrame(res, columns = ["X", "Y"])
res_df

g = seaborn.scatterplot(res_df.assign(Species = iris["Species"]),
                        x = "X", y = "Y", hue = "Species")

mds = manifold.MDS(n_components = 2, normalized_stress = "auto")
res = mds.fit_transform(iris_num)

res_df = pandas.DataFrame(res, columns = ["X", "Y"])
res_df

g = seaborn.scatterplot(res_df.assign(Species = iris["Species"]),
                        x = "X", y = "Y", hue = "Species")

from sklearn.cluster import DBSCAN

db = DBSCAN(eps = 0.75, min_samples = 10).fit(iris_num)
db

DBSCAN(eps=0.75, min_samples=10)

DBSCAN(eps=0.75, min_samples=10)

db.labels_

array([ 0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
        0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
        0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  1,
        1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
        1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
        1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1, -1,  1,  1,  1,
        1,  1,  1, -1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1, -1, -1,
        1,  1,  1, -1,  1,  1,  1,  1,  1,  1,  1,  1, -1,  1,  1,  1,  1,
        1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1])

pandas.crosstab(db.labels_, iris.Species)

pandas.crosstab(DBSCAN(eps = 0.25, min_samples = 5).fit(iris_num).labels_, iris.Species)

from sklearn.cluster import HDBSCAN

hdb = HDBSCAN(min_cluster_size = 10).fit(iris_num)
hdb

HDBSCAN(min_cluster_size=10)

HDBSCAN(min_cluster_size=10)

hdb.labels_

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

pandas.crosstab(hdb.labels_, iris.Species)

hdb.probabilities_

array([1.        , 0.9486833 , 1.        , 1.        , 1.        ,
       0.65465367, 0.70710678, 1.        , 0.63960215, 0.9486833 ,
       0.83205029, 0.9486833 , 1.        , 0.48666426, 0.43759497,
       0.35112344, 0.63960215, 1.        , 0.53881591, 0.83205029,
       0.6882472 , 0.9486833 , 0.46852129, 0.6882472 , 0.57735027,
       0.72760688, 0.9486833 , 1.        , 1.        , 0.9486833 ,
       1.        , 0.77459667, 0.53881591, 0.51449576, 1.        ,
       0.83205029, 0.65465367, 0.8660254 , 0.63960215, 1.        ,
       1.        , 0.32929278, 0.63960215, 0.65465367, 0.54772256,
       1.        , 0.83205029, 1.        , 0.90453403, 1.        ,
       0.69883624, 1.        , 0.70710678, 0.8819171 , 1.        ,
       1.        , 0.83666003, 0.47776654, 0.89871703, 0.74339194,
       0.49705012, 1.        , 0.69883624, 0.97700842, 0.78590525,
       0.83666003, 0.91651514, 0.97700842, 0.62360956, 1.        ,
       0.83666003, 0.91651514, 0.89871703, 0.8660254 , 0.93541435,
       0.85096294, 0.77459667, 0.83666003, 0.97700842, 0.66843736,
       0.8660254 , 0.76376262, 1.        , 0.97700842, 0.78590525,
       0.78590525, 1.        , 0.65465367, 0.97700842, 1.        ,
       0.89871703, 1.        , 1.        , 0.50300303, 1.        ,
       1.        , 1.        , 1.        , 0.4450991 , 1.        ,
       0.64168895, 0.8819171 , 0.83666003, 0.77459667, 0.91651514,
       0.51887452, 0.48575205, 0.52223297, 0.62360956, 0.52565748,
       0.8660254 , 0.95553309, 0.95553309, 0.70710678, 0.59160798,
       0.85096294, 0.91651514, 0.36927447, 0.33968311, 0.67566392,
       0.79772404, 0.7533708 , 0.43109246, 0.95553309, 0.89871703,
       0.61791438, 0.97700842, 0.97700842, 0.8819171 , 0.5819877 ,
       0.54006172, 0.36927447, 0.89871703, 0.89871703, 0.60697698,
       0.50300303, 0.71567809, 0.89871703, 0.97700842, 0.8819171 ,
       0.95553309, 0.70710678, 0.8819171 , 0.82305489, 0.83666003,
       0.79772404, 0.82305489, 0.95553309, 0.70710678, 0.85096294])

	Sepal Length	Sepal Width	Petal Length	Petal Width
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

	X	Y
0	-2.986495	-0.093766
1	-3.054932	-0.094380
2	-3.211404	-0.114591
3	-3.184169	-0.102344
4	-3.043833	-0.094985
...	...	...
145	2.272376	-0.096641
146	1.796300	0.353651
147	2.031000	-0.046682
148	2.212726	0.201270
149	1.597612	0.308557

	X	Y
0	-0.105037	-0.033316
1	-0.104307	-0.035156
2	-0.105433	-0.053949
3	-0.104845	-0.048971
4	-0.105459	-0.040526
...	...	...
145	0.081336	-0.029264
146	0.060954	0.061371
147	0.072306	-0.009316
148	0.083073	0.024422
149	0.058060	0.076859

	X	Y
0	-1.534220	-2.239563
1	-1.069020	-2.515981
2	-1.221717	-2.637333
3	-0.976281	-2.597630
4	-1.581215	-2.270318
...	...	...
145	0.893697	1.812380
146	1.014434	1.187975
147	0.840210	1.574532
148	1.446167	1.531978
149	1.065510	1.031443

Extraction de connaissances à partir de données structurées et non structurées¶

Séance 9 : Quelques méthodes alternatives¶

Représentation de données¶

Isomap¶

Locally Linear Embedding (LLE)¶

Multi-Dimensionnal Scaling (MDS)¶

Méthodes de classification¶

DBSCAN¶

HDBSCAN¶

Travail à faire¶

	Sepal Length	Sepal Width	Petal Length	Petal Width
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

Species	setosa	versicolor	virginica
row_0
-1	0	1	5
0	50	0	0
1	0	49	45

Species	setosa	versicolor	virginica
row_0
-1	17	45	50
0	33	0	0
1	0	5	0

Species	setosa	versicolor	virginica
row_0
0	50	0	0
1	0	50	50

	Sepal Length	Sepal Width	Petal Length	Petal Width
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2

	Sepal Length	Sepal Width	Petal Length	Petal Width
0	5.1	3.5	1.4	0.2
1	4.9	3.0	1.4	0.2
2	4.7	3.2	1.3	0.2
3	4.6	3.1	1.5	0.2
4	5.0	3.6	1.4	0.2