Nous disposons de données de concentrations de planctons dans l’océan, provenant d’une étude [1] de 2008 à 2019, entre 0 et 500m de profondeur. Les données sont disponibles sur le site SEANOE ou en téléchargeant ce fichier
Voici le jeu de données une fois importé :
library(readr)
library(DT)
data = read_csv("103673.csv", show_col_types = FALSE)
datatable(data, options = list(scrollX = TRUE, dom = 'tp')) %>%
formatRound(c(8:58), digits = 3)
Dans ces variables, nous avons différents types de variables :
psampleid
),
coordonnées (lat
et lon
), temps
(date
, day_night
) et informations
supplémentaires (prod
et layer
) ;Acantharea
à Trichodesmium
;temp
à kd490
.On peut représenter les points de collecte de données sur une carte à l’aide du code suivant :
library(maps)
library(ggplot2)
ggplot() +
geom_polygon(data = map_data("world"),
aes(x = long, y = lat, group = group),
fill = "lightgray") +
geom_point(data = data, aes(x = lon, y = lat), size = 1) +
theme_minimal()
Nous souhaitons donc étudier les concentrations de planctons pour
avoir des profils type. Pour cela, nous allons procéder aux étapes
suivantes en suivant le plan de l’article initial, pour chaque couche
(cf variable layer
) :
decostand()
du package
vegan
par exemple)bulk_conc
et
snow_conc
en calculant \(\log(1+x)\) (car valeurs parfois égales à
0)quanti.sup
dans la fonction PCA()
)Dans l’article initial [1], la partition est recherchée sur les cinq premiers facteurs de l’ACP. L’idée n’est pas nouvelle et elle est couramment mise en oeuvre. L’idée derrière est de supprimer le bruit éventuel présent dans les données. Essayez de comparer vos résultats avec leurs résultats.