Nous disposons de données de concentrations de planctons dans l’océan, provenant d’une étude [1] de 2008 à 2019, entre 0 et 500m de profondeur. Les données sont disponibles sur le site SEANOE ou en téléchargeant ce fichier
Voici le jeu de données une fois importé :
library(readr)
library(DT)
data = read_csv("103673.csv", show_col_types = FALSE)
datatable(data, options = list(scrollX = TRUE, dom = 'tp')) %>%
formatRound(c(8:58), digits = 3)
Dans ces variables, nous avons différents types de variables :
psampleid),
coordonnées (lat et lon), temps
(date, day_night) et informations
supplémentaires (prod et layer) ;Acantharea à Trichodesmium ;temp à kd490.On peut représenter les points de collecte de données sur une carte à l’aide du code suivant :
library(maps)
library(ggplot2)
ggplot() +
geom_polygon(data = map_data("world"),
aes(x = long, y = lat, group = group),
fill = "lightgray") +
geom_point(data = data, aes(x = lon, y = lat), size = 1) +
theme_minimal()
Nous souhaitons donc étudier les concentrations de planctons pour
avoir des profils type. Pour cela, nous allons procéder aux étapes
suivantes en suivant le plan de l’article initial, pour chaque couche
(cf variable layer) :
decostand() du package
vegan par exemple)bulk_conc et
snow_conc en calculant \(\log(1+x)\) (car valeurs parfois égales à
0)quanti.sup dans la fonction PCA())Dans l’article initial [1], la partition est recherchée sur les cinq premiers facteurs de l’ACP. L’idée n’est pas nouvelle et elle est couramment mise en oeuvre. L’idée derrière est de supprimer le bruit éventuel présent dans les données. Essayez de comparer vos résultats avec leurs résultats.