first commit

2 months ago · f491305d6b
commit f491305d6b
15 changed files with 3088 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,47 @@
+*.pptx
+*.tif
+data/
+*.Rda
+*.rds
+*.xlsx
+ssp585-png
+catboost_info/
+cat_model.cbm
+
+.Rproj.user
+.positai
+# History files
+.Rhistory
+.Rapp.history
+# Session Data files
+.RData
+.RDataTmp
+# User-specific files
+.Ruserdata
+# Example code in package build process
+*-Ex.R
+# Output files from R CMD build
+/*.tar.gz
+# Output files from R CMD check
+/*.Rcheck/
+# RStudio files
+.Rproj.user/
+# produced vignettes
+vignettes/*.html
+vignettes/*.pdf
+# OAuth2 token, see https://github.com/hadley/httr/releases/tag/v0.3
+.httr-oauth
+# knitr and R markdown default cache directories
+*_cache/
+/cache/
+# Temporary files created by R markdown
+*.utf8.md
+*.knit.md
+# R Environment Variables
+.Renviron
+# pkgdown site
+docs/
+# translation temp files
+po/*~
+# RStudio Connect folder
+rsconnect/
--- a/R/shared-utils.R
+++ b/R/shared-utils.R
@ -0,0 +1,84 @@
+make_study_bounds <- function(range_shapefile, expand_degrees = 5) {
+  seal_range <- terra::vect(range_shapefile)
+  bbox <- terra::ext(seal_range) |> terra::extend(expand_degrees)
+  list(
+    seal_range = seal_range,
+    lon_range = c(bbox$xmin, bbox$xmax),
+    lat_range = c(bbox$ymin, bbox$ymax)
+  )
+}
+
+download_biooracle_slice <- function(dynamic_layers, scenario_value, decade_start, lon_range, lat_range, download_root = "./data/bio-oracle-2") {
+  scenario_layers <- dynamic_layers |>
+    dplyr::filter(scenario == scenario_value)
+
+  time_point <- paste0(decade_start, "-01-01T00:00:00Z")
+  slice_constraints <- list(
+    time = c(time_point, time_point),
+    longitude = lon_range,
+    latitude = lat_range
+  )
+
+  download_dir <- file.path(download_root, scenario_value, decade_start)
+  dir.create(download_dir, recursive = TRUE, showWarnings = FALSE)
+
+  sapply(
+    scenario_layers$dataset_id,
+    function(id) biooracler::download_layers(
+      id,
+      constraints = slice_constraints,
+      directory = download_dir
+    ),
+    simplify = TRUE
+  )
+}
+
+download_biooracle_slice_subset <- function(dynamic_layers, scenario_value, decade_start, layers_to_download, lon_range, lat_range, download_root = "./data/bio-oracle-2") {
+  scenario_layers <- dynamic_layers |>
+    dplyr::filter(
+      scenario == scenario_value &
+        var %in% layers_to_download$var &
+        depth %in% layers_to_download$depth
+    )
+
+  time_point <- paste0(decade_start, "-01-01T00:00:00Z")
+  slice_constraints <- list(
+    time = c(time_point, time_point),
+    longitude = lon_range,
+    latitude = lat_range
+  )
+
+  download_dir <- file.path(download_root, scenario_value, decade_start)
+  dir.create(download_dir, recursive = TRUE, showWarnings = FALSE)
+
+  sapply(
+    scenario_layers$dataset_id,
+    function(id) biooracler::download_layers(
+      id,
+      constraints = slice_constraints,
+      directory = download_dir
+    ),
+    simplify = TRUE
+  )
+}
+
+set_brick_names_with_depth <- function(r) {
+  r_depths <- names(r) |> stringr::str_extract("depth[:alpha:]+")
+  r_longnames <- terra::longnames(r)
+  names(r) <- paste(r_longnames, r_depths)
+  r
+}
+
+assert_required_files <- function(paths) {
+  missing_paths <- paths[!file.exists(paths)]
+  if (length(missing_paths) > 0) {
+    stop(
+      paste0(
+        "Missing required file(s): ",
+        paste(missing_paths, collapse = ", "),
+        ". Run learning pipeline first."
+      ),
+      call. = FALSE
+    )
+  }
+}
--- a/artifacts-manifest-learning.csv
+++ b/artifacts-manifest-learning.csv
@ -0,0 +1,6 @@
+"artifact","path"
+"dynamic_layers","dynamic_layers.rds"
+"subset_layer_names","subset_baseline_layer_names.rds"
+"seal_range_df","seal_range_df.rds"
+"seal_range_raster","seal_range_raster.tif"
+"model","cat_model.cbm"
--- a/bio-oracle-1.qmd
+++ b/bio-oracle-1.qmd
@ -0,0 +1,471 @@
+---
+title: "Untitled"
+format: html
+---
+
+## Libraries
+
+```{r}
+library(tidyr)
+library(dplyr)
+library(terra)
+library(mregions2)
+library(biooracler)
+library(stringr)
+library(tibble)
+library(catboost)
+library(caret)
+library(blockCV)
+library(sf)
+```
+
+## Download
+
+### Sea
+
+Загружаем данные по Баренцеву морю
+
+```{r}
+barentsz_mrgid = 4247
+geo = gaz_geometry(barentsz_mrgid, format = "sfc") |> vect()
+```
+
+
+Фиксируем охват
+
+```{r}
+bbox = ext(geo)
+```
+
+### Bio-Oracle
+
+Фиксируем доступные в Bio-Oracle слои
+
+```{r}
+layers = list_layers()
+```
+
+
+Фиксируем слои, на которые нет прогнозных данных. Их мы не будем использовать в обучении и предсказании.
+
+```{r}
+# Нет прогнозных данных :/
+removed_layers_ids = c(
+    "par_mean_baseline_2000_2020_depthsurf",
+    "kdpar_mean_baseline_2000_2020_depthsurf",
+    "chl_baseline_2000_2018_depthmax",
+    "chl_baseline_2000_2018_depthmean",
+    "chl_baseline_2000_2018_depthmin"
+)
+```
+
+
+Фиксируем слой с характеристиками поверхности дна. Они будут одинаковыми для всех временных срезов и сценариев.
+
+```{r}
+constant_layers_ids = c("terrain_characteristics")
+
+constant_layers = layers |>
+    filter(dataset_id %in% constant_layers_ids)
+```
+
+
+Фиксируем динамические слои. Они являются основой проводимого анализа. Разбиваем код на отдельные поля: переменная, сценарий, период, глубина.
+
+```{r}
+dynamic_layers = layers |>
+    filter(! dataset_id %in% c(constant_layers_ids, removed_layers_ids)) |> 
+    separate_wider_delim(dataset_id, delim = "_", names = c("var", "scenario", "year_star", "year_end", "depth"), cols_remove = FALSE)
+```
+
+
+Создаём заготовку для формирования срезов. Пока включаем только пространственную составляющую.
+
+```{r}
+lon_range = c(bbox$xmin, bbox$xmax)
+lat_range = c(bbox$ymin, bbox$ymax)
+constraints = list(
+    longitude = lon_range,
+    latitude = lat_range
+)
+```
+
+
+Загружаем данные о поверхности дна.
+
+```{r}
+terrain_raster = download_layers(
+    constant_layers$dataset_id[1],
+    constraints = constraints,
+    directory = "data/bio-oracle/terrain_characteristics"
+)
+# Переименовываем слои в полные названия, чтобы потом поля понятно назывались
+names(terrain_raster) = longnames(terrain_raster)
+```
+
+
+Формируем функцию загрузки среза данных. Аргументами являются сценарий климатического развития и декада. Параметры охвата беруться из констант (см. `lon_range`, `lat_range`).
+
+```{r}
+download_slice = function(scenario_value, decade_start) {
+    scenario_layers = dynamic_layers |> 
+        filter(scenario == scenario_value)
+
+    time_point = paste0(decade_start, "-01-01T00:00:00Z")
+
+    slice_constraints = list(
+        time = c(time_point, time_point),
+        longitude = lon_range,
+        latitude = lat_range
+    )
+
+    download_dir = file.path("./data/bio-oracle", scenario_value, decade_start)
+    dir.create(download_dir, recursive = TRUE, showWarnings = FALSE)
+
+    slice_rasters = sapply(
+        scenario_layers$dataset_id,
+        function(id) download_layers(
+            id,
+            constraints = slice_constraints,
+            directory = download_dir
+        ),
+        simplify = TRUE
+    )
+
+    return(slice_rasters)
+}
+```
+
+
+Выполняем загрузку среза на текущую декаду. Он будет использоваться в качестве контекстных данных для обучения.
+
+```{r}
+baseline_rasters = download_slice("baseline", 2010)
+```
+
+### IUCN
+<!-- Publish dataset -->
+
+```{r}
+mammals_range = vect("data/iucn/MAMMALS_MARINE_ONLY.shp")
+```
+
+
+Загружаем данные об ареалах видов в пределах озвата Баренцевого моря.
+
+#### Crop to the sea
+
+```{r}
+# mammals_range_barentsz = mammals_range |> 
+#     crop(bbox)
+
+# writeVector(mammals_range_barentsz, "data/iunc/mammals_barentsz.shp")
+
+mammals_range_barentsz = vect("./data/iucn/mammals_barentsz.shp")
+```
+
+## Transform
+
+Приводим загруженные данные к виду, пригодному для машинного обучения
+
+### Bio-Oracle
+
+Чтобы в df потом были нормальные названия колонок
+```{r}
+baseline_brick = rast(baseline_rasters)
+
+baseline_brick_depths = baseline_brick |> 
+    names() |> 
+    str_extract("depth[:alpha:]+")
+baseline_brick_longnames = baseline_brick |> longnames()
+# baseline_brick_varnames = baseline_brick |> varnames() // краткая запись называний слоёв
+# Человекочитаемые названия слоёв -> полей в датафрейме (см. следующий блок)
+names(baseline_brick) = paste(baseline_brick_longnames, baseline_brick_depths)
+```
+
+
+Трансформируем растр в датафрейм. Сохраняем идентификаторы ячеек для надёжного установления соответствия между контекстными и целевыми данными.
+
+```{r}
+baseline_df = c(baseline_brick, terrain_raster) |> 
+    as.data.frame(cells = TRUE)
+```
+
+### IUCN
+
+Трансформируем данные об ареалах в растр с параметрами, аналогичными растрам параметров местообитаний.
+
+```{r}
+template_raster = baseline_rasters[[1]]
+orca_range = mammals_range_barentsz |> 
+    subset(mammals_range_barentsz$sci_name == "Orcinus orca")
+
+orca_range_boundaries_buffer = orca_range |> 
+    as.lines() |> 
+    buffer(50000) |> 
+    rasterize(template_raster, 1)
+
+orca_range_raster = orca_range |> 
+    rasterize(template_raster, "", background=0) |> 
+    mask(orca_range_boundaries_buffer, inverse = TRUE)
+
+plot(orca_range_raster)
+```
+
+```{r}
+orca_df = orca_range_raster |> 
+    as.data.frame(cells = TRUE) |> 
+    mutate(target = factor(if_else(layer == 0, "0", "1"), levels = c("0", "1"))) |> 
+    select(-layer)
+```
+
+```{r}
+mammals_brick = mammals_range_barentsz$sci_name |> 
+    sapply(function(sci_name) {
+        mammals_range_barentsz |> 
+            subset(mammals_range_barentsz$sci_name == sci_name) |> 
+            rasterize(baseline_rasters[[1]], field="sci_name")
+    }) |> 
+    rast()
+```
+
+```{r}
+plot(mammals_brick$`Orcinus orca`)
+```
+
+
+Трансформируем растр ареалов животных в датафрейм с идентификаторами ячеек. Так как параметры растров аналогичны, можно установить однозначное соответствие между ячейкой ареала и параметрами местообитания в данной ячейке.
+
+```{r}
+mammals_df = mammals_brick |> as.data.frame(cells = TRUE)
+```
+
+```{r}
+m_r = ifel(is.na(mammals_brick), 0, 1)
+mammals_df2 = m_r |> 
+    as.data.frame(xy = TRUE, cells = TRUE)
+```
+
+```{r}
+# mammals_sf = mammals_df2
+#     st_as_sf(coords = c("x", "y"), crs = 4326)
+# b = cv_spatial(
+#     x = mammals_sf,
+#     column = "Orcinus orca",
+#     # r = baseline_brick,
+#     # k = 3,
+#     size = 500000,
+#     # hexagon = TRUE,
+#     # selection = "random"
+# )
+# train_cells = mammals_sf[b$folds_list[[1]][[1]], ]$cell
+# test_cells = mammals_sf[b$folds_list[[1]][[2]], ]$cell
+```
+
+```{r}
+train_cells = mammals_df2 |>
+    select(cell, x, y) |> 
+    filter(y > 75) |> 
+    pull(cell)
+test_cells = mammals_df2 |> 
+    select(cell, x, y) |> 
+    filter(y < 75) |> 
+    pull(cell)
+```
+
+```{r}
+cv_plot(
+    cv = b, # a blockCV object
+    x = mammals_sf, # sample points
+)
+```
+
+<!-- Выбрать только виды, у которых присутсвие меньше 80% -->
+
+## Learn
+
+Learn what conditions does animals prefer
+
+```{r}
+learn = function(species_name, hyperparam) {
+    # Подготовка данных
+    species_df = mammals_df |> 
+        select(cell, all_of(species_name)) |> 
+        rename(target = species_name)
+
+    baseline_species_df = baseline_df |> 
+        left_join(species_df, by = "cell") |> 
+        mutate(target = factor(if_else(is.na(target), "0", "1"), levels = c("0", "1")))# |> 
+        #select(-cell)
+
+    # Разделение выборки на обучающую и тестовую
+    # set.seed(123)
+    # train_index = createDataPartition(baseline_species_df$target, p = 0.8, list = FALSE)
+
+    train_df = baseline_species_df |> 
+        filter(cell %in% train_cells)
+    train_features = train_df %>% select(-cell, -target) # параметры
+    train_labels = train_df$target # наличие ареала
+    train_pool = catboost.load_pool(data = train_features, label = train_labels)
+
+    test_df = baseline_species_df |> 
+        filter(cell %in% test_cells)
+    test_features = test_df %>% select(-cell, -target)
+    test_labels = test_df$target
+    test_pool = catboost.load_pool(data = test_features, label = test_labels)
+
+
+    # Обучение
+    model = catboost.train(train_pool, test_pool = test_pool, params = hyperparam)
+
+    return(model)
+}
+```
+
+```{r}
+baseline_orca_df = baseline_df |> 
+    left_join(orca_df, by = "cell") |> 
+    filter(!is.na(target))
+```
+
+```{r}
+learn_orca = function(species_name, hyperparam) {
+    baseline_species_df = baseline_df |> 
+        left_join(orca_df, by = "cell") |> 
+        filter(!is.na(target))
+
+    train_df = baseline_species_df |> 
+        filter(cell %in% train_cells)
+    train_features = train_df %>% select(-cell, -target) # параметры
+    train_labels = train_df$target # наличие ареала
+    train_pool = catboost.load_pool(data = train_features, label = train_labels)
+
+    test_df = baseline_species_df |> 
+        filter(cell %in% test_cells)
+    test_features = test_df %>% select(-cell, -target)
+    test_labels = test_df$target
+    test_pool = catboost.load_pool(data = test_features, label = test_labels)
+
+
+    # Обучение
+    model = catboost.train(train_pool, test_pool = test_pool, params = hyperparam)
+
+    return(model)
+}
+```
+
+```{r}
+fit_params <- list(
+  iterations = 100,
+  learning_rate = 0.03,
+  depth = 6,
+  loss_function = 'Logloss',    # Standard for binary classification
+  eval_metric = 'AUC',          # Good metric for imbalanced data
+  random_seed = 42,
+  verbose = 10                 # Print progress every 100 iterations
+  # od_type = "Iter",           # Optional: Early stopping
+  # od_wait = 50
+)
+```
+
+```{r}
+m_orca = learn("Orcinus orca", fit_params)
+```
+
+```{r}
+m_orca_2 = learn_orca("Orcinus orca", fit_params)
+```
+
+```{r}
+preds_prob <- catboost.predict(m_orca, pool_test, prediction_type = 'Probability')
+preds_class <- ifelse(preds_prob > 0.5, 1, 0)
+a = confusionMatrix(factor(preds_class), factor(labels_test))
+```
+
+```{r}
+importance <- catboost.get_feature_importance(model, pool = pool_train)
+```
+
+
+## Predict
+
+Predict changes in habitat ranges using different scenarios
+
+```{r}
+ssp585_2090_rasters = download_slice("ssp585", 2090)
+```
+
+```{r}
+ssp585_2090_brick = rast(ssp585_2090_rasters)
+ssp585_2090_brick_depths = ssp585_2090_brick |> 
+    names() |> 
+    str_extract("depth[:alpha:]+")
+ssp585_2090_brick_longnames = ssp585_2090_brick |> longnames()
+# baseline_brick_varnames = baseline_brick |> varnames() // коды longnames
+
+names(ssp585_2090_brick) = paste(ssp585_2090_brick_longnames, ssp585_2090_brick_depths)
+```
+
+```{r}
+ssp585_2090_df = c(ssp585_2090_brick, terrain_raster) |> 
+    as.data.frame(cells = TRUE)
+```
+
+```{r}
+ssp585_2090_features = ssp585_2090_df |> select(-cell)
+```
+
+```{r}
+ssp585_2090_pool <- catboost.load_pool(data = ssp585_2090_features)
+```
+
+```{r}
+preds_prob <- catboost.predict(model, ssp585_2090_pool, prediction_type = 'Probability')
+preds_class <- ifelse(preds_prob > 0.5, 1, 0)
+```
+
+```{r}
+ssp585_2090_prediction = ssp585_2090_df |> 
+    mutate(prediction = preds_class) |> 
+    select(cell, prediction)
+```
+
+```{r}
+a = orca_df |> 
+    left_join(ssp585_2090_prediction, by = "cell") |> 
+    mutate(target = if_else(is.na(target), 0, 1)) |> 
+    mutate(diff = prediction - target)
+```
+
+```{r}
+hist(a$diff)
+```
+
+```{r}
+# Select only your numeric predictors (environmental layers)
+# Calculate correlation matrix
+
+cor_matrix <- baseline_df |> 
+    select(-cell, -landmass, -coastline) |> 
+    cor()
+
+# Find attributes that are highly corrected (ideal cutoff is debatable, 0.85 or 0.9 is common)
+high_cor_features <- findCorrelation(cor_matrix, cutoff = 0.9)
+
+# Print names of features suggested for removal
+print(colnames(baseline_df)[high_cor_features])
+```
+
+```{r}
+r = rast(baseline_brick)
+r[a$cell] = a$diff
+```
+
+```{r}
+values(r) = NA
+```
+
+```{r}
+plot(r$`Long-term maximum AirTemperature depthsurf`)
+```
+
--- a/bio-oracle-2.qmd
+++ b/bio-oracle-2.qmd
@ -0,0 +1,250 @@
+```{r}
+library(tidyr)
+library(dplyr)
+library(terra)
+library(mregions2)
+library(biooracler)
+library(stringr)
+library(tibble)
+library(catboost)
+library(caret)
+library(blockCV)
+library(sf)
+```
+
+
+```{r}
+# mammals_range = vect("data/iucn/MAMMALS_MARINE_ONLY.shp")
+# seal_range = mammals_range |> 
+#     subset(mammals_range$sci_name == "Pagophilus groenlandicus")
+# writeVector(seal_range, "data/iucn/Pagophilus_groenlandicus.shp")
+seal_range = vect("data/iucn/Pagophilus_groenlandicus.shp")
+```
+
+
+```{r}
+bbox = ext(seal_range) |> extend(5)
+
+lon_range = c(bbox$xmin, bbox$xmax)
+lat_range = c(bbox$ymin, bbox$ymax)
+
+constraints = list(
+    longitude = lon_range,
+    latitude = lat_range
+)
+```
+
+## Bio-Oracle
+
+```{r}
+layers = list_layers()
+```
+
+
+Фиксируем слои, на которые нет прогнозных данных. Их мы не будем использовать в обучении и предсказании.
+
+```{r}
+# Нет прогнозных данных :/
+removed_layers_ids = c(
+    "par_mean_baseline_2000_2020_depthsurf",
+    "kdpar_mean_baseline_2000_2020_depthsurf",
+    "chl_baseline_2000_2018_depthmax",
+    "chl_baseline_2000_2018_depthmean",
+    "chl_baseline_2000_2018_depthmin"
+)
+```
+
+```{r}
+constant_layers_ids = c("terrain_characteristics")
+
+constant_layers = layers |>
+    filter(dataset_id %in% constant_layers_ids)
+```
+
+```{r}
+terrain_raster = download_layers(
+    constant_layers$dataset_id[1],
+    constraints = constraints,
+    directory = "data/bio-oracle-2/terrain_characteristics"
+)
+# Переименовываем слои в полные названия, чтобы потом поля понятно назывались
+names(terrain_raster) = longnames(terrain_raster)
+```
+
+```{r}
+dynamic_layers = layers |>
+    filter(! dataset_id %in% c(constant_layers_ids, removed_layers_ids)) |> 
+    separate_wider_delim(dataset_id, delim = "_", names = c("var", "scenario", "year_star", "year_end", "depth"), cols_remove = FALSE)
+```
+
+```{r}
+download_slice = function(scenario_value, decade_start) {
+    scenario_layers = dynamic_layers |> 
+        filter(scenario == scenario_value)
+
+    time_point = paste0(decade_start, "-01-01T00:00:00Z")
+
+    slice_constraints = list(
+        time = c(time_point, time_point),
+        longitude = lon_range,
+        latitude = lat_range
+    )
+
+    download_dir = file.path("./data/bio-oracle-2", scenario_value, decade_start)
+    dir.create(download_dir, recursive = TRUE, showWarnings = FALSE)
+
+    slice_rasters = sapply(
+        scenario_layers$dataset_id,
+        function(id) download_layers(
+            id,
+            constraints = slice_constraints,
+            directory = download_dir
+        ),
+        simplify = TRUE
+    )
+
+    return(slice_rasters)
+}
+```
+
+```{r}
+baseline_rasters = download_slice("baseline", 2010)
+```
+
+```{r}
+baseline_brick = rast(baseline_rasters)
+baseline_brick_depths = baseline_brick |> 
+    names() |> 
+    str_extract("depth[:alpha:]+")
+baseline_brick_longnames = baseline_brick |> longnames()
+# baseline_brick_varnames = baseline_brick |> varnames() // краткая запись называний слоёв
+# Человекочитаемые названия слоёв -> полей в датафрейме (см. следующий блок)
+names(baseline_brick) = paste(baseline_brick_longnames, baseline_brick_depths)
+```
+
+```{r}
+# features_brick = c(baseline_brick, terrain_raster)
+features_brick = c(baseline_brick)
+```
+
+```{r}
+# cropped_bbox = ext(
+#     bbox$xmin + 80,
+#     bbox$xmax - 90,
+#     bbox$ymin + 20,
+#     bbox$ymax
+# )
+
+cropped_bbox = ext(
+    -20,
+    72,
+    60,
+    85
+)
+```
+
+```{r}
+cropped_features_brick = features_brick |> 
+    crop(cropped_bbox)
+```
+
+```{r}
+baseline_df = cropped_features_brick |> 
+    as.data.frame(cells = TRUE)
+```
+
+```{r}
+cropped_seal_range_raster = seal_range |> 
+    rasterize(cropped_features_brick[[1]], field="", background=0)
+```
+
+```{r}
+plot(cropped_seal_range_raster)
+```
+
+```{r}
+cropped_seal_range_df = cropped_seal_range_raster |> 
+    as.data.frame(xy = TRUE, cells = TRUE) |> 
+    rename(target = layer)
+    #st_as_sf(coords = c("x", "y"), crs = 4326)
+
+block_size = 12
+
+cropped_seal_range_df_index = cropped_seal_range_df |>
+  mutate(
+    # Create grid indices based on coordinates
+    grid_x = floor(x / block_size),
+    grid_y = floor(y / block_size),
+    # Assign to "A" or "B" in a checkerboard pattern
+    block_id = (grid_x + grid_y) %% 2
+  )
+
+train_cells = cropped_seal_range_df_index |> 
+    filter(block_id == 0) |> 
+    pull(cell)
+test_cells = cropped_seal_range_df_index |> 
+    filter(block_id == 1) |> 
+    pull(cell)
+```
+
+```{r}
+learn_orca = function(hyperparam) {
+    baseline_species_df = baseline_df |> 
+        left_join(cropped_seal_range_df, by = "cell") |> 
+        filter(!is.na(target))
+
+    train_df = baseline_species_df |> 
+        filter(cell %in% train_cells)
+    train_features = train_df %>% select(-cell, -target, -x, -y) # параметры
+    train_labels = train_df$target # наличие ареала
+    train_pool = catboost.load_pool(data = train_features, label = train_labels)
+
+    test_df = baseline_species_df |> 
+        filter(cell %in% test_cells)
+    test_features = test_df %>% select(-cell, -target, -x, -y)
+    test_labels = test_df$target
+    test_pool = catboost.load_pool(data = test_features, label = test_labels)
+
+
+    # Обучение
+    model = catboost.train(train_pool, test_pool = test_pool, params = hyperparam)
+
+    return(model)
+}
+```
+
+```{r}
+fit_params <- list(
+  iterations = 100,
+  learning_rate = 0.01,
+  depth = 6,
+  loss_function = 'Logloss',
+  eval_metric = 'AUC',
+  random_seed = 42,
+  verbose = 10,                 # Print progress every 100 iterations
+  od_type = "Iter",           # Optional: Early stopping
+  od_wait = 20
+)
+```
+попробовать разделить по диагонали
+```{r}
+m_seal = learn_orca(fit_params)
+```
+
+```{r}
+i_seal = catboost.get_feature_importance(m_seal) |> as.data.frame() |> tibble::rownames_to_column("VALUE")
+```
+
+```{r}
+sf_use_s2(FALSE)
+target_test_blocks = cv_spatial(
+    x = cropped_seal_range_sf,
+    column = "layer",
+    size = 1e+06,
+    k = 2
+)
+```
+
+```{r}
+plot(cropped_seal_range_raster)
+```
--- a/bio-oracle-3.qmd
+++ b/bio-oracle-3.qmd
@ -0,0 +1,414 @@
+```{r}
+library(tidyr)
+library(dplyr)
+library(terra)
+library(mregions2)
+library(biooracler)
+library(stringr)
+library(tibble)
+library(catboost)
+library(caret)
+library(blockCV)
+library(sf)
+library(usdm)
+library(ggcorrplot)
+library(reshape2)
+library(tidygraph)
+library(ggraph)
+library(CAST)
+library(pdp)
+library(ggplot2)
+library(DALEX)
+```
+
+
+```{r}
+seal_range = vect("data/iucn/Pagophilus_groenlandicus.shp")
+bbox = ext(seal_range) |> extend(5)
+
+lon_range = c(bbox$xmin, bbox$xmax)
+lat_range = c(bbox$ymin, bbox$ymax)
+
+constraints = list(
+    longitude = lon_range,
+    latitude = lat_range
+)
+```
+
+
+```{r}
+layers = list_layers()
+
+# Нет прогнозных данных :/
+removed_layers_ids = c(
+    "par_mean_baseline_2000_2020_depthsurf",
+    "kdpar_mean_baseline_2000_2020_depthsurf",
+    "chl_baseline_2000_2018_depthmax",
+    "chl_baseline_2000_2018_depthmean",
+    "chl_baseline_2000_2018_depthmin"
+)
+
+constant_layers_ids = c("terrain_characteristics")
+
+constant_layers = layers |>
+    filter(dataset_id %in% constant_layers_ids)
+```
+
+```{r}
+dynamic_layers = layers |>
+    filter(! dataset_id %in% c(constant_layers_ids, removed_layers_ids)) |> 
+    separate_wider_delim(dataset_id, delim = "_", names = c("var", "scenario", "year_star", "year_end", "depth"), cols_remove = FALSE)
+```
+
+```{r}
+download_slice = function(scenario_value, decade_start) {
+    scenario_layers = dynamic_layers |> 
+        filter(scenario == scenario_value)
+
+    time_point = paste0(decade_start, "-01-01T00:00:00Z")
+
+    slice_constraints = list(
+        time = c(time_point, time_point),
+        longitude = lon_range,
+        latitude = lat_range
+    )
+
+    download_dir = file.path("./data/bio-oracle-2", scenario_value, decade_start)
+    dir.create(download_dir, recursive = TRUE, showWarnings = FALSE)
+
+    slice_rasters = sapply(
+        scenario_layers$dataset_id,
+        function(id) download_layers(
+            id,
+            constraints = slice_constraints,
+            directory = download_dir
+        ),
+        simplify = TRUE
+    )
+
+    return(slice_rasters)
+}
+```
+
+```{r}
+baseline_rasters = download_slice("baseline", 2010)
+```
+
+```{r}
+baseline_brick = rast(baseline_rasters)
+baseline_brick_depths = baseline_brick |> 
+    names() |> 
+    str_extract("depth[:alpha:]+")
+baseline_brick_longnames = baseline_brick |> longnames()
+baseline_brick_varnames = baseline_brick |> varnames()
+```
+
+```{r}
+subset_baseline_layer_names = tibble(
+    name = names(baseline_brick),
+    longname = baseline_brick_longnames,
+    varname = baseline_brick_varnames,
+    depth = baseline_brick_depths
+) |> 
+    separate_wider_delim(
+        varname,
+        delim = "_",
+        names = c("var", "type")
+    ) |> 
+        filter(
+            !(
+                depth == "depthmax" |
+                var %in% c("ph", "si", "dfe", "no3", "po4", "clt", "o2", "mlotst", "sws", "swd", "so") |
+                type %in% c("ltmin", "ltmax", "range")
+            )
+        )
+```
+
+```{r}
+subset_baseline_brick = baseline_brick |> 
+    subset(subset_baseline_layer_names$name)
+```
+
+```{r}
+names(baseline_brick) = paste(baseline_brick_longnames, baseline_brick_depths)
+```
+
+```{r}
+# features_brick = c(baseline_brick, terrain_raster)
+features_brick = c(subset_baseline_brick)
+```
+
+```{r}
+cropped_bbox = ext(
+    -20,
+    72,
+    60,
+    85
+)
+```
+
+```{r}
+cropped_features_brick = features_brick |> 
+    crop(cropped_bbox)
+```
+
+```{r}
+baseline_df = cropped_features_brick |> 
+    as.data.frame(cells = TRUE, xy = TRUE)
+```
+
+```{r}
+vif_input_df <- baseline_df |>
+  select(-cell) |> 
+  drop_na()
+```
+
+```{r}
+vif_sample = vif_input_df |> 
+  sample_n(10000)
+
+vif_sample = vif_sample[, sapply(vif_sample, function(x) var(x) > 0)]
+```
+
+```{r}
+corr_matrix <- cor(vif_sample)
+
+ggcorrplot(corr_matrix, 
+        #    hc.order = TRUE,   # Clusters similar variables together
+           type = "lower",    # Only show half (it's symmetrical anyway)
+           outline.col = "white",
+           colors = c("#6D9EC1", "white", "#E46726"),
+           lab = FALSE) +     # Set to TRUE only if you have <20 variables
+  theme(axis.text.x = element_text(size = 7, angle = 90),
+        axis.text.y = element_text(size = 7))
+```
+
+```{r}
+high_cor_pairs <- melt(corr_matrix) |>
+  filter(abs(value) > 0.8) |>
+  filter(Var1 != Var2) |>              # Remove self-correlations (1.0 on diagonal)
+  distinct(value, .keep_all = TRUE) |> # Remove duplicates (A-B and B-A)
+  arrange(desc(abs(value))) |> 
+  mutate(Var1 = as.character(Var1),
+         Var2 = as.character(Var2))
+```
+
+```{r}
+graph_data <- as_tbl_graph(high_cor_pairs)
+
+# Plot the clusters
+ggraph(graph_data, layout = "nicely") +
+  geom_edge_link(aes(alpha = abs(value)), color = "orange") +
+  geom_node_point(size = 2, color = "steelblue") +
+  geom_node_text(aes(label = name), repel = TRUE, size = 5) +
+  theme_void() +
+  labs(title = "Network of Redundant Variables (|r| > 0.8)")
+```
+
+```{r}
+vif_results <- vifstep(vif_sample, th = 10)
+```
+
+
+```{r}
+keeper_vars <- vif_results@results$Variables
+```
+
+
+```{r}
+baseline_df_subset = baseline_df |> 
+    select(cell, x, y, keeper_vars)
+```
+
+```{r}
+cropped_seal_range_raster = seal_range |> 
+    rasterize(cropped_features_brick[[1]], field="", background=0)
+```
+
+```{r}
+cropped_seal_range_df = cropped_seal_range_raster |> 
+    as.data.frame(cells = TRUE) |> 
+    rename(target = layer)
+```
+
+```{r}
+seal_baseline = dplyr::left_join(baseline_df_subset, cropped_seal_range_df, by = "cell")
+```
+
+```{r}
+seal_baseline_sf = st_as_sf(seal_baseline, coords = c("x", "y"), crs = 4326)
+```
+
+
+```{r}
+sb <- cv_spatial(x = seal_baseline_sf, 
+                column = "target", 
+                size = 500000,
+                k = 3, 
+                selection = "random")
+```
+
+
+```{r}
+seal_baseline$block_id <- sb$folds_ids
+seal_baseline$target <- as.factor(make.names(seal_baseline$target))
+```
+
+```{r}
+# save(seal_baseline, file = "seal_baseline.Rda")
+load(file = "seal_baseline.Rda")
+```
+
+
+```{r}
+indices <- CAST::CreateSpacetimeFolds(seal_baseline, 
+                                spacevar = "block_id", 
+                                k = 3)
+```
+
+```{r}
+seal_baseline_sample = sample_n(seal_baseline, 100000)
+```
+
+
+```{r}
+ctrl <- trainControl(method = "cv", 
+                     index = indices$index, 
+                     indexOut = indices$indexOut,
+                     classProbs = TRUE,
+                     summaryFunction = twoClassSummary,
+                     verboseIter = TRUE)
+
+ffs_model <- ffs(
+  predictors = seal_baseline |> select(-cell, -x, -y, -target),
+  response = seal_baseline$target,
+  method = "ranger", 
+  metric = "ROC",
+  trControl = ctrl,
+  tuneGrid = expand.grid(mtry = 2, 
+                         splitrule = "gini", 
+                         min.node.size = 10),
+  num.trees = 50,
+  num.threads = parallel::detectCores() - 1,
+  withinSE = TRUE,
+  minDiff = 0.005,
+  )
+```
+
+
+```{r}
+# save(ffs_model, file = "ffs_model.Rda")
+load(file = "ffs_model.Rda")
+```
+
+
+```{r}
+# 1. Take a small, representative sample for the calculation
+pdp_sample <- seal_baseline[sample(nrow(seal_baseline), 500), ]
+
+# 2. Run the partial function with 'train = pdp_sample' and 'grid.resolution'
+pdp_temp <- partial(ffs_model, 
+                    pred.var = "Minimum OceanTemperature depthsurf", 
+                    prob = TRUE, 
+                    which.class = "X1", 
+                    train = pdp_sample,     # This is the secret to speed
+                    grid.resolution = 20)   # 20 points is plenty for a smooth line
+```
+
+```{r}
+# 3. Plot it
+autoplot(pdp_temp) + theme_minimal()
+```
+
+
+```{r}
+# 2. Create the plot
+# The 'rug = TRUE' adds little tick marks at the bottom showing 
+# where your actual data points sit.
+autoplot(pdp_temp, rug = TRUE, train = seal_baseline) +
+  theme_minimal() +
+  labs(title = "Partial Dependence: Min Ocean Temperature",
+       subtitle = "How Ocean Temp influences Seal Presence Probability",
+       x = "Temperature (°C)",
+       y = "Probability of Presence") +
+  geom_line(size = 1.2, color = "steelblue")
+```
+
+```{r}
+final_vars <- c(
+  "Minimum Chlorophyll depthsurf",
+  "Maximum TotalPhytoplankton depthsurf",
+  "Maximum AirTemperature depthsurf",
+  "Minimum OceanTemperature depthsurf",
+  "Average Chlorophyll depthsurf",
+  "Maximum OceanTemperature depthmean",
+  "Average TotalPhytoplankton depthmean"
+)
+```
+
+```{r}
+train_data <- seal_baseline %>%
+  mutate(target_num = ifelse(target == "X1", 1, 0))
+```
+
+```{r}
+unique_blocks <- unique(train_data$block_id)
+train_blocks <- sample(unique_blocks, size = round(0.7 * length(unique_blocks)))
+
+# 3. Create the dataframes based on the blocks
+train_df <- train_data %>% filter(block_id %in% train_blocks)
+test_df  <- train_data %>% filter(!(block_id %in% train_blocks))
+```
+
+```{r}
+train_pool <- catboost.load_pool(
+  data = train_df[, final_vars], 
+  label = train_df$target_num
+)
+
+test_pool = catboost.load_pool(
+  data = test_df[, final_vars], 
+  label = test_df$target_num
+)
+```
+
+```{r}
+params <- list(
+  loss_function = 'Logloss',
+  eval_metric = 'AUC',
+  iterations = 100,     # Plenty of trees for a smooth fit
+  depth = 3,             # Standard depth to prevent overfitting
+  learning_rate = 0.06,  # Lower learning rate is better for high ROC data
+  l2_leaf_reg = 30,       # Stronger regularization to handle that 0.998 ROC
+  random_seed = 42,
+  rsm = 0.5,
+  verbose = 10          # Log progress every 100 iterations
+)
+```
+
+```{r}
+cat_model <- catboost.train(train_pool, test_pool = test_pool, params = params)
+```
+
+```{r}
+explainer_cat <- explain(
+  model = cat_model,
+  data = train_df[, final_vars],
+  y = train_df$target_num,
+  label = "CatBoost Harp Seal Model",
+  predict_function = function(model, x) catboost.predict(model, catboost.load_pool(x), prediction_type = "Probability")
+)
+```
+```{r}
+pdp_temp <- model_profile(
+  explainer = explainer_cat,
+  variables = "Minimum OceanTemperature depthsurf"
+)
+
+# 3. Plot it
+plot(pdp_temp)
+```
+
+```{r}
+importanc2e <- catboost.get_feature_importance(cat_model, train_pool)
+```
--- a/bio-oracle-4.qmd
+++ b/bio-oracle-4.qmd
@ -0,0 +1,605 @@
+## Load required R packages
+These libraries provide spatial handling, machine learning, and model explainability tools used throughout the workflow.
+
+```{r}
+library(tidyr)
+library(dplyr)
+library(terra)
+library(mregions2)
+library(biooracler)
+library(stringr)
+library(tibble)
+library(catboost)
+library(caret)
+library(blockCV)
+library(sf)
+library(usdm)
+library(ggcorrplot)
+library(reshape2)
+library(tidygraph)
+library(ggraph)
+library(CAST)
+library(pdp)
+library(ggplot2)
+library(DALEX)
+```
+
+## Define study area and spatial constraints
+Here we load the harp seal range shapefile and derive the longitude/latitude bounds used to constrain Bio-ORACLE downloads.
+
+```{r}
+seal_range = vect("data/iucn/Pagophilus_groenlandicus.shp")
+bbox = ext(seal_range) |> extend(5)
+
+lon_range = c(bbox$xmin, bbox$xmax)
+lat_range = c(bbox$ymin, bbox$ymax)
+
+constraints = list(
+    longitude = lon_range,
+    latitude = lat_range
+)
+```
+
+## List and filter Bio-ORACLE layers
+We list available Bio-ORACLE layers, manually remove unsupported ones, and separate constant (terrain) layers from dynamic variables.
+
+```{r}
+layers = list_layers()
+
+# Нет прогнозных данных :/
+removed_layers_ids = c(
+    "par_mean_baseline_2000_2020_depthsurf",
+    "kdpar_mean_baseline_2000_2020_depthsurf",
+    "chl_baseline_2000_2018_depthmax",
+    "chl_baseline_2000_2018_depthmean",
+    "chl_baseline_2000_2018_depthmin"
+)
+
+constant_layers_ids = c("terrain_characteristics")
+
+constant_layers = layers |>
+    filter(dataset_id %in% constant_layers_ids)
+```
+
+## Prepare dynamic layers metadata
+We keep only dynamic environmental variables and parse dataset IDs into variable, scenario, time, and depth components.
+
+```{r}
+dynamic_layers = layers |>
+    filter(! dataset_id %in% c(constant_layers_ids, removed_layers_ids)) |> 
+    separate_wider_delim(dataset_id, delim = "_", names = c("var", "scenario", "year_star", "year_end", "depth"), cols_remove = FALSE)
+
+saveRDS(dynamic_layers, 'dynamic_layers.rds')
+```
+
+## Helper to download a single temporal slice
+This function downloads all dynamic layers for a given scenario and decade within the spatial and temporal constraints.
+
+```{r}
+download_slice = function(scenario_value, decade_start) {
+    scenario_layers = dynamic_layers |> 
+        filter(scenario == scenario_value)
+
+    time_point = paste0(decade_start, "-01-01T00:00:00Z")
+
+    slice_constraints = list(
+        time = c(time_point, time_point),
+        longitude = lon_range,
+        latitude = lat_range
+    )
+
+    download_dir = file.path("./data/bio-oracle-2", scenario_value, decade_start)
+    dir.create(download_dir, recursive = TRUE, showWarnings = FALSE)
+
+    slice_rasters = sapply(
+        scenario_layers$dataset_id,
+        function(id) download_layers(
+            id,
+            constraints = slice_constraints,
+            directory = download_dir
+        ),
+        simplify = TRUE
+    )
+
+    return(slice_rasters)
+}
+```
+
+## Download baseline environmental slice
+We obtain baseline (historical) rasters for the 2010 decade over the study area.
+
+```{r}
+baseline_rasters = download_slice("baseline", 2010)
+```
+
+## Build baseline raster brick and extract metadata
+We combine downloaded rasters into a brick and extract depth, long names, and variable names for later filtering.
+
+```{r}
+baseline_brick = rast(baseline_rasters)
+baseline_brick_depths = baseline_brick |> 
+    names() |> 
+    str_extract("depth[:alpha:]+")
+baseline_brick_longnames = baseline_brick |> longnames()
+baseline_brick_varnames = baseline_brick |> varnames()
+names(baseline_brick) = paste(baseline_brick_longnames, baseline_brick_depths)
+```
+
+## Select ecologically relevant baseline variables
+We filter out less relevant or redundant variables and keep a focused subset of candidate predictors.
+
+```{r}
+suitable_baseline_layer_names = tibble(
+    name = names(baseline_brick),
+    longname = baseline_brick_longnames,
+    varname = baseline_brick_varnames,
+    depth = baseline_brick_depths,
+) |> 
+    separate_wider_delim(
+        varname,
+        delim = "_",
+        names = c("var", "type")
+    ) |> 
+        filter(
+            !(
+                depth == "depthmax" |
+                var %in% c("ph", "si", "dfe", "no3", "po4", "clt", "o2", "mlotst", "sws", "swd", "so") |
+                type %in% c("ltmin", "ltmax", "range")
+            )
+        ) 
+        
+subset_baseline_layer_names = suitable_baseline_layer_names |> 
+            filter(
+                name %in% c(
+                    "Minimum SeaIceCover depthsurf",
+                    "Minimum OceanTemperature depthsurf",
+                    "Average SeaIceThickness depthsurf",
+                    "Average Chlorophyll depthsurf",
+                    "Maximum OceanTemperature depthmin"
+                )
+            )
+```
+## Inspect chosen baseline variables
+We preview the table of selected variables to confirm that only the intended layers remain.
+
+```{r}
+subset_baseline_layer_names
+saveRDS(subset_baseline_layer_names, file = "subset_baseline_layer_names.rds")
+```
+
+## Build subset raster brick
+We subset the baseline raster brick to include only the selected variables.
+
+```{r}
+subset_baseline_brick = baseline_brick |> 
+    subset(subset_baseline_layer_names$name)
+```
+
+## Combine features into a single brick
+The final feature brick contains the chosen environmental predictors (terrain can be added later if needed).
+
+```{r}
+# features_brick = c(baseline_brick, terrain_raster)
+features_brick = c(subset_baseline_brick)
+```
+
+## (Optional) Crop feature brick to a subregion
+This chunk shows how to restrict the analysis to a smaller bounding box if desired (currently commented out).
+
+```{r}
+# cropped_bbox = ext(
+#     -20,
+#     72,
+#     60,
+#     85
+# )
+
+# cropped_features_brick = features_brick |> 
+#     crop(cropped_bbox)
+```
+
+## Convert raster brick to data frame
+We convert the environmental rasters to a tidy data frame with cell indices and coordinates.
+
+```{r}
+baseline_df = features_brick |> 
+    as.data.frame(cells = TRUE, xy = TRUE)
+```
+
+```{r}
+# vif_input_df <- baseline_df |>
+#   select(-cell) |> 
+#   drop_na()
+```
+
+```{r}
+# vif_sample = vif_input_df |> 
+#   sample_n(10000)
+
+# vif_sample = vif_sample[, sapply(vif_sample, function(x) var(x) > 0)]
+```
+
+## Explore correlations among predictors
+We randomly sample cells, compute a correlation matrix, and visualize pairwise correlations.
+
+```{r}
+sample = baseline_df |> 
+    sample_n(10000) |> 
+    select(-cell, -x, -y) |> 
+    drop_na()
+corr_matrix <- cor(sample)
+
+ggcorrplot(corr_matrix, 
+           hc.order = TRUE,   # Clusters similar variables together
+           type = "lower",    # Only show half (it's symmetrical anyway)
+           outline.col = "white",
+           colors = c("#6D9EC1", "white", "#E46726"),
+           lab = FALSE) +     # Set to TRUE only if you have <20 variables
+  theme(axis.text.x = element_text(size = 7, angle = 90),
+        axis.text.y = element_text(size = 7))
+```
+
+## Identify highly correlated variable pairs
+We list variable pairs with strong correlations to better understand redundancy among predictors.
+
+```{r}
+high_cor_pairs <- melt(corr_matrix) |>
+  filter(abs(value) > 0.8) |>
+  filter(Var1 != Var2) |>              # Remove self-correlations (1.0 on diagonal)
+  distinct(value, .keep_all = TRUE) |> # Remove duplicates (A-B and B-A)
+  arrange(desc(abs(value))) |> 
+  mutate(Var1 = as.character(Var1),
+         Var2 = as.character(Var2))
+```
+
+## Perform VIF-based variable selection
+Variance Inflation Factor (VIF) is used to remove collinear predictors and retain a stable subset.
+
+```{r}
+vif_results <- vifstep(sample, th = 10)
+```
+
+## Extract retained predictor names
+We pull out the names of variables that passed the VIF threshold.
+
+```{r}
+keeper_vars <- vif_results@results$Variables
+```
+
+## Subset baseline data frame to VIF-selected variables
+We keep only the selected predictors along with cell indices and coordinates.
+
+```{r}
+baseline_df_subset = baseline_df |> 
+    select(cell, x, y, all_of(keeper_vars))
+```
+## Rasterize harp seal range
+We convert the harp seal polygon range into a raster aligned with the environmental brick (presence/absence mask).
+
+```{r}
+seal_range_raster = seal_range |> 
+    rasterize(features_brick[[1]], field="", background=0)
+```
+
+```{r}
+writeRaster(seal_range_raster, "seal_range_raster.tif")
+```
+
+
+## Define spatial blocks for cross-validation
+We create block IDs over the study area and split them into train and test sets.
+
+```{r}
+all_blocks <- 1:15
+set.seed(321) # For reproducibility
+
+test_blocks <- sample(all_blocks, 5)   # Randomly pick 5 blocks for testing
+train_blocks <- setdiff(all_blocks, test_blocks)
+```
+
+```{r}
+block_grid = seal_range_raster |> 
+    ext() |> 
+    st_bbox() |> 
+    st_make_grid(n = c(5, 3)) |> 
+    st_sf() |> 
+    mutate(block_id = row_number()) |> 
+    mutate(type = ifelse(block_id %in% test_blocks, "Test (Hold-out)", "Train"))
+```
+
+```{r}
+block_raster = block_grid |> 
+    rasterize(seal_range_raster, field = "block_id")
+```
+
+```{r}
+seal_range_raster$block_id = block_raster$block_id
+```
+
+```{r}
+plot(seal_range_raster$layer)
+plot(vect(block_grid), add = TRUE, border = "black", lwd = 1)
+plot(
+    vect(block_grid |> filter(type == "Test (Hold-out)")), 
+    add = TRUE, 
+    border = "red", 
+    lwd = 3)
+```
+
+```{r}
+seal_range_df = seal_range_raster |> 
+    as.data.frame(cells = TRUE) |> 
+    rename(target = layer)
+
+saveRDS(seal_range_df, file = "seal_range_df.rds")
+```
+
+```{r}
+seal_baseline = dplyr::left_join(baseline_df_subset, seal_range_df, by = "cell")
+```
+
+
+```{r}
+# 3. Create the dataframes based on the blocks
+train_df <- seal_baseline %>% filter(block_id %in% train_blocks)
+test_df  <- seal_baseline %>% filter(block_id %in% test_blocks)
+```
+
+```{r}
+train_pool <- catboost.load_pool(
+  data = train_df |> select(-cell, -x, -y, -block_id, -target), 
+  label = train_df$target
+)
+
+test_pool = catboost.load_pool(
+  data = test_df |> select(-cell, -x, -y, -block_id, -target),
+  label = test_df$target
+)
+```
+
+```{r}
+params <- list(
+  loss_function = 'Logloss',
+  eval_metric = 'AUC',
+  iterations = 200,     # Plenty of trees for a smooth fit
+  depth = 2,             # Standard depth to prevent overfitting
+  learning_rate = 0.02,  # Lower learning rate is better for high ROC data
+  l2_leaf_reg = 15,       # Stronger regularization to handle that 0.998 ROC
+  random_seed = 42,
+  rsm = 0.5,
+  verbose = 10,
+  od_type = "Iter",
+  od_wait = 20
+)
+```
+
+```{r}
+cat_model <- catboost.train(train_pool, test_pool = test_pool, params = params)
+```
+
+```{r}
+explainer_cat <- explain(
+  model = cat_model,
+  data = train_df |> select(-cell, -x, -y, -block_id, -target),
+  y = train_df$target,
+  label = "CatBoost Harp Seal Model",
+  predict_function = function(model, x) catboost.predict(model, catboost.load_pool(x), prediction_type = "Probability")
+)
+```
+```{r}
+pdp_temp <- model_profile(
+  explainer = explainer_cat,
+  variables = "Average Chlorophyll depthsurf"
+)
+
+# 3. Plot it
+plot(pdp_temp)
+```
+
+```{r}
+importanc2e <- catboost.get_feature_importance(cat_model, train_pool) |> 
+    enframe()
+```
+
+
+```{r}
+catboost.save_model(cat_model, "cat_model.cbm")
+```
+
+
+## Make a prediction
+
+
+```{r}
+download_slice_subset = function(scenario_value, decade_start, layers_to_download) {
+    scenario_layers = dynamic_layers |> 
+        filter(
+            scenario == scenario_value &
+            var %in% layers_to_download$var &
+            depth %in% layers_to_download$depth
+        )
+
+    time_point = paste0(decade_start, "-01-01T00:00:00Z")
+
+    slice_constraints = list(
+        time = c(time_point, time_point),
+        longitude = lon_range,
+        latitude = lat_range
+    )
+
+    download_dir = file.path("./data/bio-oracle-2", scenario_value, decade_start)
+    dir.create(download_dir, recursive = TRUE, showWarnings = FALSE)
+
+    slice_rasters = sapply(
+        scenario_layers$dataset_id,
+        function(id) download_layers(
+            id,
+            constraints = slice_constraints,
+            directory = download_dir
+        ),
+        simplify = TRUE
+    )
+
+    return(slice_rasters)
+}
+```
+
+
+```{r}
+ssp585 = download_slice_subset("ssp585", 2090, subset_baseline_layer_names)
+```
+
+```{r}
+cat_model <- catboost.load_model('cat_model.cbm')
+subset_baseline_layer_names = readRDS('subset_baseline_layer_names.rds')
+seal_range_df = readRDS('seal_range_df.rds')
+seal_range_raster = rast('seal_range_raster.tif')
+dynamic_layers = readRDS('dynamic_layers.rds')
+```
+
+```{r}
+get_prediction = function(ssp_code, decade) {
+    ssp_slice = download_slice_subset(ssp_code, decade, subset_baseline_layer_names)
+
+    ssp_slice_brick = rast(ssp_slice)
+    ssp_slice_brick_depths = ssp_slice_brick |> 
+        names() |> 
+        str_extract("depth[:alpha:]+")
+    ssp_slice_brick_longnames = ssp_slice_brick |> longnames()
+    # baseline_brick_varnames = baseline_brick |> varnames() // коды longnames
+
+    names(ssp_slice_brick) = paste(ssp_slice_brick_longnames, ssp_slice_brick_depths)
+
+
+
+    ssp_slice_df = ssp_slice_brick |> 
+        as.data.frame(cells = TRUE, xy = TRUE)
+
+    ssp_slice_features = ssp_slice_df |> select(-cell, -x, -y)
+
+    ssp_slice_pool <- catboost.load_pool(data = ssp_slice_features)
+
+    preds_prob <- catboost.predict(cat_model, ssp_slice_pool, prediction_type = 'Probability')
+    preds_class <- ifelse(preds_prob > 0.5, 1, 0)
+
+    ssp_slice_prediction = ssp_slice_df |> 
+        mutate(prediction = preds_class) |> 
+        select(cell, prediction)
+
+    ssp_slice_diff = seal_range_df |> 
+        left_join(ssp_slice_prediction, by = "cell") |> 
+        mutate(diff = 2*target + prediction)
+
+    r = rast(ssp_slice_brick)
+    r[ssp_slice_diff$cell] = ssp_slice_diff$diff
+
+    writeRaster(r[[1]], paste0(ssp_code, "-", decade, ".tif"))
+
+    png(filename = paste0(ssp_code, "-", decade, ".png"), width = 800, height = 800)
+    plot(
+        r[[1]],
+        type="classes",
+        col=c("grey", "green", "red", "purple"),
+        # col=c("grey", "#7fc97f", "#fdc086", "#beaed4"),
+        # levels=c("0 → 0", "0 → 1", "1 → 0", "1 → 1"),
+        levels=c("00", "01", "10", "11"),
+        main=paste0(ssp_code, "-", decade)
+    )
+    dev.off()
+}
+```
+
+```{r}
+get_prediction("ssp585", 2050)
+```
+
+```{r}
+sapply(seq(2050, 2050, by=10), function(decade) {
+    get_prediction("ssp585", decade)
+})
+```
+
+
+```{r}
+ssp585_2090_brick = rast(ssp585)
+ssp585_2090_brick_depths = ssp585_2090_brick |> 
+    names() |> 
+    str_extract("depth[:alpha:]+")
+ssp585_2090_brick_longnames = ssp585_2090_brick |> longnames()
+# baseline_brick_varnames = baseline_brick |> varnames() // коды longnames
+
+names(ssp585_2090_brick) = paste(ssp585_2090_brick_longnames, ssp585_2090_brick_depths)
+```
+
+
+```{r}
+ssp585_2090_df = ssp585_2090_brick |> 
+    as.data.frame(cells = TRUE, xy = TRUE)
+```
+
+
+```{r}
+ssp585_2090_features = ssp585_2090_df |> select(-cell, -x, -y)
+```
+
+
+```{r}
+ssp585_2090_pool <- catboost.load_pool(data = ssp585_2090_features)
+```
+
+
+```{r}
+preds_prob <- catboost.predict(cat_model, ssp585_2090_pool, prediction_type = 'Probability')
+preds_class <- ifelse(preds_prob > 0.5, 1, 0)
+```
+
+
+```{r}
+ssp585_2090_prediction = ssp585_2090_df |> 
+    mutate(prediction = preds_class) |> 
+    select(cell, prediction)
+```
+
+
+```{r}
+ssp585_2090_diff = seal_range_df |> 
+    left_join(ssp585_2090_prediction, by = "cell") |> 
+    mutate(diff = 2*target + prediction)
+```
+
+
+```{r}
+hist(ssp585_2090_diff$diff)
+```
+
+
+```{r}
+r = rast(baseline_brick)
+r[ssp585_2090_diff$cell] = ssp585_2090_diff$diff
+```
+
+```{r}
+writeRaster(r[[1]], "ssp585-2090.tif")
+```
+
+
+```{r}
+plot(
+    r[[1]],
+    type="classes",
+    col=c("grey", "green", "red", "purple"),
+    # col=c("grey", "#7fc97f", "#fdc086", "#beaed4"),
+    levels=c("0 → 0", "0 → 1", "1 → 0", "1 → 1"),
+    main="SSP 585 - 2090"
+)
+```
+
+
+```{r}
+a = rast('ssp585-2090.tif')
+```
+
+
+```{r}
+plot(a)
+```
--- a/bio-oracle-5.qmd
+++ b/bio-oracle-5.qmd
@ -0,0 +1,567 @@
+---
+title: "bio-oracle-5"
+format: html
+---
+
+## Libraries
+
+```{r}
+library(dplyr)
+library(tidyr)
+library(tibble)
+library(stringr)
+
+library(terra)
+
+library(biooracler)
+library(sf)
+library(ggplot2)
+library(ggcorrplot)
+
+library(usdm)
+
+library(catboost)
+
+library(DALEX)
+library(pdp)
+# library(ggspatial)
+# library(rnaturalearth)
+# library(tidyterra)
+# source("./scripts/degree_labels.R")
+```
+
+## Range and study area
+
+Load the species range from IUCN and 5° buffer to define an area of the study.
+
+```{r}
+seal_range = vect("data/iucn/Pagophilus_groenlandicus.shp")
+bbox = ext(seal_range) |> extend(5)
+bbox_vect = bbox |> as.lines(crs="EPSG:4326")
+# land = ne_download(scale=110, type="land", category = "physical", returnclass = "sv")
+land = vect("land.geojson")
+
+lon_range = c(bbox$xmin, bbox$xmax)
+lat_range = c(bbox$ymin, bbox$ymax)
+
+constraints_geo = list(
+    longitude = lon_range,
+    latitude = lat_range
+)
+
+saveRDS(constraints_geo, file="constraints_geo.Rda")
+```
+
+```{r}
+plot(seal_range, col="#bcbddc", xlim=c(-170, 170), ylim=c(90, -80))
+plot(land, col="#f0f0f0", add=T)
+lines(bbox, col="#756bb1")
+```
+
+## Bio-ORACLE
+
+> Environmental predictors were sourced from the Bio-ORACLE v3.0 database, providing standardized global marine rasters for present-day conditions and future climate projections under CMIP6 Shared Socioeconomic Pathways (SSPs).
+
+```{r}
+all_layers = list_layers()
+
+ids_to_remove = c(
+#    no projection data
+#   the database flaws (?)
+    "par_mean_baseline_2000_2020_depthsurf",
+    "kdpar_mean_baseline_2000_2020_depthsurf",
+    "chl_baseline_2000_2018_depthmax",
+    "chl_baseline_2000_2018_depthmean",
+    "chl_baseline_2000_2018_depthmin",
+#   nature of the variable
+    "terrain_characteristics"
+)
+
+layers = all_layers |> 
+  filter(! dataset_id %in% c(ids_to_remove)) |> 
+  separate_wider_delim(dataset_id, delim = "_", names = c("var", "scenario", "year_star", "year_end", "depth"), cols_remove = FALSE) |> 
+  mutate(
+    var_depth = paste0(var, "_", depth),
+    var_depth_humane = str_extract(title, ".*]") |> str_remove("Bio-Oracle ")
+  )
+# aware that not all variables have ssp126
+
+saveRDS(layers, "layers.Rda")
+
+layers |> select(var_depth_humane, var_depth) |> distinct() |> print.data.frame()
+```
+
+```{r}
+download_slice = function(scenario_value, decade_start, layers_to_filter) {
+    scenario_layers = layers_to_filter |> 
+        filter(scenario == scenario_value)
+
+    time_point = paste0(decade_start, "-01-01T00:00:00Z")
+
+    slice_constraints = list(
+        time = c(time_point, time_point),
+        longitude = constraints_geo$longitude,
+        latitude = constraints_geo$latitude
+    )
+
+    download_dir = file.path("./data/bio-oracle-2", scenario_value, decade_start)
+    dir.create(download_dir, recursive = TRUE, showWarnings = FALSE)
+
+    slice_rasters = sapply(
+        scenario_layers$dataset_id,
+        function(id) download_layers(
+            id,
+            constraints = slice_constraints,
+            directory = download_dir
+        ),
+        simplify = TRUE
+    )
+
+    return(slice_rasters)
+}
+```
+
+```{r}
+slice_to_brick = function(list_of_rasters) {
+  brick = rast(list_of_rasters)
+  depths = brick |> names() |> str_extract("depth[:letter:]+")
+  var_stat = brick |> 
+    varnames() |> 
+    as_tibble() |> 
+    separate_wider_delim("value",delim="_", names=c("var", "stat"))
+  
+  prev_longnames = longnames(brick)
+  longnames(brick) = paste0(prev_longnames, " [", depths ,"]")
+  names(brick) = paste(var_stat$var, depths, var_stat$stat, sep = "_")
+  return(brick)
+}
+```
+
+
+
+## Data exploration
+
+Feel free to skip this step as it shows the logic behind the layers selected for
+analysis.
+
+### Download
+
+```{r eval=FALSE}
+baseline_rasters = download_slice("baseline", 2010, layers)
+```
+
+```{r}
+baseline_brick = slice_to_brick(baseline_rasters)
+```
+
+300 hundred layers seem too many for a controlled analysis
+
+```{r}
+nlyr(baseline_brick)
+```
+### Filter by ecology
+
+Knowing smth about the species lets clean up variables before any formal analysis of variables releations
+
+```{r}
+filtered_layers = tibble(
+  names = names(baseline_brick),
+  longnames = longnames(baseline_brick)
+  ) |> 
+  separate_wider_delim(
+    "names",
+    delim="_",
+    names=c("var", "depth", "stat"),
+    cols_remove=F
+  ) |> 
+  filter(
+      !(
+          depth %in% c("depthmax", "depthmean") |
+          var %in% c("ph", "si", "dfe", "no3", "po4", "clt", "o2", "mlotst", "sws", "swd", "so") |
+          stat %in% c("ltmin", "ltmax", "range")
+      )
+  )
+
+baseline_brick_subset = baseline_brick |> 
+  subset(filtered_layers$names)
+
+filtered_layers |> select(longnames) |> print.data.frame()
+```
+
+### Sample for correlation analysis
+
+```{r}
+ten_percent_cells = nrow(baseline_brick_subset) * ncol(baseline_brick_subset) * 0.1
+
+baseline_brick_subset_sample = baseline_brick_subset |> 
+  spatSample(size=ten_percent_cells, method="regular", na.rm=TRUE)
+```
+
+#### Initial correlation
+
+```{r}
+corr_matrix = cor(baseline_brick_subset_sample)
+```
+
+```{r}
+ggcorrplot(corr_matrix, 
+           type = "lower",    # Only show half (it's symmetrical anyway)
+           outline.col = "white",
+           colors = c("#6D9EC1", "white", "#E46726"),
+           lab = FALSE) +     # don't label values
+  theme(axis.text.x = element_text(size = 7, angle = 90),
+        axis.text.y = element_text(size = 7))
+```
+
+```{r}
+high_cor_pairs <- corr_matrix |>
+  as.data.frame() |>
+  rownames_to_column("Var1") |>
+  pivot_longer(-Var1, names_to = "Var2", values_to = "value") |> # 900 total pairs
+  # Var1 < Var2 removes self-correlation AND picks only one of the AB/BA pairs
+  filter(abs(value) > 0.8 & Var1 < Var2) |>
+  mutate(value = round(value, 3)) |> 
+  arrange(desc(abs(value)))
+
+# 59 are highly correlated
+print.data.frame(high_cor_pairs)
+```
+
+#### Variance Inflation Factor
+
+> It calculates how much one variable can be predicted by a linear combination of all other variables.
+
+```{r}
+vif_results = vifstep(baseline_brick_subset_sample, th = 10)
+```
+
+```{r}
+vars_to_keep = vif_results@results$Variables
+vif_results@results
+```
+
+Then check the correlations of variables filtered by VIF step
+
+```{r}
+baseline_brick_subset_sample_vif = baseline_brick_subset_sample |> 
+  select(all_of(vars_to_keep))
+
+corr_matrix_vif = cor(baseline_brick_subset_sample_vif)
+
+ggcorrplot(corr_matrix_vif, 
+           outline.col = "white",
+           colors = c("#6D9EC1", "white", "#E46726"),
+           lab = FALSE) +     # don't label values
+  theme(axis.text.x = element_text(size = 7, angle = 90),
+        axis.text.y = element_text(size = 7))
+```
+
+```{r}
+high_cor_pairs_vif <- corr_matrix_vif |>
+  as.data.frame() |>
+  rownames_to_column("Var1") |>
+  pivot_longer(-Var1, names_to = "Var2", values_to = "value") |> # 144 total pairs
+  # Var1 < Var2 removes self-correlation AND picks only one of the AB/BA pairs
+  filter(abs(value) > 0.8 & Var1 < Var2) |>
+  mutate(value = round(value, 3)) |> 
+  arrange(desc(abs(value)))
+
+# 3 are highly correlated
+print.data.frame(high_cor_pairs_vif)
+```
+Having high correlation pairs and VIF values we manually select variables we can interpret
+
+```{r}
+manually_selected_vars = c(
+  "siconc_depthsurf_min",
+  "thetao_depthsurf_min",
+  "thetao_depthmin_max",
+  "chl_depthsurf_mean",
+  "phyc_depthmin_max"
+)
+```
+
+Then again check correlation
+
+```{r}
+baseline_brick_subset_sample_manual = baseline_brick_subset_sample |> 
+  select(all_of(manually_selected_vars))
+
+corr_matrix_manual = cor(baseline_brick_subset_sample_manual)
+
+ggcorrplot(corr_matrix_manual, 
+           outline.col = "white",
+           colors = c("#6D9EC1", "white", "#E46726"),
+           lab = FALSE) +     # don't label values
+  theme(axis.text.x = element_text(size = 7, angle = 90),
+        axis.text.y = element_text(size = 7))
+```
+
+```{r}
+selected_layers = filtered_layers |> 
+  filter(names %in% manually_selected_vars)
+
+saveRDS(selected_layers, file="selected_layers.Rda")
+```
+
+
+## Learning
+
+### Input layers
+
+Filter layers based on selected layers info.
+
+```{r}
+layers = readRDS("layers.Rda")
+selected_layers = readRDS("selected_layers.Rda")
+constraints_geo = readRDS("constraints_geo.Rda")
+
+features_layers = inner_join(selected_layers, layers, by=c("var", "depth"))
+```
+
+```{r}
+baseline_features_rasters = download_slice("baseline", 2010, features_layers)
+```
+
+Set up features raster brick
+
+```{r}
+baseline_features_brick = slice_to_brick(baseline_features_rasters) |> 
+  subset(c(selected_layers$names))
+```
+
+And target raster
+
+```{r}
+seal_range = vect("data/iucn/Pagophilus_groenlandicus.shp")
+ocean_mask = ifel(is.na(baseline_features_brick[[1]]), NA, 1)
+```
+
+```{r}
+seal_range_raster = rasterize(
+  seal_range, 
+  baseline_features_brick[[1]],
+  field = "",
+  background = 0
+) |> 
+  mask(ocean_mask)
+```
+
+```{r}
+plot(c(seal_range_raster, baseline_features_brick))
+```
+
+### Spatial blocks
+
+```{r}
+ROWS = 3
+COLUMNS = 5
+nblocks = ROWS * COLUMNS
+
+all_blocks = 1:(nblocks)
+set.seed(321) # For reproducibility
+
+test_blocks = seq(2, nblocks, by = 2)
+train_blocks = setdiff(all_blocks, test_blocks)
+```
+
+```{r}
+block_grid = seal_range_raster |> 
+    ext() |> 
+    st_bbox() |> 
+    st_make_grid(n = c(COLUMNS, ROWS)) |> 
+    st_sf() |> 
+    mutate(block_id = row_number()) |> 
+    mutate(type = ifelse(block_id %in% test_blocks, "Test (Hold-out)", "Train"))
+```
+
+```{r}
+block_raster = block_grid |> 
+    rasterize(seal_range_raster, field = "block_id")
+```
+
+```{r}
+plot(seal_range_raster$layer)
+plot(vect(block_grid), add = TRUE, border = "black", lwd = 1)
+plot(
+    vect(block_grid |> filter(type == "Test (Hold-out)")), 
+    add = TRUE, 
+    border = "red", 
+    lwd = 3)
+```
+
+```{r}
+seal_range_raster$block_id = block_raster$block_id
+```
+
+### Catboost
+
+#### Prep
+
+Set up the dataframe for machine learning
+
+```{r}
+seal_range_df = seal_range_raster |> 
+    as.data.frame(cells = TRUE, na.rm=TRUE) |> 
+    rename(target = layer)
+```
+
+```{r}
+baseline_features_df = baseline_features_brick |> 
+    as.data.frame(cells = TRUE, na.rm=TRUE)
+```
+
+```{r}
+target_features = left_join(seal_range_df, baseline_features_df, by = "cell")
+```
+
+Divide training and testing pools
+
+```{r}
+train_df = target_features %>% filter(block_id %in% train_blocks)
+test_df = target_features %>% filter(block_id %in% test_blocks)
+
+train_pool <- catboost.load_pool(
+  data = train_df |> select(-cell, -block_id, -target), 
+  label = train_df$target
+)
+test_pool = catboost.load_pool(
+  data = test_df |> select(-cell, -block_id, -target),
+  label = test_df$target
+)
+```
+
+#### Learning
+
+```{r}
+params = list(
+  loss_function = 'Logloss',
+  eval_metric = 'AUC',
+  iterations = 200,     # Plenty of trees for a smooth fit
+  depth = 2,             # Standard depth to prevent overfitting
+  learning_rate = 0.02,  # Lower learning rate is better for high ROC data
+  l2_leaf_reg = 15,       # Stronger regularization to handle that 0.998 ROC
+  random_seed = 42,
+  rsm = 0.5,
+  verbose = 10,
+  od_type = "Iter",
+  od_wait = 20
+)
+```
+
+```{r}
+cat_model = catboost.train(train_pool, test_pool = test_pool, params = params)
+saveRDS(cat_model, "cat_model.Rda")
+```
+#### Catboost Result
+
+```{r}
+whole_pool = catboost.load_pool(
+  data = target_features |> select(-cell, -block_id, -target)
+)
+```
+
+```{r}
+preds_prob = catboost.predict(cat_model, whole_pool, prediction_type = 'Probability')
+```
+
+```{r}
+baseline_prediction_raster = seal_range_raster
+baseline_prediction_raster[target_features$cell] = preds_prob
+```
+
+```{r}
+plot(baseline_prediction_raster$layer)
+plot(seal_range, col=NA, border="cyan", lwd=1, add=T)
+```
+
+#### Post-processing
+
+```{r}
+plot(seal_range_raster)
+```
+
+
+```{r}
+range_distance = gridDist(seal_range_raster, target=1)
+distance_decay = exp(-0.000001 * range_distance) |> 
+  subst(NA, 0)
+```
+
+```{r}
+plot(distance_decay)
+```
+
+```{r}
+baseline_prediction_raster$layer_dist = baseline_prediction_raster$layer * distance_decay
+```
+
+```{r}
+plot(baseline_prediction_raster$layer_dist)
+plot(seal_range, col=NA, border="cyan", lwd=1, add=T)
+```
+
+```{r}
+plot(ifel(baseline_prediction_raster$layer_dist > 0.7, 1, 0))
+plot(seal_range, col=NA, border="cyan", lwd=1, add=T)
+```
+
+
+#### Interpret
+
+Maps
+
+
+
+
+
+
+
+Plots
+
+```{r}
+explainer_cat = explain(
+  model = cat_model,
+  data = train_df |> select(-cell, -block_id, -target),
+  y = train_df$target,
+  label = "CatBoost Harp Seal Model",
+  predict_function = function(model, x) catboost.predict(model, catboost.load_pool(x), prediction_type = "Probability")
+)
+```
+
+```{r}
+vi_cat = model_parts(explainer_cat)
+plot(vi_cat)
+```
+
+```{r}
+pdp_cat = lapply(selected_layers$names, function(X) model_profile(explainer_cat, variables = X)) 
+plot(pdp_cat)
+```
+
+```{r}
+mp_cat = model_performance(explainer_cat)
+plot(mp_cat, geom = "boxplot")
+plot(mp_cat, geom = "roc") # Or geom = "boxplot" for residuals
+```
+
+```{r}
+# Pick a specific "wrong" pixel from your dataframe
+caspian_pixel = train_df[train_df$cell == 120363, ] 
+
+bd_cat = predict_parts(explainer_cat, new_observation = caspian_pixel)
+plot(bd_cat)
+```
+
+
+
+
+
+
+
+
+ 
+
+
+
+
--- a/bio-oracle-learning.qmd
+++ b/bio-oracle-learning.qmd
@ -0,0 +1,296 @@
+## Learning Pipeline (Training)
+This file contains the learning stage of the prototype: data download, feature filtering, spatial split, and CatBoost model training.
+
+## Load required R packages
+```{r}
+library(tidyr)
+library(dplyr)
+library(terra)
+library(mregions2)
+library(biooracler)
+library(stringr)
+library(tibble)
+library(catboost)
+library(caret)
+library(blockCV)
+library(sf)
+library(usdm)
+library(ggcorrplot)
+library(reshape2)
+library(tidygraph)
+library(ggraph)
+library(CAST)
+library(pdp)
+library(ggplot2)
+library(DALEX)
+```
+
+## Load shared helpers and define run configuration
+```{r}
+source("R/shared-utils.R")
+
+config = list(
+    range_shapefile = "data/iucn/Pagophilus_groenlandicus.shp",
+    bbox_expand_degrees = 5,
+    baseline_scenario = "baseline",
+    baseline_decade = 2010,
+    n_corr_sample = 10000,
+    n_blocks_total = 15,
+    n_blocks_test = 5,
+    seed_blocks = 321,
+    vif_threshold = 10,
+    artifacts = list(
+        dynamic_layers = "dynamic_layers.rds",
+        subset_layer_names = "subset_baseline_layer_names.rds",
+        seal_range_df = "seal_range_df.rds",
+        seal_range_raster = "seal_range_raster.tif",
+        model = "cat_model.cbm",
+        manifest = "artifacts-manifest-learning.csv",
+        session_info = "session-info-learning.txt"
+    )
+)
+```
+
+## Define study area and spatial constraints
+
+First we get a target species range from IUNC
+```{r}
+study_bounds = make_study_bounds(
+    range_shapefile = config$range_shapefile,
+    expand_degrees = config$bbox_expand_degrees
+)
+seal_range = study_bounds$seal_range
+lon_range = study_bounds$lon_range
+lat_range = study_bounds$lat_range
+```
+
+## List and filter Bio-ORACLE layers
+
+Load Bio-ORACLE layers. Remove layers without forecast data: terrain characteristics are constant and some layers doesn't have the forcast data as a matter of fact.
+
+```{r}
+layers = list_layers()
+
+# Нет прогнозных данных :/
+removed_layers_ids = c(
+    "par_mean_baseline_2000_2020_depthsurf",
+    "kdpar_mean_baseline_2000_2020_depthsurf",
+    "chl_baseline_2000_2018_depthmax",
+    "chl_baseline_2000_2018_depthmean",
+    "chl_baseline_2000_2018_depthmin"
+)
+
+constant_layers_ids = c("terrain_characteristics")
+
+constant_layers = layers |>
+    filter(dataset_id %in% constant_layers_ids)
+
+dynamic_layers = layers |>
+    filter(! dataset_id %in% c(constant_layers_ids, removed_layers_ids)) |>
+    separate_wider_delim(dataset_id, delim = "_", names = c("var", "scenario", "year_star", "year_end", "depth"), cols_remove = FALSE)
+```
+
+## Download baseline and prepare predictor brick
+
+We download the data for current time slice as it will be the learning data.
+
+```{r}
+baseline_rasters = download_biooracle_slice(
+    dynamic_layers = dynamic_layers,
+    scenario_value = config$baseline_scenario,
+    decade_start = config$baseline_decade,
+    lon_range = lon_range,
+    lat_range = lat_range
+)
+```
+
+And construct a raster brick from all context layers.
+
+```{r}
+baseline_brick = rast(baseline_rasters)
+baseline_brick = set_brick_names_with_depth(baseline_brick)
+baseline_brick_depths = names(baseline_brick) |> str_extract("depth[:alpha:]+")
+baseline_brick_longnames = baseline_brick |> longnames()
+baseline_brick_varnames = baseline_brick |> varnames()
+```
+
+## Select baseline variables
+
+Next filter layers matters based on our knowledge about the species.
+
+```{r}
+suitable_baseline_layer_names = tibble(
+    name = names(baseline_brick),
+    longname = baseline_brick_longnames,
+    varname = baseline_brick_varnames,
+    depth = baseline_brick_depths
+) |>
+    separate_wider_delim(
+        varname,
+        delim = "_",
+        names = c("var", "type")
+    ) |>
+    filter(
+        !(
+            depth == "depthmax" |
+            var %in% c("ph", "si", "dfe", "no3", "po4", "clt", "o2", "mlotst", "sws", "swd", "so") |
+            type %in% c("ltmin", "ltmax", "range")
+        )
+    )
+
+subset_baseline_layer_names = suitable_baseline_layer_names |>
+    filter(
+        name %in% c(
+            "Minimum SeaIceCover depthsurf",
+            "Minimum OceanTemperature depthsurf",
+            "Average SeaIceThickness depthsurf",
+            "Average Chlorophyll depthsurf",
+            "Maximum OceanTemperature depthmin"
+        )
+    )
+```
+
+## Build feature table
+```{r}
+subset_baseline_brick = baseline_brick |>
+    subset(subset_baseline_layer_names$name)
+
+features_brick = c(subset_baseline_brick)
+
+baseline_df = features_brick |>
+    as.data.frame(cells = TRUE, xy = TRUE)
+```
+
+## Correlation and VIF-based selection
+```{r}
+sample = baseline_df |>
+    sample_n(config$n_corr_sample) |>
+    select(-cell, -x, -y) |>
+    drop_na()
+
+corr_matrix = cor(sample)
+
+ggcorrplot(
+    corr_matrix,
+    hc.order = TRUE,
+    type = "lower",
+    outline.col = "white",
+    colors = c("#6D9EC1", "white", "#E46726"),
+    lab = FALSE
+) +
+theme(
+    axis.text.x = element_text(size = 7, angle = 90),
+    axis.text.y = element_text(size = 7)
+)
+
+high_cor_pairs = melt(corr_matrix) |>
+    filter(abs(value) > 0.8) |>
+    filter(Var1 != Var2) |>
+    distinct(value, .keep_all = TRUE) |>
+    arrange(desc(abs(value))) |>
+    mutate(Var1 = as.character(Var1), Var2 = as.character(Var2))
+
+vif_results = vifstep(sample, th = config$vif_threshold)
+keeper_vars = vif_results@results$Variables
+
+baseline_df_subset = baseline_df |>
+    select(cell, x, y, all_of(keeper_vars))
+```
+
+## Build target and spatial blocks
+```{r}
+seal_range_raster = seal_range |>
+    rasterize(features_brick[[1]], field = "", background = 0)
+
+all_blocks = seq_len(config$n_blocks_total)
+set.seed(config$seed_blocks)
+test_blocks = sample(all_blocks, config$n_blocks_test)
+train_blocks = setdiff(all_blocks, test_blocks)
+
+block_grid = seal_range_raster |>
+    ext() |>
+    st_bbox() |>
+    st_make_grid(n = c(5, 3)) |>
+    st_sf() |>
+    mutate(block_id = row_number()) |>
+    mutate(type = ifelse(block_id %in% test_blocks, "Test (Hold-out)", "Train"))
+
+block_raster = block_grid |>
+    rasterize(seal_range_raster, field = "block_id")
+
+seal_range_raster$block_id = block_raster$block_id
+seal_range_df = seal_range_raster |>
+    as.data.frame(cells = TRUE) |>
+    rename(target = layer)
+
+seal_baseline = dplyr::left_join(baseline_df_subset, seal_range_df, by = "cell")
+train_df = seal_baseline %>% filter(block_id %in% train_blocks)
+test_df = seal_baseline %>% filter(block_id %in% test_blocks)
+```
+
+## Train CatBoost model
+```{r}
+train_pool = catboost.load_pool(
+    data = train_df |> select(-cell, -x, -y, -block_id, -target),
+    label = train_df$target
+)
+
+test_pool = catboost.load_pool(
+    data = test_df |> select(-cell, -x, -y, -block_id, -target),
+    label = test_df$target
+)
+
+params = list(
+    loss_function = "Logloss",
+    eval_metric = "AUC",
+    iterations = 200,
+    depth = 2,
+    learning_rate = 0.02,
+    l2_leaf_reg = 15,
+    random_seed = 42,
+    rsm = 0.5,
+    verbose = 10,
+    od_type = "Iter",
+    od_wait = 20
+)
+
+cat_model = catboost.train(train_pool, test_pool = test_pool, params = params)
+```
+
+## Model interpretation outputs
+```{r}
+explainer_cat = explain(
+    model = cat_model,
+    data = train_df |> select(-cell, -x, -y, -block_id, -target),
+    y = train_df$target,
+    label = "CatBoost Harp Seal Model",
+    predict_function = function(model, x) catboost.predict(model, catboost.load_pool(x), prediction_type = "Probability")
+)
+
+pdp_temp = model_profile(
+    explainer = explainer_cat,
+    variables = "Average Chlorophyll depthsurf"
+)
+plot(pdp_temp)
+
+importanc2e = catboost.get_feature_importance(cat_model, train_pool) |>
+    enframe()
+```
+
+## Shared artifacts for prediction stage
+These files are the explicit interface between learning and prediction.
+
+```{r}
+saveRDS(dynamic_layers, config$artifacts$dynamic_layers)
+saveRDS(subset_baseline_layer_names, config$artifacts$subset_layer_names)
+saveRDS(seal_range_df, config$artifacts$seal_range_df)
+writeRaster(seal_range_raster, config$artifacts$seal_range_raster, overwrite = TRUE)
+catboost.save_model(cat_model, config$artifacts$model)
+
+artifact_manifest = tibble::tibble(
+    artifact = names(config$artifacts)[1:5],
+    path = unlist(config$artifacts[1:5])
+)
+utils::write.csv(artifact_manifest, config$artifacts$manifest, row.names = FALSE)
+utils::capture.output(utils::sessionInfo(), file = config$artifacts$session_info)
+```
--- a/bio-oracle-prediction.qmd
+++ b/bio-oracle-prediction.qmd
@ -0,0 +1,126 @@
+## Prediction Pipeline (Projection)
+This file contains the prediction stage and consumes artifacts produced by `bio-oracle-learning.qmd`.
+
+## Load required R packages
+```{r}
+library(tidyr)
+library(dplyr)
+library(terra)
+library(mregions2)
+library(biooracler)
+library(stringr)
+library(tibble)
+library(catboost)
+library(sf)
+```
+
+## Load shared helpers and define run configuration
+```{r}
+source("R/shared-utils.R")
+
+config <- list(
+    range_shapefile = "data/iucn/Pagophilus_groenlandicus.shp",
+    bbox_expand_degrees = 5,
+    artifacts = list(
+        dynamic_layers = "dynamic_layers.rds",
+        subset_layer_names = "subset_baseline_layer_names.rds",
+        seal_range_df = "seal_range_df.rds",
+        seal_range_raster = "seal_range_raster.tif",
+        model = "cat_model.cbm",
+        manifest = "artifacts-manifest-learning.csv"
+    )
+)
+```
+
+## Recreate spatial constraints
+These bounds are needed for downloading future Bio-ORACLE slices.
+
+```{r}
+study_bounds <- make_study_bounds(
+    range_shapefile = config$range_shapefile,
+    expand_degrees = config$bbox_expand_degrees
+)
+seal_range <- study_bounds$seal_range
+lon_range <- study_bounds$lon_range
+lat_range <- study_bounds$lat_range
+```
+
+## Load shared artifacts from learning stage
+```{r}
+required_artifacts <- unlist(config$artifacts[c("dynamic_layers", "subset_layer_names", "seal_range_df", "seal_range_raster", "model")])
+assert_required_files(required_artifacts)
+
+cat_model <- catboost.load_model(config$artifacts$model)
+subset_baseline_layer_names = readRDS(config$artifacts$subset_layer_names)
+seal_range_df = readRDS(config$artifacts$seal_range_df)
+seal_range_raster = rast(config$artifacts$seal_range_raster)
+dynamic_layers = readRDS(config$artifacts$dynamic_layers)
+```
+
+## Shared artifacts manifest (optional inspection)
+```{r}
+if (file.exists(config$artifacts$manifest)) {
+    artifacts_manifest <- utils::read.csv(config$artifacts$manifest)
+    artifacts_manifest
+}
+```
+
+## Prediction function
+```{r}
+get_prediction = function(ssp_code, decade) {
+    ssp_slice = download_biooracle_slice_subset(
+        dynamic_layers = dynamic_layers,
+        scenario_value = ssp_code,
+        decade_start = decade,
+        layers_to_download = subset_baseline_layer_names,
+        lon_range = lon_range,
+        lat_range = lat_range
+    )
+
+    ssp_slice_brick = rast(ssp_slice)
+    ssp_slice_brick = set_brick_names_with_depth(ssp_slice_brick)
+
+    ssp_slice_df = ssp_slice_brick |>
+        as.data.frame(cells = TRUE, xy = TRUE)
+
+    ssp_slice_features = ssp_slice_df |> select(-cell, -x, -y)
+    ssp_slice_pool <- catboost.load_pool(data = ssp_slice_features)
+
+    preds_prob <- catboost.predict(cat_model, ssp_slice_pool, prediction_type = "Probability")
+    preds_class <- ifelse(preds_prob > 0.5, 1, 0)
+
+    ssp_slice_prediction = ssp_slice_df |>
+        mutate(prediction = preds_class) |>
+        select(cell, prediction)
+
+    ssp_slice_diff = seal_range_df |>
+        left_join(ssp_slice_prediction, by = "cell") |>
+        mutate(diff = 2 * target + prediction)
+
+    r = rast(ssp_slice_brick)
+    r[ssp_slice_diff$cell] = ssp_slice_diff$diff
+
+    writeRaster(r[[1]], paste0(ssp_code, "-", decade, ".tif"), overwrite = TRUE)
+
+    png(filename = paste0(ssp_code, "-", decade, ".png"), width = 800, height = 800)
+    plot(
+        r[[1]],
+        type = "classes",
+        col = c("grey", "green", "red", "purple"),
+        levels = c("00", "01", "10", "11"),
+        main = paste0(ssp_code, "-", decade)
+    )
+    dev.off()
+}
+```
+
+## Example runs
+```{r}
+get_prediction("ssp585", 2020)
+```
+
+```{r}
+sapply(seq(2050, 2050, by = 10), function(decade) {
+    get_prediction("ssp585", decade)
+})
+```
--- a/bio-oracle.Rproj
+++ b/bio-oracle.Rproj
@ -0,0 +1,13 @@
+Version: 1.0
+
+RestoreWorkspace: Default
+SaveWorkspace: Default
+AlwaysSaveHistory: Default
+
+EnableCodeIndexing: Yes
+UseSpacesForTab: Yes
+NumSpacesForTab: 2
+Encoding: UTF-8
+
+RnwWeave: Sweave
+LaTeX: pdfLaTeX
--- a/land.geojson
+++ b/land.geojson
--- a/readme.md
+++ b/readme.md
@ -0,0 +1,6 @@
+Брать чисто Баренцево море -- получаем нерепрезентативную выборку по параметрам.
+
+Брать весь ареал -- слишком много ресурсов.
+
+
+Getting every endangered species of Barentsz sea can be challenging as it requires much more calculation especially for big ranges
--- a/scripts/degree_labels.R
+++ b/scripts/degree_labels.R
@ -0,0 +1,24 @@
+lons = seq(-180, 180, by = 30)
+lats = seq(-90, 90, by = 30)
+
+grat = st_graticule(lon = lons, lat = lats)
+
+box = st_bbox(c(xmin = -180, xmax = 180, 
+                ymax = 90,   ymin = -90), 
+              crs = st_crs(4326)) |> 
+  st_as_sfc() |> 
+  smoothr::densify(max_distance = 1) 
+
+degree_labels = function(grat, vjust, hjust, size, lon = T, lat = T) {
+  pts = grat |>  
+    st_cast('POINT') |> 
+    group_by(degree, type, degree_label) |> 
+    filter(row_number() == 1)
+  
+  list(
+    if (lon) geom_sf_text(data = filter(pts, type == 'E'), vjust = vjust, size = size,
+                          mapping = aes(label = degree_label), parse = TRUE),
+    if (lat) geom_sf_text(data = filter(pts, type == 'N'), hjust = hjust, size = size,
+                          mapping = aes(label = degree_label), parse = TRUE)
+  )  
+}
--- a/session-info-learning.txt
+++ b/session-info-learning.txt
@ -0,0 +1,45 @@
+R version 4.4.2 (2024-10-31 ucrt)
+Platform: x86_64-w64-mingw32/x64
+Running under: Windows 10 x64 (build 19044)
+
+Matrix products: default
+
+
+locale:
+[1] LC_COLLATE=Russian_Russia.utf8  LC_CTYPE=Russian_Russia.utf8    LC_MONETARY=Russian_Russia.utf8
+[4] LC_NUMERIC=C                    LC_TIME=Russian_Russia.utf8    
+
+time zone: Etc/GMT-3
+tzcode source: internal
+
+attached base packages:
+[1] stats     graphics  grDevices utils     datasets  methods   base     
+
+other attached packages:
+ [1] DALEX_2.5.3           pdp_0.8.3             CAST_1.0.4            ggraph_2.2.2         
+ [5] tidygraph_1.3.1       reshape2_1.4.5        ggcorrplot_0.1.4.1    usdm_2.1-7           
+ [9] sf_1.0-19             blockCV_3.2-0         caret_7.0-1           lattice_0.22-6       
+[13] ggplot2_4.0.1         catboost_1.2.8        tibble_3.2.1          stringr_1.5.1        
+[17] biooracler_0.0.0.9000 mregions2_1.1.2       terra_1.8-5           dplyr_1.1.4          
+[21] tidyr_1.3.1          
+
+loaded via a namespace (and not attached):
+ [1] DBI_1.2.3            pROC_1.19.0.1        gridExtra_2.3        rlang_1.1.4          magrittr_2.0.3      
+ [6] e1071_1.7-16         compiler_4.4.2       systemfonts_1.1.0    vctrs_0.6.5          httpcode_0.3.0      
+[11] crayon_1.5.3         pkgconfig_2.0.3      fastmap_1.2.0        backports_1.5.0      labeling_0.4.3      
+[16] prodlim_2025.04.28   ragg_1.5.0           purrr_1.0.2          cachem_1.1.0         jsonlite_1.8.9      
+[21] recipes_1.3.1        tweenr_2.0.3         parallel_4.4.2       R6_2.5.1             stringi_1.8.4       
+[26] RColorBrewer_1.1-3   hoardr_0.5.5         parallelly_1.46.0    rpart_4.1.23         lubridate_1.9.4     
+[31] Rcpp_1.0.13-1        iterators_1.0.14     future.apply_1.20.1  triebeard_0.4.1      Matrix_1.7-1        
+[36] splines_4.4.2        nnet_7.3-19          igraph_2.2.1         timechange_0.3.0     tidyselect_1.2.1    
+[41] viridis_0.6.5        timeDate_4051.111    codetools_0.2-20     curl_7.0.0           listenv_0.10.0      
+[46] plyr_1.8.9           withr_3.0.2          S7_0.2.1             future_1.68.0        survival_3.7-0      
+[51] units_0.8-5          proxy_0.4-27         polyclip_1.10-7      xml2_1.3.6           pillar_1.10.0       
+[56] KernSmooth_2.23-24   checkmate_2.3.3      foreach_1.5.2        stats4_4.4.2         ncdf4_1.24          
+[61] generics_0.1.3       sp_2.2-0             scales_1.4.0         globals_0.18.0       ingredients_2.3.0   
+[66] class_7.3-22         glue_1.8.0           tools_4.4.2          data.table_1.16.4    ModelMetrics_1.2.2.2
+[71] gower_1.0.2          forcats_1.0.0        graphlayouts_1.2.2   grid_4.4.2           urltools_1.7.3.1    
+[76] ipred_0.9-15         nlme_3.1-166         raster_3.6-32        ggforce_0.5.0        rerddap_1.2.1       
+[81] cli_3.6.5            rappdirs_0.3.3       textshaping_0.4.1    viridisLite_0.4.2    lava_1.8.2          
+[86] gtable_0.3.6         digest_0.6.37        classInt_0.4-10      ggrepel_0.9.6        crul_1.6.0          
+[91] farver_2.1.2         memoise_2.0.1        lifecycle_1.0.4      hardhat_1.4.2        MASS_7.3-61