Extract the "train" set first

928f327e · Manon Blanco · fab96823 · 928f327e · 928f327e
Commit 928f327e authored 1 year ago by Manon Blanco
--- a/dan/datasets/extract/arkindex.py
+++ b/dan/datasets/extract/arkindex.py
@@ -282,6 +282,10 @@ class ArkindexExtractor:
                )
                continue

+            # Extract the train set first to correctly build the `self.charset` variable
+            splits.remove(TRAIN_NAME)
+            splits.insert(0, TRAIN_NAME)
+
            # Iterate over the subsets to find the page images and labels.
            for split in splits:
                with tqdm(

--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -21,7 +21,7 @@ from arkindex_export import (
    WorkerVersion,
    database,
 )
-from dan.datasets.extract.arkindex import SPLIT_NAMES
+from dan.datasets.extract.arkindex import TEST_NAME, TRAIN_NAME, VAL_NAME
 from tests import FIXTURES


@@ -181,15 +181,16 @@ def mock_database(tmp_path_factory):
    )

    # Create dataset
+    split_names = [VAL_NAME, TEST_NAME, TRAIN_NAME]
    dataset = Dataset.create(
        id="dataset_id",
        name="Dataset",
        state="complete",
-        sets=",".join(SPLIT_NAMES),
+        sets=",".join(split_names),
    )

    # Create dataset elements
-    for split in SPLIT_NAMES:
+    for split in split_names:
        element_path = (FIXTURES / "extraction" / "elements" / split).with_suffix(
            ".json"
        )