Solene Tarride · Solene Tarride
--- a/dan/datasets/extract/extract.py

+ 1

− 1
+++ b/dan/datasets/extract/extract.py

+ 1

− 1
 @@ -370,7 +370,7 @@ class ArkindexExtractor:
        ), "Tokens should be single characters."

        # Build LM corpus
-        train_corpus = [text for text in self.data["train"].values()]
+        train_corpus = [text.replace("\n", " ") for text in self.data["train"].values()]
        tokenizer = Tokenizer(
            train_corpus,
            outdir=self.output / "language_model",