Solene Tarride · bb0bdbe6 · ef07d298 · d1eeb307 · a572b293 · 14c391e5
--- a/dan/datasets/extract/extract.py

+ 4

− 0
+++ b/dan/datasets/extract/extract.py

+ 4

− 0
 @@ -365,14 +365,18 @@ class ArkindexExtractor:
                self.mapping.encode[token]
            ) if token in self.mapping.encode else self.language_tokens.append(token)
        self.language_tokens.append(self.mapping.ctc.encoded)
+        self.language_tokens.append(self.unknown_token)

        # Build LM corpus
        train_corpus = [
            text.replace(self.mapping.linebreak.display, self.mapping.space.display)
            for text in self.data["train"].values()
        ]
+
        tokenizer = Tokenizer(
            training_corpus=train_corpus,
+            charset=self.language_tokens,
+            unknown_token=self.unknown_token,
            outdir=self.output / "language_model",
            mapping=self.mapping,
            tokens=self.tokens,