Solene Tarride · Solene Tarride · bb0bdbe6 · ef07d298 · d1eeb307 · a572b293
--- a/dan/datasets/extract/extract.py

+ 3

− 0
+++ b/dan/datasets/extract/extract.py

+ 3

− 0
 @@ -355,6 +355,8 @@ class ArkindexExtractor:
        Convert charset to a LM-compatible charset. Ensure that special LM tokens do not appear in the charset.
        """
        logger.info("Preparing language resources")
+        # Add unknown token to charset
+        self.charset.add(self.unknown_token)

        # Build LM tokens
        for token in sorted(list(self.charset)):
 @@ -365,6 +367,7 @@ class ArkindexExtractor:
                self.mapping.encode[token]
            ) if token in self.mapping.encode else self.language_tokens.append(token)
        self.language_tokens.append(self.mapping.ctc.encoded)
+        self.language_tokens.append(self.unknown_token)

        # Build LM corpus
        train_corpus = [