extract.md

INTITULE: # Type of the entity on Arkindex
  start: ⓘ # Starting token for this entity
  end: Ⓘ # Optional ending token for this entity
DATE:
  start: ⓓ
  end: Ⓓ
COTE_SERIE:
  start: ⓢ
  end: Ⓢ
ANALYSE_COMPL.:
  start: ⓒ
  end: Ⓒ
PRECISIONS_SUR_COTE:
  start: ⓟ
  end: Ⓟ
COTE_ARTICLE:
  start: ⓐ
  end: Ⓐ
CLASSEMENT:
  start: ⓛ
  end: Ⓛ
teklia-dan dataset extract \
    database.sqlite \
    --parent folder_uuid \
    --element-type page \
    --output data \
    --load-entities \
    --tokens tokens.yml
teklia-dan dataset extract \
    database.sqlite \
    --parent folder1_uuid folder2_uuid folder3_uuid \
    --element-type page \
    --output data \
    --load-entities \
    --tokens tokens.yml
teklia-dan dataset extract \
    database.sqlite \
    --use-existing-split \
    --train-folder train_folder_uuid \
    --val-folder val_folder_uuid \
    --test-folder test_folder_uuid \
    --element-type page \
    --output data \
    --load-entities \
    --tokens tokens.yml
teklia-dan dataset extract \
    database.sqlite \
    --parent folder_uuid \
    --element-type text_zone annotation \
    --parent-element-type single_page \
    --output data
teklia-dan dataset extract \
    [...]
    --load-entities \
    --entity-separators $'\n' " " \
    --tokens tokens.yml