Add an option to return the filename in `load_dataset`
The load_dataset
function loads tuple of label and prediction Documents
>>> dataset = load_dataset(Path("labels/"), Path("prediction/)")
>>> dataset[0]
(
Document(bio_repr="SAINT-LOUIS B-intitule\nen I-intitule\nl'ISLE I-intitule\n(Les I-intitule\nadministrateurs I-intitule\nde I-intitule\nla I-intitule\ncompagnie I-intitule\nde I-intitule\ncharité I-intitule\ndes I-intitule\npauvres I-intitule\nde I-intitule\nl'église I-intitule\nroyale I-intitule\nde) I-intitule\nX1A B-cote_serie\n4701 B-cote_article\n41 B-precisions_sur_cote", tokens=[Token(idx=0, text='SAINT-LOUIS B-intitule'), Token(idx=1, text='en I-intitule'), Token(idx=2, text="l'ISLE I-intitule"), Token(idx=3, text='(Les I-intitule'), Token(idx=4, text='administrateurs I-intitule'), Token(idx=5, text='de I-intitule'), Token(idx=6, text='la I-intitule'), Token(idx=7, text='compagnie I-intitule'), Token(idx=8, text='de I-intitule'), Token(idx=9, text='charité I-intitule'), Token(idx=10, text='des I-intitule'), Token(idx=11, text='pauvres I-intitule'), Token(idx=12, text='de I-intitule'), Token(idx=13, text="l'église I-intitule"), Token(idx=14, text='royale I-intitule'), Token(idx=15, text='de) I-intitule'), Token(idx=16, text='X1A B-cote_serie'), Token(idx=17, text='4701 B-cote_article'), Token(idx=18, text='41 B-precisions_sur_cote')], spans=[Span(tokens=[Token(idx=0, text='SAINT-LOUIS B-intitule'), Token(idx=1, text='en I-intitule'), Token(idx=2, text="l'ISLE I-intitule"), Token(idx=3, text='(Les I-intitule'), Token(idx=4, text='administrateurs I-intitule'), Token(idx=5, text='de I-intitule'), Token(idx=6, text='la I-intitule'), Token(idx=7, text='compagnie I-intitule'), Token(idx=8, text='de I-intitule'), Token(idx=9, text='charité I-intitule'), Token(idx=10, text='des I-intitule'), Token(idx=11, text='pauvres I-intitule'), Token(idx=12, text='de I-intitule'), Token(idx=13, text="l'église I-intitule"), Token(idx=14, text='royale I-intitule'), Token(idx=15, text='de) I-intitule')]), Span(tokens=[Token(idx=16, text='X1A B-cote_serie')]), Span(tokens=[Token(idx=17, text='4701 B-cote_article')]), Span(tokens=[Token(idx=18, text='41 B-precisions_sur_cote')])]),
Document(bio_repr="SAINT-LOUIS B-intitule\nent I-intitule\nISLE I-intitule\n(les I-intitule\nadministrateurs I-intitule\nde I-intitule\nla I-intitule\ncompagnie I-intitule\nde I-intitule\nCharité I-intitule\ndes I-intitule\npauvres I-intitule\nde I-intitule\nl'église I-intitule\nroyale I-intitule\nde) I-intitule\n8 B-date\njanvier I-date\n1771 I-date\nX1A B-cote_serie\n4701 B-cote_article\n41 B-precisions_sur_cote", tokens=[Token(idx=0, text='SAINT-LOUIS B-intitule'), Token(idx=1, text='ent I-intitule'), Token(idx=2, text='ISLE I-intitule'), Token(idx=3, text='(les I-intitule'), Token(idx=4, text='administrateurs I-intitule'), Token(idx=5, text='de I-intitule'), Token(idx=6, text='la I-intitule'), Token(idx=7, text='compagnie I-intitule'), Token(idx=8, text='de I-intitule'), Token(idx=9, text='Charité I-intitule'), Token(idx=10, text='des I-intitule'), Token(idx=11, text='pauvres I-intitule'), Token(idx=12, text='de I-intitule'), Token(idx=13, text="l'église I-intitule"), Token(idx=14, text='royale I-intitule'), Token(idx=15, text='de) I-intitule'), Token(idx=16, text='8 B-date'), Token(idx=17, text='janvier I-date'), Token(idx=18, text='1771 I-date'), Token(idx=19, text='X1A B-cote_serie'), Token(idx=20, text='4701 B-cote_article'), Token(idx=21, text='41 B-precisions_sur_cote')], spans=[Span(tokens=[Token(idx=0, text='SAINT-LOUIS B-intitule'), Token(idx=1, text='ent I-intitule'), Token(idx=2, text='ISLE I-intitule'), Token(idx=3, text='(les I-intitule'), Token(idx=4, text='administrateurs I-intitule'), Token(idx=5, text='de I-intitule'), Token(idx=6, text='la I-intitule'), Token(idx=7, text='compagnie I-intitule'), Token(idx=8, text='de I-intitule'), Token(idx=9, text='Charité I-intitule'), Token(idx=10, text='des I-intitule'), Token(idx=11, text='pauvres I-intitule'), Token(idx=12, text='de I-intitule'), Token(idx=13, text="l'église I-intitule"), Token(idx=14, text='royale I-intitule'), Token(idx=15, text='de) I-intitule')]), Span(tokens=[Token(idx=16, text='8 B-date'), Token(idx=17, text='janvier I-date'), Token(idx=18, text='1771 I-date')]), Span(tokens=[Token(idx=19, text='X1A B-cote_serie')]), Span(tokens=[Token(idx=20, text='4701 B-cote_article')]), Span(tokens=[Token(idx=21, text='41 B-precisions_sur_cote')])]))
)
I would like to add an option to output the filename as well:
>>> dataset = load_dataset(Path("labels/"), Path("prediction/)", output_names=True)
>>> dataset[0]
(
"page_0031d6cd-a321-4519-9251-64cda46e6e4a.bio",
Document(bio_repr="SAINT-LOUIS B-intitule\nen I-intitule\nl'ISLE I-intitule\n(Les I-intitule\nadministrateurs I-intitule\nde I-intitule\nla I-intitule\ncompagnie I-intitule\nde I-intitule\ncharité I-intitule\ndes I-intitule\npauvres I-intitule\nde I-intitule\nl'église I-intitule\nroyale I-intitule\nde) I-intitule\nX1A B-cote_serie\n4701 B-cote_article\n41 B-precisions_sur_cote", tokens=[Token(idx=0, text='SAINT-LOUIS B-intitule'), Token(idx=1, text='en I-intitule'), Token(idx=2, text="l'ISLE I-intitule"), Token(idx=3, text='(Les I-intitule'), Token(idx=4, text='administrateurs I-intitule'), Token(idx=5, text='de I-intitule'), Token(idx=6, text='la I-intitule'), Token(idx=7, text='compagnie I-intitule'), Token(idx=8, text='de I-intitule'), Token(idx=9, text='charité I-intitule'), Token(idx=10, text='des I-intitule'), Token(idx=11, text='pauvres I-intitule'), Token(idx=12, text='de I-intitule'), Token(idx=13, text="l'église I-intitule"), Token(idx=14, text='royale I-intitule'), Token(idx=15, text='de) I-intitule'), Token(idx=16, text='X1A B-cote_serie'), Token(idx=17, text='4701 B-cote_article'), Token(idx=18, text='41 B-precisions_sur_cote')], spans=[Span(tokens=[Token(idx=0, text='SAINT-LOUIS B-intitule'), Token(idx=1, text='en I-intitule'), Token(idx=2, text="l'ISLE I-intitule"), Token(idx=3, text='(Les I-intitule'), Token(idx=4, text='administrateurs I-intitule'), Token(idx=5, text='de I-intitule'), Token(idx=6, text='la I-intitule'), Token(idx=7, text='compagnie I-intitule'), Token(idx=8, text='de I-intitule'), Token(idx=9, text='charité I-intitule'), Token(idx=10, text='des I-intitule'), Token(idx=11, text='pauvres I-intitule'), Token(idx=12, text='de I-intitule'), Token(idx=13, text="l'église I-intitule"), Token(idx=14, text='royale I-intitule'), Token(idx=15, text='de) I-intitule')]), Span(tokens=[Token(idx=16, text='X1A B-cote_serie')]), Span(tokens=[Token(idx=17, text='4701 B-cote_article')]), Span(tokens=[Token(idx=18, text='41 B-precisions_sur_cote')])]),
Document(bio_repr="SAINT-LOUIS B-intitule\nent I-intitule\nISLE I-intitule\n(les I-intitule\nadministrateurs I-intitule\nde I-intitule\nla I-intitule\ncompagnie I-intitule\nde I-intitule\nCharité I-intitule\ndes I-intitule\npauvres I-intitule\nde I-intitule\nl'église I-intitule\nroyale I-intitule\nde) I-intitule\n8 B-date\njanvier I-date\n1771 I-date\nX1A B-cote_serie\n4701 B-cote_article\n41 B-precisions_sur_cote", tokens=[Token(idx=0, text='SAINT-LOUIS B-intitule'), Token(idx=1, text='ent I-intitule'), Token(idx=2, text='ISLE I-intitule'), Token(idx=3, text='(les I-intitule'), Token(idx=4, text='administrateurs I-intitule'), Token(idx=5, text='de I-intitule'), Token(idx=6, text='la I-intitule'), Token(idx=7, text='compagnie I-intitule'), Token(idx=8, text='de I-intitule'), Token(idx=9, text='Charité I-intitule'), Token(idx=10, text='des I-intitule'), Token(idx=11, text='pauvres I-intitule'), Token(idx=12, text='de I-intitule'), Token(idx=13, text="l'église I-intitule"), Token(idx=14, text='royale I-intitule'), Token(idx=15, text='de) I-intitule'), Token(idx=16, text='8 B-date'), Token(idx=17, text='janvier I-date'), Token(idx=18, text='1771 I-date'), Token(idx=19, text='X1A B-cote_serie'), Token(idx=20, text='4701 B-cote_article'), Token(idx=21, text='41 B-precisions_sur_cote')], spans=[Span(tokens=[Token(idx=0, text='SAINT-LOUIS B-intitule'), Token(idx=1, text='ent I-intitule'), Token(idx=2, text='ISLE I-intitule'), Token(idx=3, text='(les I-intitule'), Token(idx=4, text='administrateurs I-intitule'), Token(idx=5, text='de I-intitule'), Token(idx=6, text='la I-intitule'), Token(idx=7, text='compagnie I-intitule'), Token(idx=8, text='de I-intitule'), Token(idx=9, text='Charité I-intitule'), Token(idx=10, text='des I-intitule'), Token(idx=11, text='pauvres I-intitule'), Token(idx=12, text='de I-intitule'), Token(idx=13, text="l'église I-intitule"), Token(idx=14, text='royale I-intitule'), Token(idx=15, text='de) I-intitule')]), Span(tokens=[Token(idx=16, text='8 B-date'), Token(idx=17, text='janvier I-date'), Token(idx=18, text='1771 I-date')]), Span(tokens=[Token(idx=19, text='X1A B-cote_serie')]), Span(tokens=[Token(idx=20, text='4701 B-cote_article')]), Span(tokens=[Token(idx=21, text='41 B-precisions_sur_cote')])]))
)