-
Notifications
You must be signed in to change notification settings - Fork 2
Standardisation des dates des formes anciennes
Warning: document non finalisé, en cours de rédaction. Les approximations et erreurs éventuelles doivent être précisées.
Les formes anciennes du Dictionnaire topographique sont presque toutes datées.
L’objectif est de standardiser ces dates pour permettre leur indexation (filtrer la recherche des formes anciennes par date).
Ces dates d’historiens précèdent souvent le calendrier grégorien, parfois l’ère chrétienne ; elles peuvent être approximatives, voire incertaines.
Cette page tente de définir des moyens de normaliser aussi finement que possible ces dates :
- en base (
place_old_label.text_date
) ; - pour l’indexation (Elasticsearch) ;
- pour l’export (Linked Places).
Cet effort doit se conformer autant que possible à la norme ISO 8601, sinon à ses propositions d’extensions (cf Working Draft ISO 8601-2 extension) notamment pour les dates approximatives.
Dans DT01, les millésimes à 3 ou 4 chiffres représentent 75% des cas.
Certaines de ces dates résistent à la standardisation automatique (date av JC, dates très lointaines, mois abrégé, etc.).
NB1. Introduction du calendrier grégorien en 1582 ; pour les dates antérieures, un accord (agreement) est nécessaire.
NB2. Début du calendrier révolutionnaire le 1er vendémiaire an I (22 septembre 1792).
NB3. l’annexe C des extensions ISO 8601-2 stipule que la spécification suppose une numérotation astronomique qui inclut l’année 0.
NB4. Pour l’indexation Elasticsearch, on ne retient que l’année. Autrement dit, on positionne la prise de la Bastille non pas au 14 juillet 1789, mais simplement en 1789.
DT01 | base | commentaire | Elasticsearch | Linked Places |
---|---|---|---|---|
2 juin 1768 |
1768-06-02 |
ISO 8601 | 1768 |
"when": {"timespans": [{"start": {"in": "1768-06-02"}}]} |
6 déc. 1770 |
1770-12-06 |
ISO 8601 | 1770 |
"when": {"timespans": [{"start": {"in": "1770-12-06"}}]} |
1427 |
1427 |
ISO 8601 + agreement | 1427 |
"when": {"timespans": [{"start": {"in": "1427"}}]} |
octobre 1288 |
1288-10 |
ISO 8601 + agreement | 1288 |
"when": {"timespans": [{"start": {"in": "1288-10"}}]} |
859 |
0859 |
ISO 8601 + agreement | 0859 |
"when": {"timespans": [{"start": {"in": "0859"}}]} |
52 avant J.-C. |
−0051 |
ISO 8601 + agreement | -0051 |
"when": {"timespans": [{"start": {"in": "−0051"}}]} |
Ces dates sont spécifiées dans un Working Draft d’extensions du standard ISO 8601 : ISO/WD 8601-2.
Ces extensions reprennent les propositions de l’Extended Date/Time Format (EDTF) de la Library of Congress.
EDTF distingue les dates incertaines, approximatives, incertaines et approximatives :
The characters '?', '~' and '%' are used to mean "uncertain", "approximate", and "uncertain" as well as "approximate", respectively. These characters may occur only at the end of the date string and apply to the entire date.
Dans le cas des DT, il s’agit essentiellement de dates approximatives.
NB. Certaines de ces dates résistent à la standardisation automatique car elles sont mal normalisées dans la source XML (cf 58 environ avant J.-C.
/ 25 avant J.-C. environ
, circa
, c.
, ca.
, cir.
)
DT01 | base | commentaire | Elasticsearch | Linked Places |
---|---|---|---|---|
1750 environ |
1750~ |
EDTF | "when": {"timespans": [{"start": {"in": "1750~"}}]} |
|
1250 environ |
1250~ |
EDTF + agreement | "when": {"timespans": [{"start": {"in": "1250~"}}]} |
|
853 environ |
0853~ |
EDTF + agreement | "when": {"timespans": [{"start": {"in": "0853~"}}]} |
|
980 circa |
0980~ |
EDTF + agreement | "when": {"timespans": [{"start": {"in": "0980~"}}]} |
|
175 environ après J.-C. |
0175~ |
EDTF + agreement | "when": {"timespans": [{"start": {"in": "0175~"}}]} |
|
58 environ avant J.-C. |
-0057~ |
EDTF + agreement | "when": {"timespans": [{"start": {"in": "-0057~"}}]} |
|
25 avant J.-C. environ |
-0024~ |
EDTF + agreement | "when": {"timespans": [{"start": {"in": "-0024~"}}]} |
Proposition de règles pour l’indexation Elasticsearch :
- si date sur une décennie : proposer l’intervalle +/- 5 ans ;
- si date exprimée à l’année : proposer l’intervalle de la décennie.
Idem, des problèmes éventuels de normalisation de ces dates dans la source.
DT01 | base | commentaire | Elasticsearch | Linked Places |
---|---|---|---|---|
1744-1750 |
1744/1750 |
ISO 8601 | "when": {"timespans": [{"start": {"in": "1744"}, "end": {"in": "1750"}}]} |
|
1266-67 |
1266/1267 |
ISO 8601 + agreement | "when": {"timespans": [{"start": {"in": "1266"}, "end": {"in": "1267"}}]} |
|
994-1032 |
0994/1032 |
ISO 8601 + agreement | "when": {"timespans": [{"start": {"in": "0994"}, "end": {"in": "1032"}}]} |
NB. La mention "siècle" n’est pas toujours inscrite (cf 3e cas).
DT01 | base | commentaire | Elasticsearch | Linked Places |
---|---|---|---|---|
xviiie siècle |
17 |
ISO 8601 | "when": {"timespans": [{"start": {"in": "17"}}]} |
|
xiiie siècle |
12 |
ISO 8601 + agreement | ||
viie |
6 |
ISO 8601 + agreement |
Linked Places à préciser ? Ajouter une période ?
"when": {
"timespans": [
{
"start": { "in": "1700" },
"end": { "in": "1799" }
}
]
}
DT01 | base | commentaire | Elasticsearch | Linked Places |
---|---|---|---|---|
fin du xviiie siècle |
1775~/1799~ |
EDTF | ||
xiie siècle environ |
11~ |
EDTF + agreement |
Certaines dates sont exprimées dans le calendrier républicain. Une année du calendrier républicain étant à cheval sur deux années grégoriennes, on standardise avec un intervalle approximatif :
républicain | grégorien |
---|---|
an I | 1792-09~/1793-08~ |
an II | 1793-09~/1794-08~ |
an III | 1794-09~/1795-08~ |
an IV | 1795-09~/1796-08~ |
an V | 1796-09~/1797-08~ |
an VI | 1797-09~/1798-08~ |
an VII | 1798-09~/1799-08~ |
an VIII | 1799-09~/1800-08~ |
an IX | 1800-09~/1801-08~ |
an X | 1801-09~/1802-08~ |
an XI | 1802-09~/1803-08~ |
an XII | 1803-09~/1804-08~ |
an XIII | 1804-09~/1805-08~ |
an XIV | 1805-09~/1806-08~ |
NB. SN, OC : on pourrait simplifier un peu, non ?
DT01 | base | commentaire | Elasticsearch | Linked Places |
---|---|---|---|---|
an x |
1802~ |
EDTF |
DT01 | Question |
---|---|
1020-1072 (?) |
approximation ou/et incertitude ? portée ? |
163. |
décennie ? |
nomin. 235 environ après J.-C. |
? |
?? |
illisible ? |