Skip to content

Standardisation des dates des formes anciennes

architexte edited this page Jul 17, 2020 · 8 revisions

Warning: document non finalisé, en cours de rédaction. Les approximations et erreurs éventuelles doivent être précisées.

Les formes anciennes du Dictionnaire topographique sont presque toutes datées.
L’objectif est de standardiser ces dates pour permettre leur indexation (filtrer la recherche des formes anciennes par date).

Ces dates d’historiens précèdent souvent le calendrier grégorien, parfois l’ère chrétienne ; elles peuvent être approximatives, voire incertaines.

Cette page tente de définir des moyens de normaliser aussi finement que possible ces dates :

  1. en base (place_old_label.text_date) ;
  2. pour l’indexation (Elasticsearch) ;
  3. pour l’export (Linked Places).

Cet effort doit se conformer autant que possible à la norme ISO 8601, sinon à ses propositions d’extensions (cf Working Draft ISO 8601-2 extension) notamment pour les dates approximatives.

Date point précise

Dans DT01, les millésimes à 3 ou 4 chiffres représentent 75% des cas.
Certaines de ces dates résistent à la standardisation automatique (date av JC, dates très lointaines, mois abrégé, etc.).

NB1. Introduction du calendrier grégorien en 1582 ; pour les dates antérieures, un accord (agreement) est nécessaire.
NB2. Début du calendrier révolutionnaire le 1er vendémiaire an I (22 septembre 1792).
NB3. l’annexe C des extensions ISO 8601-2 stipule que la spécification suppose une numérotation astronomique qui inclut l’année 0.
NB4. Pour l’indexation Elasticsearch, on ne retient que l’année. Autrement dit, on positionne la prise de la Bastille non pas au 14 juillet 1789, mais simplement en 1789.

DT01 base commentaire Elasticsearch Linked Places
2 juin 1768 1768-06-02 ISO 8601 1768 "when": {"timespans": [{"start": {"in": "1768-06-02"}}]}
6 déc. 1770 1770-12-06 ISO 8601 1770 "when": {"timespans": [{"start": {"in": "1770-12-06"}}]}
1427 1427 ISO 8601 + agreement 1427 "when": {"timespans": [{"start": {"in": "1427"}}]}
octobre 1288 1288-10 ISO 8601 + agreement 1288 "when": {"timespans": [{"start": {"in": "1288-10"}}]}
859 0859 ISO 8601 + agreement 0859 "when": {"timespans": [{"start": {"in": "0859"}}]}
52 avant J.-C. −0051 ISO 8601 + agreement -0051 "when": {"timespans": [{"start": {"in": "−0051"}}]}

Date point approximative

Ces dates sont spécifiées dans un Working Draft d’extensions du standard ISO 8601 : ISO/WD 8601-2.
Ces extensions reprennent les propositions de l’Extended Date/Time Format (EDTF) de la Library of Congress.

EDTF distingue les dates incertaines, approximatives, incertaines et approximatives :

The characters '?', '~' and '%' are used to mean "uncertain", "approximate", and "uncertain" as well as "approximate", respectively. These characters may occur only at the end of the date string and apply to the entire date.

Dans le cas des DT, il s’agit essentiellement de dates approximatives.

NB. Certaines de ces dates résistent à la standardisation automatique car elles sont mal normalisées dans la source XML (cf 58 environ avant J.-C. / 25 avant J.-C. environ, circa, c., ca., cir.)

DT01 base commentaire Elasticsearch Linked Places
1750 environ 1750~ EDTF "when": {"timespans": [{"start": {"in": "1750~"}}]}
1250 environ 1250~ EDTF + agreement "when": {"timespans": [{"start": {"in": "1250~"}}]}
853 environ 0853~ EDTF + agreement "when": {"timespans": [{"start": {"in": "0853~"}}]}
980 circa 0980~ EDTF + agreement "when": {"timespans": [{"start": {"in": "0980~"}}]}
175 environ après J.-C. 0175~ EDTF + agreement "when": {"timespans": [{"start": {"in": "0175~"}}]}
58 environ avant J.-C. -0057~ EDTF + agreement "when": {"timespans": [{"start": {"in": "-0057~"}}]}
25 avant J.-C. environ -0024~ EDTF + agreement "when": {"timespans": [{"start": {"in": "-0024~"}}]}

Proposition de règles pour l’indexation Elasticsearch :

  • si date sur une décennie : proposer l’intervalle +/- 5 ans ;
  • si date exprimée à l’année : proposer l’intervalle de la décennie.

Intervalle précis

Idem, des problèmes éventuels de normalisation de ces dates dans la source.

DT01 base commentaire Elasticsearch Linked Places
1744-1750 1744/1750 ISO 8601 "when": {"timespans": [{"start": {"in": "1744"}, "end": {"in": "1750"}}]}
1266-67 1266/1267 ISO 8601 + agreement "when": {"timespans": [{"start": {"in": "1266"}, "end": {"in": "1267"}}]}
994-1032 0994/1032 ISO 8601 + agreement "when": {"timespans": [{"start": {"in": "0994"}, "end": {"in": "1032"}}]}

Les siècles

NB. La mention "siècle" n’est pas toujours inscrite (cf 3e cas).

DT01 base commentaire Elasticsearch Linked Places
xviiie siècle 17 ISO 8601 "when": {"timespans": [{"start": {"in": "17"}}]}
xiiie siècle 12 ISO 8601 + agreement
viie 6 ISO 8601 + agreement

Linked Places à préciser ? Ajouter une période ?

"when": {
  "timespans": [
    {
      "start": { "in": "1700" },
      "end": { "in": "1799" }
    }
  ]
}

Période imprécise

DT01 base commentaire Elasticsearch Linked Places
fin du xviiie siècle 1775~/1799~ EDTF
xiie siècle environ 11~ EDTF + agreement

Calendrier républicain

Certaines dates sont exprimées dans le calendrier républicain. Une année du calendrier républicain étant à cheval sur deux années grégoriennes, on standardise avec un intervalle approximatif :

républicain grégorien
an I 1792-09~/1793-08~
an II 1793-09~/1794-08~
an III 1794-09~/1795-08~
an IV 1795-09~/1796-08~
an V 1796-09~/1797-08~
an VI 1797-09~/1798-08~
an VII 1798-09~/1799-08~
an VIII 1799-09~/1800-08~
an IX 1800-09~/1801-08~
an X 1801-09~/1802-08~
an XI 1802-09~/1803-08~
an XII 1803-09~/1804-08~
an XIII 1804-09~/1805-08~
an XIV 1805-09~/1806-08~

NB. SN, OC : on pourrait simplifier un peu, non ?

DT01 base commentaire Elasticsearch Linked Places
an x 1802~ EDTF

À clarifier…

DT01 Question
1020-1072 (?) approximation ou/et incertitude ? portée ?
163. décennie ?
nomin. 235 environ après J.-C. ?
?? illisible ?