From 892a73d8b98b1fc4780472a8475b237a406b1df3 Mon Sep 17 00:00:00 2001 From: GruffPrys Date: Thu, 28 Oct 2021 10:23:13 +0100 Subject: [PATCH] Diweddaru'r Readme --- README.md | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/README.md b/README.md index c4b399c..5c14543 100644 --- a/README.md +++ b/README.md @@ -7,6 +7,10 @@ Casglwyd y testunau o wahanol ffynonellau gan gynnwys testunau allan o hawlfrain Casglwyd llawer o'r testunau hyn er mwyn eu cyfrannu i Common Voice, project gan gwmni Mozilla sy'n casglu data agored er mwyn creu lleisiau synthetig ar gyfer ieithoedd y byd. Mae'r ffeil hon felly yn cynnwys nifer o'r un brawddegau a geir yn https://github.com/techiaith/brawddegau-adnabod-lleferydd, ond yn ychwanegol at hynny ceir brawddegau eraill oedd yn rhy hir ar gyfer anghenion Common Voice, neu'n cynnwys nodau neu gynnwys arall a oedd yn anaddas ar gyfer y promtiau recordio. +## Ychwanegiad Hydref 2021 +Rydym hefyd wedi ychwanegu at gynnwys y corpws hwn drwy ddethol is-set o dros 100k o frawddegau Cymraeg o gorpws CoVost Facebook o gyfieithiadau peirianyddol o frawddegau Saesneg Common Voice. Lluniwyd yr is-set hon (a fwriadwyd yn wreiddiol ar gyfer gweithredu fel promptiau recordio) drwy hidlo allan y brawddegau hynny oedd yn hwy na 15 gair, neu'n cynnwys digidau, acronymau neu dalfyriadau, neu a oedd yn cynnwys geiriau nad oeddynt yn Lecsicon Cymraeg Bangor (ag eithrio rhai geirffurfiau penodol). Gweler https://github.com/techiaith/brawddegau-adnabod-lleferydd/blob/master/data/covost/README.md am ragor o fanylion. Gan nad brawddegau a awdurwyd yn y Gymraeg yn wreiddiol yw'r rhain, rydym wedi eu cadw ar wahân mewn ail ffeil, sef cy_covost_subset.txt, fel y gallwch benderfynu eu defnyddio ai peidio yn ddibynnol ar eich angen penodol chi. Er mai brawddegau a gyfieithwyd yn beirianyddol yw'r rhain, adolygwyd sampl ohonynt gan olygyddion dynol a chael bod llai na 5% ohonynt yn broblemus (ffigwr sy'n cymharu'n dda â realiti y testunau Cymraeg gwreiddiol a gawn ar y we). Yn ogystal, teimlwn fod y brawddegau hyn yn ddefnyddiol gan eu bod yn cynnwys detholiad o bynciau ac amserau a phersonau gramadegol sy'n anodd i'w cael fel arall o fewn casgliad o destunau sydd â thrwydded rydd fel CC0 arni. Er na chredwn y byddai testunau cy_covost_subset.txt, yn addas ar gyfer dadansoddiadau diwylliannol a ieithyddol gymdeithasol o'r Gymraeg, credwn eu bod yn werthfawr ar gyfer hyfforddi modelau iaith uniaith Cymraeg lle nad oes digon o destunau gwreiddiol Cymraeg ar gael fel arall. + +## Cyfrannu Gallwch ein helpu i gynyddu maint y corpws hwn drwy gyfrannu unrhyw destunau o'ch eiddo chi i ni o dan drwydded CC0 fel eu bod ar gael yn rhydd i bawb. Os am wneud hynny, cysylltwch â techiaith@bangor.ac.uk.