Skip to content

Commit

Permalink
Diweddaru'r Readme
Browse files Browse the repository at this point in the history
  • Loading branch information
GruffPrys authored Oct 28, 2021
1 parent 154ccdd commit 892a73d
Showing 1 changed file with 4 additions and 0 deletions.
4 changes: 4 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -7,6 +7,10 @@ Casglwyd y testunau o wahanol ffynonellau gan gynnwys testunau allan o hawlfrain

Casglwyd llawer o'r testunau hyn er mwyn eu cyfrannu i Common Voice, project gan gwmni Mozilla sy'n casglu data agored er mwyn creu lleisiau synthetig ar gyfer ieithoedd y byd. Mae'r ffeil hon felly yn cynnwys nifer o'r un brawddegau a geir yn https://github.com/techiaith/brawddegau-adnabod-lleferydd, ond yn ychwanegol at hynny ceir brawddegau eraill oedd yn rhy hir ar gyfer anghenion Common Voice, neu'n cynnwys nodau neu gynnwys arall a oedd yn anaddas ar gyfer y promtiau recordio.

## Ychwanegiad Hydref 2021
Rydym hefyd wedi ychwanegu at gynnwys y corpws hwn drwy ddethol is-set o dros 100k o frawddegau Cymraeg o gorpws CoVost Facebook o gyfieithiadau peirianyddol o frawddegau Saesneg Common Voice. Lluniwyd yr is-set hon (a fwriadwyd yn wreiddiol ar gyfer gweithredu fel promptiau recordio) drwy hidlo allan y brawddegau hynny oedd yn hwy na 15 gair, neu'n cynnwys digidau, acronymau neu dalfyriadau, neu a oedd yn cynnwys geiriau nad oeddynt yn Lecsicon Cymraeg Bangor (ag eithrio rhai geirffurfiau penodol). Gweler https://github.com/techiaith/brawddegau-adnabod-lleferydd/blob/master/data/covost/README.md am ragor o fanylion. Gan nad brawddegau a awdurwyd yn y Gymraeg yn wreiddiol yw'r rhain, rydym wedi eu cadw ar wahân mewn ail ffeil, sef cy_covost_subset.txt, fel y gallwch benderfynu eu defnyddio ai peidio yn ddibynnol ar eich angen penodol chi. Er mai brawddegau a gyfieithwyd yn beirianyddol yw'r rhain, adolygwyd sampl ohonynt gan olygyddion dynol a chael bod llai na 5% ohonynt yn broblemus (ffigwr sy'n cymharu'n dda â realiti y testunau Cymraeg gwreiddiol a gawn ar y we). Yn ogystal, teimlwn fod y brawddegau hyn yn ddefnyddiol gan eu bod yn cynnwys detholiad o bynciau ac amserau a phersonau gramadegol sy'n anodd i'w cael fel arall o fewn casgliad o destunau sydd â thrwydded rydd fel CC0 arni. Er na chredwn y byddai testunau cy_covost_subset.txt, yn addas ar gyfer dadansoddiadau diwylliannol a ieithyddol gymdeithasol o'r Gymraeg, credwn eu bod yn werthfawr ar gyfer hyfforddi modelau iaith uniaith Cymraeg lle nad oes digon o destunau gwreiddiol Cymraeg ar gael fel arall.

## Cyfrannu
Gallwch ein helpu i gynyddu maint y corpws hwn drwy gyfrannu unrhyw destunau o'ch eiddo chi i ni o dan drwydded CC0 fel eu bod ar gael yn rhydd i bawb. Os am wneud hynny, cysylltwch â techiaith@bangor.ac.uk.


Expand Down

0 comments on commit 892a73d

Please # to comment.