mirage

Dataselektering en –manipulering vir statistiese Engels–Afrikaanse masjienvertaling / McKellar C.A.

Boloka/Manakin Repository

Show simple item record

dc.contributor.author McKellar, Cindy. en_US
dc.date.accessioned 2012-10-23T13:21:40Z
dc.date.available 2012-10-23T13:21:40Z
dc.date.issued 2011 en_US
dc.identifier.uri http://hdl.handle.net/10394/7626
dc.description Thesis (M.A. (Applied Language and Literary Studies))--North-West University, Potchefstroom Campus, 2011.
dc.description.abstract Die sukses van enige masjienvertaalsisteem hang grootliks van die hoeveelheid en kwaliteit van die beskikbare afrigtingsdata af. n Sisteem wat met foutiewe of lae–kwaliteit data afgerig is, sal uiteraard swakker afvoer lewer as n sisteem wat met korrekte of hoë–kwaliteit data afgerig is. In die geval van hulpbronarm tale waar daar min data beskikbaar is en data dalk noodgedwonge vertaal moet word vir die skep van parallelle korpora wat as afrigtingsdata kan dien, is dit dus baie belangrik dat die data wat vir vertaling gekies word, so gekies word dat dit teksgedeeltes insluit wat die meeste waarde tot die masjienvertaalsisteem sal bydra. Dit is ook in so n geval uiters belangrik om die beskikbare data so goed moontlik aan te wend. Hierdie studie stel ondersoek in na metodes om afrigtingsdata te selekteer met die doel om n optimale masjienvertaalsisteem met beperkte hulpbronne af te rig. Daar word ook aandag gegee aan die moontlikheid om die gewigte van sekere gedeeltes van die afrigtingsdata te verhoog om sodoende die data wat die meeste waarde tot die masjienvertaalsisteem bydra te beklemtoon. Alhoewel hierdie studie spesifiek gerig is op metodes vir dataselektering en –manipulering vir die taalpaar Engels–Afrikaans, sou die metodes ook vir toepassing op ander taalpare gebruik kon word. Die evaluasieproses dui aan dat beide die dataselekteringsmetodes, asook die aanpassing van datagewigte, n positiewe impak op die kwaliteit van die resulterende masjienvertaalsisteem het. Die uiteindelike sisteem, afgerig deur n kombinasie van verskillende metodes, toon n 2.0001 styging in die NIST–telling en n 0.2039 styging in die BLEU–telling. en_US
dc.publisher North-West University
dc.subject Statistiese masjienvertaling en_US
dc.subject Masjienvertaling en_US
dc.subject Engels en_US
dc.subject Afrikaans en_US
dc.subject Dataselektering en_US
dc.subject Afgrigtingsdata en_US
dc.subject Statistical machine translation en_US
dc.subject Machine translation en_US
dc.subject English en_US
dc.subject Data selection en_US
dc.subject Training data en_US
dc.title Dataselektering en –manipulering vir statistiese Engels–Afrikaanse masjienvertaling / McKellar C.A. en_US
dc.type Thesis en_US
dc.description.thesistype Masters en_US


Files in this item

This item appears in the following Collection(s)

  • ETD@PUK [5483]
    This collection contains the original digitized versions of research conducted at the North-West University (Potchefstroom Campus)

Show simple item record

Search the NWU Repository


Advanced Search

Browse

My Account

Statistics