Naa part-of-speech tagger ke eng?

Author: Dimakatso Mathe (SADiLaR Sesotho sa Leboa Researcher)

Part-of-speech tagger, yeo e tla  bitšwago sehlathahlophantšu go tloga mo, ke sedirišwa sa theknolotši seo se dirišwago go fetleka mantšu ao a ngwadilwego a polelo ye e itšego gomme sa laetša gore mantšu ao a wela dihlopheng dife tša mantšu ka go phara setlankana se se hlalošago sehlopha sa lentšu (tag). Se šomiša lenaneo la ditlankana (tagset) leo le ithekgilego ka dihlopha tša mantšu tšeo di filwego tša polelo gore se kgone go hlatha mantšu. Dihlopha tša mantšu di na le khuetšo ye kgolo bokgoning bja setlabelwa se gore se hlathe goba gona go laetša dihlopha tša mantšu. Gore re kgone go kwešiša se gabotse, re tla swanela ke go hlaloša ganyane ka dihlopha tša mantšu tša Sesotho sa Leboa.

Paulos le Louwrens (1994) ba hlaloša dihlopha tše lesome, e lego maina, mašala, madiri, malahlelwa, makopanyi, mathušamadiri, mabotšiši, mašupi, leba, gammgo le maamanyi. Go feta fao, dihlopha tša mantšu tše dingwe di ka arolwa gape go ya ka mehuta goba dikarolwana tše di hwetšagalo ka fase ga lentšukakaretšo la sehlopha sa mantšu. Go fa mohlala, mašala le maina a ka arolwa go ya ka magoro a maina. Tšhomišo ya magoro a maina ke ye nngwe ya dipharologanyo tšeo di ikgethilego tše di lego molaleng bontšing bja maleme a Seafrika ge a bapetšwa le maleme a mangwe a mehlobo e šele. Ge sehlathahlophantšu se ka laetša maina ntle le go hlatha magoro a maina, gona se tla be se sa abe tshedimošo yeo e kgotsofatšago ka dipolelo tša Seafrika. Ka fao, didirišwa tšeo di lego gona tša sehlathahlophantšu tša Sesotho sa Leboa le maleme a mangwe a semmušo a Afrika Borwa, di laetša tshedimošo ye ka ge go laeditšwe seswantšhong sa ka fase seo se tšerwego thwi go tšwa go sedirišwa sa sehlathahlophantšu.

Seswantšho

Go fa mohlala, mo seswantšhong, setlankana sa N02 se laetša sehlopha sa lentšu leo e lego leina (noun) gomme nomoro ya 02 e laetša legoro la leina la bobedi la batho ka bontši. Ka go realo, se re abela tshedimošo mo magatong a mabedi, i.e. leina + legoro la leina. Gore se kgone go hlatha dihlopha tša mantšu le tshedimošo ye bohlokwa ya tlaleletšo ka ga dihlopha tša mantšu, se hlahlwa ke tshedimošo yeo e kgobokeditšwego ya dingwalwa tša polelo (corpus) yeo e šomišitšwego ge se hlangwa gore se kwešiše polelo yeo. Go tloga fao se tla šomiša tshedimošo ye se e hweditšego nakong ya tlhahlo go kwešiša le go hlatha dihlopha tša mantšu ge se fiwa dingwalwa tše diswa. Go  swana le didirišwa tše dingwe tša mohuta wo, se na le go dira diphošo ge se hlatha dihlopha tša mantšu eupša diphošo tša gona ga se tše dintši. Sona se šomišwa kudu morerong wa go fetleka mantšu. Go fa mohlala, mohlami wa pukuntšu ge a šomiša tshedimošo ye e kgobokeditšwego ya dingwalwa tša polelogo, a ka se šomiša go phara dihlopha tša mantšu ao a šomišitšwego sengwalong, gomme a buša a fetleka mantšu ao a tšwelelago kudu sengwalong seo  a fetša a tšea sephetho sa go tsentšha le go hlaloša mantšu ao ka pukuntšung. Se šomišwa gape ke bahlami ba didirišwa tša maleme tša theknolotši, ka ge bontši bja tšona di nyaka go hlahlwa ke dingwalwa tša polelo tšeo di šetšego di laeditšwe dihlopha tša mantšu (annotated data).

Go fihlelela sedirišwa se, eya go https://hlt.nwu.ac.za gomme o kgethe polelo ya gago ka fase ga Select languge, wa boa wa kgwatha Select technology gore o tle o hlaole Part of speech. Lepokisana la hlogwana ya Input le go dumelela gore o tsenye mantšu. Ge eba mantšu ao a hwetšagala sengwalong sa elektroniki, netefatša gore se bolokilwe khomphuthareng ka fomate ya *.txt. Go tloga fao, o tla kgotla lepokisana le letalalerata la upload file leo le tla go kgontšhago go kgetha sengwalwa sa elektroniki sa fomate ya *.txt gomme wa kgotla lepokisana la Process gore sedirišwa seo se thome go fetleka le go phara ditlankana ge se hlaola dihlopha tša mantšu. Dipoelo ka moka o tla di hwetša ka go kgotla lepokisana la Download File. Go na le mekgwa ye e fapanego ya go tsenya tshedimošo ka gare ga sedirišwa se. Re tla bolela ka yona nakong ye e tlago. Mošate!

Ipalele:

Poulos, G. & Louwrens, L. J. (1994). A linguistic analysis of Northern Sotho. Pretoria: Via Afrika.

Taljard, E., Faaß, G., Heid, U., & Prinsloo, D. J. (2008). On the development of a tagset for Northern Sotho with special reference to the issue of standardisation. Literator 29(1): 111–137.

English summary:

The abstract provides a basic description of part-of-speech tagger and its functions as a language processing tool. It also offers a basic overview of Sesotho sa Leboa parts of speech and how they are factored in the design of tagsets, for the tagger to provide linguistic information which is relevant for Sesotho sa Leboa language (fine-grained POS tags). The use of training data during tagger development to enhance tagging accuracy is mentioned and concludes by providing a practical guidance on how to access the tagger and basic usage to process data.