A morfoszintaktikai kódok rendszere

A morfoszintaktikai kód (MSD-kód) az adott szóalak morfoszintaktikai tulajdonságainak formális leírása.
A rendszer ismeretére két szempontból lehet szükség: A kód a szófajkóddal kezdődik, ezután következik egymástól pontokkal elválasztva a különböző morfoszintaktikai jegyek kódja. (Kivétel a felsőfok (FF) és az igekötő (IK) kódja, mely megelőzi a szófajkódot.)
Két példa. Ezeket megnézhetjük a keresőfelületen.
Az élményeimmel szóalak MSD-kódja: FN.PSe1i.INS
Azaz: főnév (FN), egyes szám első személyű birtokos személyjellel (PSe1), birtoktöbbesítővel (i), -vAl raggal (INS).
A megnéztük szóalak MSD-kódja: IK.IGE.TMt1
Azaz: igekötős (IK) ige (IGE), határozott ragozás (T), kijelentő mód, múlt idő (M), többes szám első személy (t1).
A kódrendszer struktúráját tükrözi a részletes keresés felület felépítése.
A szokásos névszókon kívül azokat a szófajokat is az ún. névszó jellegű kategóriába soroljuk, melyek adott esetben képesek névszókra jellemző toldalékokat (pl. fokozás, esetrag) felvenni.
A névszó jellegű szavak, az igék, a főnévi igenevek és a határozói igenevek morfoszintaktikai jegyeinek kódolását alább tárgyaljuk, a többi szófajnak nincsenek morfoszintaktiai jegyei, így MSD-kódjuk egyszerűen a szófajkód.
A szófajkódok a következők (az első oszlopban találhatók a névszó jellegű kategóriába sorolt szófajok):
FNfőnév
FN_NMfőnévi névmás
MNmelléknév
MN_NMmelléknévi névmás
SZNszámnév
SZN_NMszámnévi névmás
SZN_DIGITszámjeggyel írt szám
ROMANrómai szám
HAhatározószó
HA_NMhatározói névmás
DET_NMmutató névmás
NUnévutó
IGE._OKEPfolyamatos melléknévi igenév
IGE._MIBbefejezett melléknévi igenév
IGE._MIAbeálló melléknévi igenév
DETnévelő
IGEige
IKigekötő
IGE.INFfőnévi igenév
IGE._HINhatározói igenév
KOTkötőszó
ISZindulatszó
MSZmondatszó
ELOelőtag
EKSZ-e klitikum
WPUNCTközpontozás
SPUNCTmondatvégi írásjel
AUXsegédige (volna)
Okülönálló toldalék
PER/
PREPelöljáró (mint)
Svö.
SKIPmagyar elemzésből kihagyott idegen nyelvű szó
SYMBOLszmájli
Xidegen szócska (van, mc...)

Az -e klitikum bizonyos esetekben a szóalakvégéhez tapadva elemződik. Ekkor a szó morfoszintaktikai kódja .KSZ elemmel egészül ki.
Az igekötős melléknévi igenevek kódjának elején megjelenik az igekötő kódja: IK.IGE._OKEP, IK.IGE._MIB és IK.IGE._MIA.
Előfordul, hogy az elemzőprogram nem tudja meghatározni a szóalak morfoszintaktikai jegyeit, ezt UNKNOWN jelöli.

1. A névszó jellegű szavak morfoszintaktikai jegyeinek kódolása

Névszó jellegű szavaknál az MSD-kód felépítése a következő:
   felsőfok (FF) . szófajkód . fokozás (_FOK) . többesszám (PL, illetve -ék esetében FAM) . birtokos személyjel . anaforikus birtokos jel . eset
Kötelező elem a szófajkód és az esetkód. Az alábbiakban az egyes kódokhoz zárójelben példát is adunk.
A birtokos személyjel kódolása:
PSe1 -m, -am, -em, -om, -öm (házam)
PSe2 -d, -ad, -od, -ed, -öd (házad)
PSe3 -a, -e, -ja, -je, -á, -é, -já, -jé (háza)
PSt1 -nk, -unk, -ünk (házunk)
PSt2 -tok, -tek, -tök, -atok, -etek, -ötök (házatok)
PSt3 -uk, -ük, -juk, -jük (házuk)
PSe1i -im, -aim, -eim (házaim)
PSe2i -id, -aid, -eid (házaid)
PSe3i -i, -ai, -jai, -ei, -jei (házai)
PSt1i -ink, -aink, -eink, -jaink, -jeink (házaink)
PSt2i -itok, -itek, -jaitok, -jeitek (házaitok)
PSt3i -ik, -aik, -eik, -jaik, -jeik (házaink)

Az anaforikus birtokos jel kódolása:
POS (övé)
POSi -éi (övéi)

Az esetek kódolása:
NOMnominativus(kutya)
ACCaccusativus -t, -at, -et, -ot, -öt (autót)
DATdativus -nak, -nek (vendégnek)
ILLillativus -ba, -be (színházba)
INEinessivus -ban, -ben (épületben)
ELAelativus -ból, -ből (iskolából)
ALLallativus -hoz, -hez, -höz (Jánoshoz)
ADEadessivus -nál, -nél (mozinál)
ABLablativus -tól, -től (háztól)
SUBsublativus -ra, -re (székre)
SUPsuperessivus -n, -on, -en, -ön (falon)
DELdelativus -ról, -ről (emberről)
INSinstrumentalis -val, -vel (villával)
FACfactivus -vá, -vé (édessé)
FORformativus -ként (tolmácsként)
TEMtemporalis -kor (ötkor)
CAUcausalis -ért (győzelemért)
TERterminativus -ig (májusig)
ESSessivus formalis -ul, -ül (ráadásul)
KEPPEN -képpen jelzésképpen
KEPP -képp kivételképp
_TMP_ANTE -a, -e, -ja, -je (napja mint időhatározó)
_TMP_INL(vasárnap mint időhatározó)
INL -t, -tt (Pécsett)

A névutó (NU) csak azon praktikus okból került a névszó jellegű szavak közé, mert bizonyos esetekben felvehet névszókra jellemző toldalékokat: kaphat esetragot (NU.DEL túlról) vagy lehet személyragos alakú (NU.e1 felém).
Keressük a következő szóalakokat, és értelmezzük az MSD-kódot: embereknek, házainkban, anyámét, legrégebbieket.

2. Az igék morfoszintaktikai jegyeinek kódolása

Igék esetén az MSD-kód a következők szerint épül fel:
   igekötő (IK) . IGE . ragozás . idő és mód . személyrag
Kötelező elem az IGE és a személyrag.

Az igeragozás kódolása:
alanyi ragozás(szeretek)
Ttárgyas ragozás(szeretem)
I -lak, -lek toldalékos alak(szeretlek)


A személyrag kódolása:
e1egyes szám első személy(olvasok)
e2egyes szám második személy(olvasol)
e3egyes szám harmadik személy(olvas)
t1többes szám első személy(olvasunk)
t2többes szám második személy(olvastok)
t3többes szám harmadik személy(olvasnak)


Az igeidő és az igemód kódolása:
kijelentő mód, jelen idő(olvasok)
Mkijelentő mód, múlt idő(olvastam)
Ffeltételes mód, jelen idő(olvasnék)
Pfelszólító mód, jelen idő(olvassak)

 

A többes szám első személyű feltételes módú régies alak ( -nók, -nők ) IGE.Ft1* kódot kap.
A mondjátok szóalak kétféleképpen elemezhető, ennek megfelelően kétféle MSD-kódot kaphat.
  • IGE.Tt2: tárgyas ragozású, kijelentő módú, jelen idejű, többes szám második személyű ige.
  • IGE.TPt2: tárgyas ragozású, felszólító módú, jelen idejű, többes szám második személyű ige.
Keressük a vár szótő tetszőleges alakjait, és értelmezzük az MSD-kódokat.

3. A főnévi igenevek morfoszintaktikai jegyeinek kódolása

A főnévi igenevek MSD-kódjának szerkezete:
A főnévi igenév személyragjának kódolása:
IGE.INRe1 -nom, -nem, -nöm, -anom, -enem (látnom)
IGE.INRe2 -nod, -ned, -nöd, -anod, -ened (látnod)
IGE.INRe3 -nia, -nie, -ania, -enie (látnia)
IGE.INRt1 -nunk, -nünk, -anunk, -enünk (látnunk)
IGE.INRt2 -notok, -netek, -nötök, -anotok, -enetek (látnotok)
IGE.INRt3 -niuk, -niük, -aniuk, -eniük (látniuk)

A többes szám harmadik személyű régies alak ( -noik, -niök ) IGE.INRt3* kódot kap.

4. A határozói igenevek morfoszintaktikai jegyeinek kódolása

A határozói igenév két változata két önálló szófajkódot kapott: A határozói igenevek egyetlen jegye az, hogy van-e igekötője. Ha van, akkor a IK. kód előzi meg a szófajkódot.