A morfoszintaktikai kódok rendszere
A morfoszintaktikai kód (MSD-kód)
az adott szóalak morfoszintaktikai tulajdonságainak formális leírása.
A rendszer ismeretére két szempontból lehet szükség:
A kód a
szófajkóddal kezdődik,
ezután következik egymástól
pontokkal elválasztva
a különböző morfoszintaktikai jegyek kódja.
(Kivétel a felsőfok (
FF
) és az igekötő (
IK
) kódja, mely megelőzi a szófajkódot.)
Két példa. Ezeket megnézhetjük a
keresőfelületen.
Az
élményeimmel szóalak MSD-kódja:
FN.PSe1i.INS
Azaz: főnév (
FN
), egyes szám első személyű birtokos személyjellel (
PSe1
),
birtoktöbbesítővel (
i
), -vAl raggal (
INS
).
A
megnéztük szóalak MSD-kódja:
IK.IGE.TMt1
Azaz: igekötős (
IK
) ige (
IGE
), határozott ragozás (
T
),
kijelentő mód, múlt idő (
M
), többes szám első személy (
t1
).
A kódrendszer struktúráját tükrözi a részletes keresés felület felépítése.
A szokásos névszókon kívül azokat a szófajokat is
az ún.
névszó jellegű kategóriába soroljuk,
melyek adott esetben képesek névszókra jellemző toldalékokat
(pl. fokozás, esetrag) felvenni.
A
névszó jellegű szavak,
az
igék,
a
főnévi igenevek és
a
határozói igenevek
morfoszintaktikai jegyeinek kódolását alább tárgyaljuk, a többi szófajnak
nincsenek morfoszintaktiai jegyei, így MSD-kódjuk egyszerűen a szófajkód.
A szófajkódok a következők
(az
első oszlopban találhatók a névszó jellegű kategóriába sorolt szófajok):
FN | főnév |
FN_NM | főnévi névmás |
MN | melléknév |
MN_NM | melléknévi névmás |
SZN | számnév |
SZN_NM | számnévi névmás |
SZN_DIGIT | számjeggyel írt szám |
ROMAN | római szám |
HA | határozószó |
HA_NM | határozói névmás |
DET_NM | mutató névmás |
NU | névutó |
IGE._OKEP | folyamatos melléknévi igenév |
IGE._MIB | befejezett melléknévi igenév |
IGE._MIA | beálló melléknévi igenév |
|
DET | névelő |
IGE | ige |
IK | igekötő |
IGE.INF | főnévi igenév |
IGE._HIN | határozói igenév |
KOT | kötőszó |
ISZ | indulatszó |
MSZ | mondatszó |
ELO | előtag |
EKSZ | -e klitikum |
WPUNCT | központozás |
SPUNCT | mondatvégi írásjel |
AUX | segédige (volna) |
O | különálló toldalék |
PER | / |
PREP | elöljáró (mint) |
S | vö. |
SKIP | magyar elemzésből kihagyott idegen nyelvű szó |
SYMBOL | szmájli |
X | idegen szócska (van, mc...) |
|
Az
-e klitikum bizonyos esetekben a szóalakvégéhez tapadva elemződik.
Ekkor a szó morfoszintaktikai kódja
.KSZ
elemmel egészül ki.
Az igekötős melléknévi igenevek kódjának elején megjelenik az igekötő kódja:
IK.IGE._OKEP
,
IK.IGE._MIB
és
IK.IGE._MIA
.
Előfordul, hogy az elemzőprogram nem tudja meghatározni
a szóalak morfoszintaktikai jegyeit, ezt
UNKNOWN
jelöli.
1. A névszó jellegű szavak morfoszintaktikai jegyeinek kódolása
Névszó jellegű szavaknál az MSD-kód felépítése a következő:
felsőfok (
FF
)
.
szófajkód .
fokozás (
_FOK
)
.
többesszám (
PL
, illetve
-ék esetében
FAM
)
.
birtokos személyjel
.
anaforikus birtokos jel
.
eset
Kötelező elem a szófajkód és az esetkód.
Az alábbiakban az egyes kódokhoz zárójelben példát is adunk.
A birtokos személyjel kódolása:
PSe1 | -m, -am, -em, -om, -öm | (házam) |
PSe2 | -d, -ad, -od, -ed, -öd | (házad) |
PSe3 | -a, -e, -ja, -je, -á, -é, -já, -jé | (háza) |
PSt1 | -nk, -unk, -ünk | (házunk) |
PSt2 | -tok, -tek, -tök, -atok, -etek, -ötök | (házatok) |
PSt3 | -uk, -ük, -juk, -jük | (házuk) |
|
PSe1i | -im, -aim, -eim | (házaim) |
PSe2i | -id, -aid, -eid | (házaid) |
PSe3i | -i, -ai, -jai, -ei, -jei | (házai) |
PSt1i | -ink, -aink, -eink, -jaink, -jeink | (házaink) |
PSt2i | -itok, -itek, -jaitok, -jeitek | (házaitok) |
PSt3i | -ik, -aik, -eik, -jaik, -jeik | (házaink) |
|
Az anaforikus birtokos jel kódolása:
POS | -é | (övé) |
POSi | -éi | (övéi) |
Az esetek kódolása:
NOM | nominativus | ∅ | (kutya) |
ACC | accusativus | -t, -at, -et, -ot, -öt | (autót) |
DAT | dativus | -nak, -nek | (vendégnek) |
ILL | illativus | -ba, -be | (színházba) |
INE | inessivus | -ban, -ben | (épületben) |
ELA | elativus | -ból, -ből | (iskolából) |
ALL | allativus | -hoz, -hez, -höz | (Jánoshoz) |
ADE | adessivus | -nál, -nél | (mozinál) |
ABL | ablativus | -tól, -től | (háztól) |
SUB | sublativus | -ra, -re | (székre) |
SUP | superessivus | -n, -on, -en, -ön | (falon) |
DEL | delativus | -ról, -ről | (emberről) |
|
INS | instrumentalis | -val, -vel | (villával) |
FAC | factivus | -vá, -vé | (édessé) |
FOR | formativus | -ként | (tolmácsként) |
TEM | temporalis | -kor | (ötkor) |
CAU | causalis | -ért | (győzelemért) |
TER | terminativus | -ig | (májusig) |
ESS | essivus formalis | -ul, -ül | (ráadásul) |
KEPPEN | | -képpen | jelzésképpen |
KEPP | | -képp | kivételképp |
_TMP_ANTE | | -a, -e, -ja, -je | (napja mint időhatározó) |
_TMP_INL | | ∅ | (vasárnap mint időhatározó) |
INL | | -t, -tt | (Pécsett) |
|
A névutó (
NU
) csak azon praktikus okból került
a névszó jellegű szavak közé, mert bizonyos esetekben
felvehet névszókra jellemző toldalékokat:
kaphat esetragot (
NU.DEL
túlról)
vagy lehet személyragos alakú (
NU.e1
felém).
∗ |
Keressük a következő szóalakokat, és értelmezzük az MSD-kódot:
embereknek, házainkban, anyámét, legrégebbieket.
|
2. Az igék morfoszintaktikai jegyeinek kódolása
Igék esetén az MSD-kód a következők szerint épül fel:
igekötő (
IK
)
.
IGE
.
ragozás
.
idő és mód
.
személyrag
Kötelező elem az
IGE
és a személyrag.
Az igeragozás kódolása:
∅ | alanyi ragozás | (szeretek) |
T | tárgyas ragozás | (szeretem) |
I | -lak, -lek toldalékos alak | (szeretlek) |
|
A személyrag kódolása:
e1 | egyes szám első személy | (olvasok) |
e2 | egyes szám második személy | (olvasol) |
e3 | egyes szám harmadik személy | (olvas) |
t1 | többes szám első személy | (olvasunk) |
t2 | többes szám második személy | (olvastok) |
t3 | többes szám harmadik személy | (olvasnak) |
|
Az igeidő és az igemód kódolása:
∅ | kijelentő mód, jelen idő | (olvasok) |
M | kijelentő mód, múlt idő | (olvastam) |
F | feltételes mód, jelen idő | (olvasnék) |
P | felszólító mód, jelen idő | (olvassak) |
| |
A többes szám első személyű feltételes módú régies alak (
-nók, -nők )
IGE.Ft1*
kódot kap.
∗ |
A mondjátok szóalak kétféleképpen elemezhető,
ennek megfelelően kétféle MSD-kódot kaphat.
IGE.Tt2 : tárgyas ragozású, kijelentő módú, jelen idejű, többes szám második személyű ige.
IGE.TPt2 : tárgyas ragozású, felszólító módú, jelen idejű, többes szám második személyű ige.
|
∗ |
Keressük a vár szótő tetszőleges alakjait, és értelmezzük az MSD-kódokat.
|
3. A főnévi igenevek morfoszintaktikai jegyeinek kódolása
A főnévi igenevek MSD-kódjának szerkezete:
- alapalak esetén:
igekötő (IK
) .
IGE.INF
- ragozott alak esetén:
igekötő (IK
) .
IGE.INR
személyrag
A főnévi igenév személyragjának kódolása:
IGE.INRe1 | -nom, -nem, -nöm, -anom, -enem | (látnom) |
IGE.INRe2 | -nod, -ned, -nöd, -anod, -ened | (látnod) |
IGE.INRe3 | -nia, -nie, -ania, -enie | (látnia) |
IGE.INRt1 | -nunk, -nünk, -anunk, -enünk | (látnunk) |
IGE.INRt2 | -notok, -netek, -nötök, -anotok, -enetek | (látnotok) |
IGE.INRt3 | -niuk, -niük, -aniuk, -eniük | (látniuk) |
A többes szám harmadik személyű régies alak (
-noik, -niök )
IGE.INRt3*
kódot kap.
4. A határozói igenevek morfoszintaktikai jegyeinek kódolása
A határozói igenév két változata két önálló szófajkódot kapott:
- -vA toldalék esetén
IGE.HIN
- -vÁn toldalék esetén
IGE.HINN
A határozói igenevek egyetlen jegye az, hogy van-e igekötője.
Ha van, akkor a
IK.
kód előzi meg a szófajkódot.