Súgó
1. Bevezető
Ezen az oldalon a
Magyar Nemzeti Szövegtár felületét,
a keresési és feldolgozási lehetőségeket mutatjuk be.
Az oldal tanulmányozása közben érdemes külön ablakban megnyitni a
keresőfelületet,
hogy az alább szereplő
∗ ikonnal jelölt
példákat, gyakorlatokat rögtön kipróbálhassuk. A keresőfelülethez
regisztráció
után lehet hozzáférni.
A
>>-re kattintva pedig rögtön megtekintheti
a szóban forgó lekérdezés eredményét.
Az
MNSZ kibővített
változatának felülete
a szabadon elérhető
NoSketch Engine
rendszer felhasználásával készült el.
Jelen dokumentum merít e rendszer
angol nyelvű súgójából.
Az alábbiakban a
szövegtár és a
korpusz kifejezéseket
szinonimaként fogjuk használni.
A felület segítségével hozzáférünk a szövegtár teljes anyagához,
és az összes hozzáadott információhoz, annotációhoz.
A nyitólapra mindig a bal felső sarokban lévő
MNSZ2 logóra kattintva
térhetünk vissza.
2. Főoldal
A felület bal oldalán lévő menüből érhetők el az egyes funkciók,
a képernyő közepén kap helyet a keresőfelület
és a különféle egyéb űrlapok,
illetve itt láthatjuk az eredményeket is.
3. Keresés, konkordancia
A felület megnyitásakor a fő keresőablakot látjuk.
Ide a bal oldalt felül található menüpont segítségével
juthatunk minden esetben vissza.
∗ |
A lekérdezés típusánál válasszuk az „egyszerű keresés”-t,
írjunk be egy tetszőleges szót,
és nyomjuk meg a „Konkordancia készítése” gombot.
|
Egyszerű keresésnél a megadott szót szóalakként és szótőként is keresi
a rendszer, azaz ha az
vár szót adjuk meg, akkor
a megjelenő konkordancia tartalmazni fogja
az igei
vár,
várja,
vártunk stb.
valamint a főnévi
vár,
várra,
várait stb.
alakokat is.
Többféle keresőűrlap áll rendelkezésre,
ezek között a
„lekérdezés típusa” legördülőben válthatunk:
- egyszerű keresés – itt több szót is megadhatunk,
a megadott szót (vagy szavakat) szóalakként és szótőként is keresi,
azaz összes toldalékolt alakjukat is megkapjuk, ahogy erről feljebb szóltunk;
- szótő – az 1 db megadott szót szótőként keresi,
megkapjuk a toldalékolt formáit is;
- szóalak – az 1 db megadott szót szóalakként keresi,
itt különbséget tehetünk kisbetűs és nagybetűs alakok között
(pl.: kovács és Kovács);
- karakter – minden olyan szóalakot visszaad, mely tartalmazza
a megadott karaktersorozatot (pl.: ával, kedtek);
- CQL – az ún. korpuszlekérdező nyelven (Corpus Query Language)
megfogalmazott (komplex) lekérdezések használatával
férhetünk hozzá a korpuszban rejlő összes információhoz,
ehhez szükséges, hogy megismerjük ennek a formális nyelvnek a használatát;
- részletes keresés – a részletes keresés
kényelmes, menüvezérelt, CQL-mentes hozzáférést biztosít a szövegtárban lévő
hozzáadott információk jelentős részéhez.
A
fenti példa szerint eljárva eredményül
megkapjuk a lekérdezésnek megfelelő összes korpuszpélda listáját,
szövegkörnyezettel együtt.
Ez az ún.
konkordancia, a korpusztalálatok
alapvető megjelenítési formája.
Minden lekérdezésnél használhatunk
reguláris kifejezéseket,
például ha egy szó
elejére/végére akarunk rákérdezni.
Bármely típusú lekérdezést szűkíthetünk a
kontextus és az
alkorpusz
megadásával.
A konkordancia
megjelenítésével és
a konkordancián végezhető
különböző műveletekkel
külön fejezetben szólunk.
4. Kontextus megadása
Egy
lekérdezést
szűkíthetünk a segítségével:
itt megszorítást tehetünk a találat környezetében előforduló szavakra.
∗ |
Lépjünk a lekérdezőfelületre (menü: ).
A lekérdezés típusa legyen „szótő”, írjuk be, hogy álom.
Kattintsunk a -ra a menüben.
|
A megjelenő felületen megadhatjunk, hogy a találat
bal, jobb vagy mindkét irányú környezetében,
mely szavak (ne) forduljanak elő.
∗ |
Válasszuk a „mindkét irányban 5 szó” lehetőséget,
és írjunk be mondjuk egy igét,
ami az álom szó kapcsán eszünkbe jut
(felébred, merül, elnyom, megvalósul stb.).
Végül: „Konkordancia készítése”.
|
∗ |
Vagy válasszuk a „balra 1 szó” lehetőséget,
adjunk meg egy (vagy több) szót (például melléknevet)
(édes, szép, rossz, lidérces stb.),
melyek „közül egyik se” forduljon elő
– pontosan a találati szót megelőző pozícióban.
|
5. Alkorpusz megadása
Korlátozhatjuk a
lekérdezésünket
a korpusz egy bizonyos részére is, például adott szövegtípusra.
∗ |
Lépjünk a lekérdezőfelületre (menü: ).
Zárjuk be a felületet.
Kattintsunk az -ra a menüben.
|
A következő lehetőségek állnak rendelkezésre:
doc.file
– adott dokumentumot (például egy regényt) választhatunk ki;
doc.style
– stílusréteg;
doc.region
– regionális nyelvváltozat;
doc.type
– műfaj;
doc.column
– rovat.
A stílusréteg és a nyelvváltozat esetén kattintással választhatunk.
A másik három opció esetében be kell gépelni a kívánt lehetőségeket.
Ezekben a szövegdobozokban automatikus kiegészítés működik.
Egymás mellett
|
jellel elválasztva több értéket is megadhatunk.
∗ |
Az álom szó eleve meglehetősen ritkán fordul elő a hivatalos szövegben,
a merül kontextussal együtt pedig
még inkább.
|
6. Reguláris kifejezések
Reguláris kifejezések segítségével a keresendő szavakat kifinomultabban
adhatjuk meg.
A reguláris kifejezések az
az összes típusú keresésben
használhatók.
A
.*
(pont-csillag) reguláris kifejezés például
a tetszőleges számú bármilyen karaktert jelöli.
Ennek segítségével megfogalmazhatjuk a szó
elejére
vagy
végére vonatkozó lekérdezést.
∗ |
Keressük az elé kezdetű szavakat.
Megoldás: „szótő:” elé.*
|
∗ |
Keressük az oda végű szavakat.
Megoldás: „szótő:” .*oda
|
E témához bevezetés
ebben a cikkben, további információ a NoSketch Engine
eredeti angol nyelvű súgójában található.
7. CQL
Az ún. korpuszlekérdező nyelv (Corpus Query Language) használata
teljeskörű hozzáférést biztosít a korpuszban rejlő információhoz.
Megismeréséhez
ehhez a cikkhez, valamint a NoSketch Engine
eredeti angol nyelvű súgójához fordulhatunk.
∗ |
A lekérdezőfelületen a lekérdezés típusánál válasszuk a „CQL”-t.
Keresés szóalakra: [word="majd"] .
Keresés szótőre: [lemma="ember"] ,
így az eredmény tartalmazza az összes szót, aminek a szótöve ember,
azaz az ember összes ragozott alakját kapjuk meg.
Keresés morfológiai kód alapján:
[msd="IGE._OKEP.NOM"] ,
így megkapjuk az összes (alanyesetben álló) folyamatos melléknévi igenevet.
Az idézőjeleken belül reguláris kifejezéseket használhatunk.
|
8. Részletes keresés
Ezen a felületen az
MNSZ2-ben kódolt morfológiai információkra
kereshetünk rá.
A
konkrét kódok ismerete nélkül
állíthatjuk be a keresett morfológiai jegyeket.
∗ |
Lépjünk a lekérdezőfelületre (menü: ).
A lekérdezés típusánál válasszuk a „részletes keresés”-t.
A szófajnál válasszuk az „ige...”-t.
A megjelenő plusz felületen válasszuk a következőket:
igekötő: „van”, ragozás: „tárgyas”, idő/mód: „múlt idő”,
szám: „többes szám”, személy: „első”.
Eredményül a megadott jegyekkel bíró szóalakokat kapunk
(pl. körülültük, felszegedettük, elsimítottuk).
Készítsünk gyakorisági listát a konkordanciából.
|
Ezen kívül lehetőség van az egyes hangoknak megfelelő betűk helyett
fonetikai tulajdonságok megadására.
Az ehhez tartozó felület a szövegdoboz melletti jelölőnégyzet kipipálása
után jelenik meg.
∗ |
Lépjünk a lekérdezőfelületre és
válasszuk a „részletes keresés”-t.
A részletes keresésnél válasszuk a „szótő”-t.
Pipáljuk ki a jelölőnégyzetet.
Hajtsuk végre a következőket:
„affrikáta”; „mssh/Hozzáadás”; „mssh/Törlés”;
„mgh/mind”; „mgh/Hozzáadás”; „mgh/Törlés”;
„approximáns”; „mssh/Hozzáadás”; „mssh/Törlés”.
Ezek után a szótő mezőben a következőt látjuk: {aff}{vow}{app} .
A lekérdezést lefuttatva a cél, csaj, csal stb.
szótöveket kapjuk. Érdemes a konkordanciából
gyakorisági listát is készíteni.
|
9. Tájékozódás a konkordanciában
Az oldal tetején látjuk a találatok számát,
a találati oldalak közötti navigálásra szolgáló eszközöket,
ez alatt pedig a lekérdezésnek megfelelő szövegrészeket,
középen
pirossal a találati szó.
Az egyes találati szavakra kattintva
egy külön ablakban megjelenik a bővebb kontextus,
ez a pluszjelre () kattintással tovább növelhető.
A találati sor előtti dokumentumazonosítóra kattintva
a dokumentum metaadatai jelennek meg.
(A sor elején alapértelmezés szerint a dokumentumazonosító szerepel,
de ez a
megjelenítésnél megváltoztatható.)
10. A konkordancia megjelenítése
Egy lekérdezés eredményeként kapott konkordancia megjelenését
testre szabhatjuk.
∗ |
Induljunk ki a „szótő:” gyarapszik keresésből.
|
A menüponttal a konkordancia klasszikus megjelenítési formája
(
keyword in context, ) és a mondatkontextus között válthatunk.
∗ |
Válasszuk a menüpontot.
|
Attribútumok. Beállíthatjuk, hogy mely attribútumok jelenjenek meg.
Alapértelmezés a szóalak (
word
),
a konkordancia egy sora így szóalakok sorozata, azaz az eredeti szöveg.
A kívánt attribútumo(ka)t megjeleníthetjük
„minden szón”,
vagy
„csak a találati szavakon”.
Az alábbi attribútumok állnak rendelkezésre:
word
– szóalak;
lemma
– szótő;
msd
– morfológiai elemzés;
ctag
– (technikai célra használt kód);
ana
– részletes morfológiai információk, morfémák;
word_cv
– szóalak CV-váz;
lemma_cv
– szótő CV-váz;
word_phon
– szóalak fonetikai reprezentációja;
lemma_phon
– szótő fonetikai reprezentációja.
∗ |
Pipáljuk ki az msd (morfológiai elemzés) attribútumot,
megjelenítés „csak a találati szavakon”.
„Megjelenítés megváltoztatása”.
|
A találati szavakon megjelennek (fekete színnel) a morfológiai kódok,
az
IGE.Me3
például múlt idejű, egyesszám, harmadik személyű igealakot,
az
IGE.INF
főnévi igenevet jelent.
A kódok leírása külön oldalon található.
∗ |
A -ben az msd helyett most pipáljuk ki
a word_cv és a lemma_phon attribútumot.
„Megjelenítés megváltoztatása”.
|
A találati szavak mellett most megjelenik
a szóalak CV-váza (
word_cv
)
és a szótő fonetikai reprezentációja (
lemma_phon
) is.
A CV-váz
C
,
B
,
N
,
F
karakterek sora,
melyek rendre a
consonant (mssh),
back (hátulképzett mgh),
neutral (netrális mgh),
front (elölképzett mgh) hangokat jelentik,
pl.: a
gyarapodni esetén ez
CBCBCBCCN
.
A fonetikai reprezentációban egy karakter egy hangot jelöl,
a kettős betűket egy nagybetűvel jelöljük,
pl.: a
gyarapodni szótöve esetén ez
GarapSik
.
Struktúrák. A korpuszban számos típusú különféle méretű
szerkezeti egység is kódolva van. Alapértelmezés szerint
a bekezdések eleje (
<p>) és vége (
</p>)
van feltüntetve, de itt beállíthatjuk
például a mondat- vagy a dokumentumhatárok megjelenítését is.
(Több struktúrát
Ctrl
+ kattintás segítségével választhatunk.)
Infó. Itt állíthatjuk be, hogy a konkordanciasorok
elején milyen információ jelenjen meg.
Az alapértelmezett
„dokumentumazonosító”-n kívül beállíthatjuk
a
„szó sorszámá”-t (mely a találat egyértelmű azonosító adata),
valamint az
alkorpusz megadásáról szóló
fejezetben felsorolt metaadatokat.
Az űrlap alján testre szabhatjuk a konkordanciaoldalak
horizontális és vertikális kiterjedését.
11. Konkordanciamenü, funkciók
A konkordancia mellett a bal oldali menüben
a vízszintes vonal alatt számos új lehetőség jelenik meg.
A nagybetűvel írt főbb pontok külön űrlapot nyitnak,
ahol be lehet állítani a szükséges paramétereket.
Innen a -ra kattintva lehet visszatérni a konkordanciához.
A beljebb szedett lehetőségek a gyakoribb funkciókhoz biztosítanak
gyors hozzáférést.
. Ha az összes találatot ki szeretnénk menteni,
akkor
„Sorok maximális száma:” mezőbe be kell írni a találatok számát.
Ez leolvasható az oldal tetején, a
„A konkordancia leírása” részben,
a pluszjelre () kattintva. A kimentett konkordanciával
aztán például táblázatkezelő segítségével dolgozhatunk tovább.
. Ld.
külön.
. A konkordancia rendezése gyors módszer
a különböző mintázatok feltárásához.
Rendezhetünk a találati szó előtti ()
vagy utáni () szó szerint, a találati szó szerint (),
a sor elején látható (alapértelmezésben a dokumentumazonosító)
szerint. Előállíthatunk véletlenszerű sorrendet () is,
ennek segítségével a konkordanciát a sorrendi hatástól megtisztítva
vizsgálhatjuk.
. Kezelhetetlenül nagy méretű konkordancia esetén
érdemes lehet véletlen mintát készíteni, és azt vizsgálni.
Adott konkordanciára az adott méretű véletlen minta
mindig azonos tartalmú és sorrendű eredményt ad.
. A korpuszlekérdező nagyon erős eszköze a szűrés.
Egy lekérdezés eredményét szűrhetjük egy újabb lekérdezéssel,
ilyenkor az első lekérdezésből kapott konkordancia anyagán
futtatjuk a szűrőlekérdezést.
Az így kapott eredményt ismét szűrhetjük, és így tovább.
Bonyolult lekérdezéseket szűrőlekérdezések soraként fogalmazhatunk meg,
illetve egy nagy méretű konkordanciát feltérképezhetünk szűrések által.
Az űrlap alsó részében egy keresést adhatunk meg.
Ez a felület azonos a
keresésnél használt összetett felülettel,
annak minden lehetőségét használhatjuk itt is.
Az űrlap felső részében az opciókat állíthatjuk be.
Ha azt szeretnénk, hogy a szűrési feltétel
ne legyen igaz,
akkor a
„negatív” opciót válasszuk.
A
„keresési ablak”-nál adjuk meg, hogy
a meglévő konkordanciánk találati szavaihoz képest
milyen pozícióban vizsgáljuk a szűrésként megadott lekérdezés teljesülését.
A
„-5” a balra 5. a
„4” a jobbra 4. szót jelenti.
Az
„eleje: -1 vége: -1” beállítással pontosan
a találati szót megelőző szót jelölhetjük ki.
Az
„eleje: 0 vége: 0” beállítással a találati szóra
tehetünk plusz megszorítást.
∗ |
Induljunk ki a „szótő:” húz keresésből.
. Beállítások: „pozitív”, „eleje: -7 vége: 7”,
szóalak szerinti keresés: fülére.
|
A szűrt konkordanciából vissza térhetünk az eredetihez
az menüponttal.
. A legtöbb vizsgálatnál érdemes a konkordanciákból
valamilyen gyakorisági listát készíteni.
A menüből közvetlenül elérhető a találati
, , morfológiai
és a szerinti gyakorisági lista.
∗ |
A vár szóalak konkordanciájára futtassuk le az
szerinti gyakorisági listát.
|
Azt látjuk, hogy igeként (
IGE.e3
) gyakrabban fordul elő ez a szó,
mint főnévként (
FN.NOM
).
Az első sor elején lévő
„p”-re (
pozitív példák) kattintva
megtekinthetjük az igei
vár szavak konkordanciáját.
(Ugyanazt az eredményt kapjuk, mintha a
vár szóalak konkordanciájára
egy
CQL =
[msd="IGE.e3"]
„eleje: 0 vége: 0” szűrést végeztünk volna.)
A űrlapon többszintű gyakorisági listákkal dolgozhatunk.
Minden szinten megadhatjuk az attribútumot, a kisbetű-nagybetű érzékenységet,
illetve azt, hogy a találati szóra (
„Node”), tőle balra eső szóra (
„1L”),
vagy például tőle kettővel jobbra eső szóra (
„2R”) kérdezünk rá.
∗ |
A vár szóalak konkordanciájából készítsünk kétszintű gyakorisági listát.
Az első szint legyen a találati szóalak („Node” + „word”),
a második szint pedig a követő szó szótöve („1R” + „lemma”).
|
.
Itt készíthetjük el azon szavak listáját, melyek
egy adott szóval gyakran fordulnak együtt elő.
∗ |
Induljunk ki a „szóalak:” szenet konkordanciából.
.
Keressük a találati szót közvetlenül követő („eleje: 1 vége: 1”)
kollokáló szótöveket („attribútum: lemma”).
Elsősorban a szén fogalmához szorosan kapcsolódó igéket kapunk.
|
12. GYIK
-
Hogyan lehet egy végződésre keresni?
Két megközelítés van:
-
ha egy karaktersorozatra keresünk (pl.: nc),
akkor próbálkozzunk reguláris kifejezéssel:
„szóalak:” .*nc
>>;
-
ha egy meghatározható toldalékot, vagy toldaléksorozatot keresünk,
akkor használjuk a részletes keresést:
az -aiért/-eiért esetében például állítsuk be, hogy
„névszói jellegű...”,
van birtokos, egyesszám harmadik személyű, van többesítő is,
valamint, hogy az eset „CAU”
>>.
-
Probléma: túl hosszú találat esetén a szöveg ,,lelóg'' a képernyő jobb oldalán.
Megoldás: azt lehet tenni, hogy a KWIC/mondat menüpont
segítségével átállítjuk a megjelenítést.
-
Az űberol alakra
se szótőként se szóalakként nem kapunk találatot,
karakter szerinti keresésben viszont igen. Miért van ez?
Szótőként azért nem találjuk, mert a morfológiai elemző
sajnos nem ismeri ezt a szót (csak rövid ü-vel),
szóalakként pedig azért nem,
mert ez a szó csak toldalékolva fordul elő a korpuszban.
Éppen az ilyen ,,ismeretlen'' szavak esetén
tesz jó szolgálatot a karakter szerinti keresés.
-
Hogyan lehet megállapítani egy gyakorisági listán szereplő elemek számát?
Erre közvetlen mód sajnos nincsen,
így kell eljárni:
(1) a gyakorisági listát elmentjük
()
– szöveges formában, fejléc nélkül,
a sorok maximális száma egy kellően nagy szám legyen (1000000000)
– ez így a teljes gyakorisági listát kimenti;
(2) a sorokat megszámoljuk külön eszközzel,
például Excelbe betöltve.
-
Hogyan lehet a korpusz egy konkrét szavára, egy konkrét pozíciójára hivatkozni?
Az MNSZ2 egy konkrét szavára
(azaz tokenjére, értsd: szavára vagy írásjelére)
a sorszámával hivatkozhatunk.
Ez a konkordanciasorok elején megjeleníthető,
ha a menüpont Infó részében
bekapcsoljuk a „szó sorszáma” lehetőséget.
A szó szorszámára rá is lehet keresni az alábbi speciális formátumú
CQL kifejezéssel a #
után a szó sorszámát megadva:
[#100]
Ajánlás: publikációban az egyes MNSZ2-ből származó példákat
a korpusz verziószáma (a
keresőfelületen
jobb oldalon lent olvasható,
jelenleg v2.0.4)
és a találati szó sorszáma együttes megadásával egyértelműen azonosíthatjuk.
-
Hogyan lehet arra rákeresni, hogy két jelenség egymástól
valamilyen távolságra egy mondaton belül helyezkedik el?
Erre szolgál a within
kulcsszó.
A megoldás a
"X" []{0,2} "Y" within <s/>
CQL kifejezés, melyben "X"
és "Y"
a két jelenségre vonatkozó CQL kifejezés,
a []{0,2}
jelenti, hogy
minimum 0, maximum 2 token lehet köztük,
és a within <s/>
hatására ezeknek egy mondaton belül kell lenniük.
További részletek a within
-ről.
-
Hogyan lehet a látni lát típusú kifejezésekre keresni,
azaz amikor két szó valamilyen tulajdonsága azonos,
jelen példában a szótő (lemma)?
Az alábbi nem triviális CQL kifejezés a megoldás:
1:[msd="IGE\.INF"] 2:[msd="IGE.+" & msd!="IGE\.INF"] & 1.lemma = 2.lemma
>>
Magyarázat: van egy első (1:[...]
) szó,
utána meg egy második ([...]
").
Az első főnévi igenév, a második ige, de nem főnévi igenév.
Valamint a kettőnek a szótöve azonos (& 1.lemma = 2.lemma
).
További infó az angol nyelvű súgóban.
-
Nagyon sok a duplikátum, mit lehet tenni?
A személyes_közösségi alkorpuszban,
az anyag természetének megfelelően – sokszor posztolják ugyanazt –
sok a duplikátum.
Ez gyakran zavarja, torzítja a vizsgálatunkat.
Ilyenkor az a megoldás, hogy kizárjuk a személyes_közösségi alkorpuszt
a vizsgálatból.
Ezt legkönnyebben szűrés révén tehetjük meg:
keresési ablak eleje és vége is 0 + katt +
doc.style
alatt bekattintunk mindent,
kivéve a személyes_közösségi alkorpuszt.