Súgó

1. Bevezető

Ezen az oldalon a Magyar Nemzeti Szövegtár felületét, a keresési és feldolgozási lehetőségeket mutatjuk be. Az oldal tanulmányozása közben érdemes külön ablakban megnyitni a keresőfelületet, hogy az alább szereplő ∗ ikonnal jelölt példákat, gyakorlatokat rögtön kipróbálhassuk. A keresőfelülethez regisztráció után lehet hozzáférni. A >>-re kattintva pedig rögtön megtekintheti a szóban forgó lekérdezés eredményét. Az MNSZ kibővített változatának felülete a szabadon elérhető NoSketch Engine rendszer felhasználásával készült el. Jelen dokumentum merít e rendszer angol nyelvű súgójából. Az alábbiakban a szövegtár és a korpusz kifejezéseket szinonimaként fogjuk használni.
A felület segítségével hozzáférünk a szövegtár teljes anyagához, és az összes hozzáadott információhoz, annotációhoz.
A nyitólapra mindig a bal felső sarokban lévő MNSZ2 logóra kattintva térhetünk vissza.

2. Főoldal

A felület bal oldalán lévő menüből érhetők el az egyes funkciók, a képernyő közepén kap helyet a keresőfelület és a különféle egyéb űrlapok, illetve itt láthatjuk az eredményeket is.

3. Keresés, konkordancia

A felület megnyitásakor a fő keresőablakot látjuk. Ide a bal oldalt felül található Keresés menüpont segítségével juthatunk minden esetben vissza.

∗	A lekérdezés típusánál válasszuk az „egyszerű keresés”-t, írjunk be egy tetszőleges szót, és nyomjuk meg a „Konkordancia készítése” gombot.

Egyszerű keresésnél a megadott szót szóalakként és szótőként is keresi a rendszer, azaz ha az vár szót adjuk meg, akkor a megjelenő konkordancia tartalmazni fogja az igei vár, várja, vártunk stb. valamint a főnévi vár, várra, várait stb. alakokat is.
Többféle keresőűrlap áll rendelkezésre, ezek között a „lekérdezés típusa” legördülőben válthatunk:

egyszerű keresés – itt több szót is megadhatunk, a megadott szót (vagy szavakat) szóalakként és szótőként is keresi, azaz összes toldalékolt alakjukat is megkapjuk, ahogy erről feljebb szóltunk;
szótő – az 1 db megadott szót szótőként keresi, megkapjuk a toldalékolt formáit is;
szóalak – az 1 db megadott szót szóalakként keresi, itt különbséget tehetünk kisbetűs és nagybetűs alakok között (pl.: kovács és Kovács);
karakter – minden olyan szóalakot visszaad, mely tartalmazza a megadott karaktersorozatot (pl.: ával, kedtek);
CQL – az ún. korpuszlekérdező nyelven (Corpus Query Language) megfogalmazott (komplex) lekérdezések használatával férhetünk hozzá a korpuszban rejlő összes információhoz, ehhez szükséges, hogy megismerjük ennek a formális nyelvnek a használatát;
részletes keresés – a részletes keresés kényelmes, menüvezérelt, CQL-mentes hozzáférést biztosít a szövegtárban lévő hozzáadott információk jelentős részéhez.

A fenti példa szerint eljárva eredményül megkapjuk a lekérdezésnek megfelelő összes korpuszpélda listáját, szövegkörnyezettel együtt. Ez az ún. konkordancia, a korpusztalálatok alapvető megjelenítési formája.
Minden lekérdezésnél használhatunk reguláris kifejezéseket, például ha egy szó elejére/végére akarunk rákérdezni.
Bármely típusú lekérdezést szűkíthetünk a kontextus és az alkorpusz megadásával. A konkordancia megjelenítésével és a konkordancián végezhető különböző műveletekkel külön fejezetben szólunk.

4. Kontextus megadása

Egy lekérdezést szűkíthetünk a Kontextus segítségével: itt megszorítást tehetünk a találat környezetében előforduló szavakra.

∗	Lépjünk a lekérdezőfelületre (menü: Keresés). A lekérdezés típusa legyen „szótő”, írjuk be, hogy álom. Kattintsunk a Kontexus-ra a menüben.

A megjelenő felületen megadhatjunk, hogy a találat bal, jobb vagy mindkét irányú környezetében, mely szavak (ne) forduljanak elő.

∗	Válasszuk a „mindkét irányban 5 szó” lehetőséget, és írjunk be mondjuk egy igét, ami az álom szó kapcsán eszünkbe jut (felébred, merül, elnyom, megvalósul stb.). Végül: „Konkordancia készítése”.

∗	Vagy válasszuk a „balra 1 szó” lehetőséget, adjunk meg egy (vagy több) szót (például melléknevet) (édes, szép, rossz, lidérces stb.), melyek „közül egyik se” forduljon elő – pontosan a találati szót megelőző pozícióban.

5. Alkorpusz megadása

Korlátozhatjuk a lekérdezésünket a korpusz egy bizonyos részére is, például adott szövegtípusra.

∗	Lépjünk a lekérdezőfelületre (menü: Keresés). Zárjuk be a Kontextus felületet. Kattintsunk az Alkorpusz-ra a menüben.

A következő lehetőségek állnak rendelkezésre:

doc.file – adott dokumentumot (például egy regényt) választhatunk ki;
doc.style – stílusréteg;
doc.region – regionális nyelvváltozat;
doc.type – műfaj;
doc.column – rovat.

A stílusréteg és a nyelvváltozat esetén kattintással választhatunk. A másik három opció esetében be kell gépelni a kívánt lehetőségeket. Ezekben a szövegdobozokban automatikus kiegészítés működik. Egymás mellett | jellel elválasztva több értéket is megadhatunk.

∗	Az álom szó eleve meglehetősen ritkán fordul elő a hivatalos szövegben, a merül kontextussal együtt pedig még inkább.

6. Reguláris kifejezések

Reguláris kifejezések segítségével a keresendő szavakat kifinomultabban adhatjuk meg. A reguláris kifejezések az az összes típusú keresésben használhatók.
A .* (pont-csillag) reguláris kifejezés például a tetszőleges számú bármilyen karaktert jelöli. Ennek segítségével megfogalmazhatjuk a szó elejére vagy végére vonatkozó lekérdezést.

∗	Keressük az elé kezdetű szavakat. Megoldás: „szótő:” elé.*

∗	Keressük az oda végű szavakat. Megoldás: „szótő:” .*oda

E témához bevezetés ebben a cikkben, további információ a NoSketch Engine eredeti angol nyelvű súgójában található.

7. CQL

Az ún. korpuszlekérdező nyelv (Corpus Query Language) használata teljeskörű hozzáférést biztosít a korpuszban rejlő információhoz. Megismeréséhez ehhez a cikkhez, valamint a NoSketch Engine eredeti angol nyelvű súgójához fordulhatunk.

∗ A lekérdezőfelületen a lekérdezés típusánál válasszuk a „CQL”-t. Keresés szóalakra: [word="majd"]. Keresés szótőre: [lemma="ember"], így az eredmény tartalmazza az összes szót, aminek a szótöve ember, azaz az ember összes ragozott alakját kapjuk meg. Keresés morfológiai kód alapján: [msd="IGE._OKEP.NOM"], így megkapjuk az összes (alanyesetben álló) folyamatos melléknévi igenevet. Az idézőjeleken belül reguláris kifejezéseket használhatunk.

8. Részletes keresés

Ezen a felületen az MNSZ2-ben kódolt morfológiai információkra kereshetünk rá. A konkrét kódok ismerete nélkül állíthatjuk be a keresett morfológiai jegyeket.

∗

Lépjünk a lekérdezőfelületre (menü: Keresés). A lekérdezés típusánál válasszuk a „részletes keresés”-t. A szófajnál válasszuk az „ige...”-t. A megjelenő plusz felületen válasszuk a következőket: igekötő: „van”, ragozás: „tárgyas”, idő/mód: „múlt idő”, szám: „többes szám”, személy: „első”. Eredményül a megadott jegyekkel bíró szóalakokat kapunk (pl. körülültük, felszegedettük, elsimítottuk). Készítsünk gyakorisági listát a konkordanciából.

Ezen kívül lehetőség van az egyes hangoknak megfelelő betűk helyett fonetikai tulajdonságok megadására. Az ehhez tartozó felület a szövegdoboz melletti jelölőnégyzet kipipálása után jelenik meg.

∗ Lépjünk a lekérdezőfelületre és válasszuk a „részletes keresés”-t. A részletes keresésnél válasszuk a „szótő”-t. Pipáljuk ki a jelölőnégyzetet. Hajtsuk végre a következőket: „affrikáta”; „mssh/Hozzáadás”; „mssh/Törlés”; „mgh/mind”; „mgh/Hozzáadás”; „mgh/Törlés”; „approximáns”; „mssh/Hozzáadás”; „mssh/Törlés”. Ezek után a szótő mezőben a következőt látjuk: {aff}{vow}{app}. A lekérdezést lefuttatva a cél, csaj, csal stb. szótöveket kapjuk. Érdemes a konkordanciából gyakorisági listát is készíteni.

9. Tájékozódás a konkordanciában

Az oldal tetején látjuk a találatok számát, a találati oldalak közötti navigálásra szolgáló eszközöket, ez alatt pedig a lekérdezésnek megfelelő szövegrészeket, középen pirossal a találati szó.
Az egyes találati szavakra kattintva egy külön ablakban megjelenik a bővebb kontextus, ez a pluszjelre (+) kattintással tovább növelhető.
A találati sor előtti dokumentumazonosítóra kattintva a dokumentum metaadatai jelennek meg. (A sor elején alapértelmezés szerint a dokumentumazonosító szerepel, de ez a megjelenítésnél megváltoztatható.)

10. A konkordancia megjelenítése

Egy lekérdezés eredményeként kapott konkordancia megjelenését testre szabhatjuk.

∗	Induljunk ki a „szótő:” gyarapszik keresésből.

A KWIC/mondat menüponttal a konkordancia klasszikus megjelenítési formája (keyword in context, KWIC) és a mondatkontextus között válthatunk.

∗	Válasszuk a Megjelenítés menüpontot.

Attribútumok. Beállíthatjuk, hogy mely attribútumok jelenjenek meg. Alapértelmezés a szóalak (word), a konkordancia egy sora így szóalakok sorozata, azaz az eredeti szöveg. A kívánt attribútumo(ka)t megjeleníthetjük „minden szón”, vagy „csak a találati szavakon”. Az alábbi attribútumok állnak rendelkezésre:

word – szóalak;
lemma – szótő;
msd – morfológiai elemzés;
ctag – (technikai célra használt kód);
ana – részletes morfológiai információk, morfémák;
word_cv – szóalak CV-váz;
lemma_cv – szótő CV-váz;
word_phon – szóalak fonetikai reprezentációja;
lemma_phon – szótő fonetikai reprezentációja.

∗	Pipáljuk ki az `msd` (morfológiai elemzés) attribútumot, megjelenítés „csak a találati szavakon”. „Megjelenítés megváltoztatása”.

A találati szavakon megjelennek (fekete színnel) a morfológiai kódok, az IGE.Me3 például múlt idejű, egyesszám, harmadik személyű igealakot, az IGE.INF főnévi igenevet jelent. A kódok leírása külön oldalon található.

∗	A Megjelenítés-ben az `msd` helyett most pipáljuk ki a `word_cv` és a `lemma_phon` attribútumot. „Megjelenítés megváltoztatása”.

A találati szavak mellett most megjelenik a szóalak CV-váza (word_cv) és a szótő fonetikai reprezentációja (lemma_phon) is. A CV-váz C, B, N, F karakterek sora, melyek rendre a consonant (mssh), back (hátulképzett mgh), neutral (netrális mgh), front (elölképzett mgh) hangokat jelentik, pl.: a gyarapodni esetén ez CBCBCBCCN. A fonetikai reprezentációban egy karakter egy hangot jelöl, a kettős betűket egy nagybetűvel jelöljük, pl.: a gyarapodni szótöve esetén ez GarapSik.
Struktúrák. A korpuszban számos típusú különféle méretű szerkezeti egység is kódolva van. Alapértelmezés szerint a bekezdések eleje (<p>) és vége (</p>) van feltüntetve, de itt beállíthatjuk például a mondat- vagy a dokumentumhatárok megjelenítését is. (Több struktúrát Ctrl + kattintás segítségével választhatunk.)
Infó. Itt állíthatjuk be, hogy a konkordanciasorok elején milyen információ jelenjen meg. Az alapértelmezett „dokumentumazonosító”-n kívül beállíthatjuk a „szó sorszámá”-t (mely a találat egyértelmű azonosító adata), valamint az alkorpusz megadásáról szóló fejezetben felsorolt metaadatokat.
Az űrlap alján testre szabhatjuk a konkordanciaoldalak horizontális és vertikális kiterjedését.

11. Konkordanciamenü, funkciók

A konkordancia mellett a bal oldali menüben a vízszintes vonal alatt számos új lehetőség jelenik meg. A nagybetűvel írt főbb pontok külön űrlapot nyitnak, ahol be lehet állítani a szükséges paramétereket. Innen a < Konkordancia-ra kattintva lehet visszatérni a konkordanciához. A beljebb szedett lehetőségek a gyakoribb funkciókhoz biztosítanak gyors hozzáférést.
Mentés. Ha az összes találatot ki szeretnénk menteni, akkor „Sorok maximális száma:” mezőbe be kell írni a találatok számát. Ez leolvasható az oldal tetején, a „A konkordancia leírása” részben, a pluszjelre (+) kattintva. A kimentett konkordanciával aztán például táblázatkezelő segítségével dolgozhatunk tovább.
Megjelenítés. Ld. külön.
Rendezés. A konkordancia rendezése gyors módszer a különböző mintázatok feltárásához. Rendezhetünk a találati szó előtti (bal) vagy utáni (jobb) szó szerint, a találati szó szerint (találat), a sor elején látható infó (alapértelmezésben a dokumentumazonosító) szerint. Előállíthatunk véletlenszerű sorrendet (keverés) is, ennek segítségével a konkordanciát a sorrendi hatástól megtisztítva vizsgálhatjuk.
Véletlen minta. Kezelhetetlenül nagy méretű konkordancia esetén érdemes lehet véletlen mintát készíteni, és azt vizsgálni. Adott konkordanciára az adott méretű véletlen minta mindig azonos tartalmú és sorrendű eredményt ad.
Szűrés. A korpuszlekérdező nagyon erős eszköze a szűrés. Egy lekérdezés eredményét szűrhetjük egy újabb lekérdezéssel, ilyenkor az első lekérdezésből kapott konkordancia anyagán futtatjuk a szűrőlekérdezést. Az így kapott eredményt ismét szűrhetjük, és így tovább. Bonyolult lekérdezéseket szűrőlekérdezések soraként fogalmazhatunk meg, illetve egy nagy méretű konkordanciát feltérképezhetünk szűrések által. Az űrlap alsó részében egy keresést adhatunk meg. Ez a felület azonos a keresésnél használt összetett felülettel, annak minden lehetőségét használhatjuk itt is. Az űrlap felső részében az opciókat állíthatjuk be. Ha azt szeretnénk, hogy a szűrési feltétel ne legyen igaz, akkor a „negatív” opciót válasszuk. A „keresési ablak”-nál adjuk meg, hogy a meglévő konkordanciánk találati szavaihoz képest milyen pozícióban vizsgáljuk a szűrésként megadott lekérdezés teljesülését. A „-5” a balra 5. a „4” a jobbra 4. szót jelenti. Az „eleje: -1 vége: -1” beállítással pontosan a találati szót megelőző szót jelölhetjük ki. Az „eleje: 0 vége: 0” beállítással a találati szóra tehetünk plusz megszorítást.

∗	Induljunk ki a „szótő:” húz keresésből. Szűrés. Beállítások: „pozitív”, „eleje: -7 vége: 7”, szóalak szerinti keresés: fülére.

A szűrt konkordanciából vissza térhetünk az eredetihez az Eredeti konk. menüponttal.
Gyakoriságok. A legtöbb vizsgálatnál érdemes a konkordanciákból valamilyen gyakorisági listát készíteni. A menüből közvetlenül elérhető a találati szóalakok, szótövek, morfológiai elemzések és a dokumentumok szerinti gyakorisági lista.

∗	A vár szóalak konkordanciájára futtassuk le az elemzések szerinti gyakorisági listát.

Azt látjuk, hogy igeként (IGE.e3) gyakrabban fordul elő ez a szó, mint főnévként (FN.NOM). Az első sor elején lévő „p”-re (pozitív példák) kattintva megtekinthetjük az igei vár szavak konkordanciáját. (Ugyanazt az eredményt kapjuk, mintha a vár szóalak konkordanciájára egy CQL = [msd="IGE.e3"] „eleje: 0 vége: 0” szűrést végeztünk volna.)
A Gyakoriságok űrlapon többszintű gyakorisági listákkal dolgozhatunk. Minden szinten megadhatjuk az attribútumot, a kisbetű-nagybetű érzékenységet, illetve azt, hogy a találati szóra („Node”), tőle balra eső szóra („1L”), vagy például tőle kettővel jobbra eső szóra („2R”) kérdezünk rá.

∗	A vár szóalak konkordanciájából készítsünk kétszintű gyakorisági listát. Az első szint legyen a találati szóalak („Node” + „word”), a második szint pedig a követő szó szótöve („1R” + „lemma”).

Kollokációk. Itt készíthetjük el azon szavak listáját, melyek egy adott szóval gyakran fordulnak együtt elő.

∗	Induljunk ki a „szóalak:” szenet konkordanciából. Kollokációk. Keressük a találati szót közvetlenül követő („eleje: 1 vége: 1”) kollokáló szótöveket („attribútum: lemma”). Elsősorban a szén fogalmához szorosan kapcsolódó igéket kapunk.

12. GYIK

Hogyan lehet egy végződésre keresni?
Két megközelítés van:
- ha egy karaktersorozatra keresünk (pl.: nc), akkor próbálkozzunk reguláris kifejezéssel: „szóalak:” .*nc >>;
- ha egy meghatározható toldalékot, vagy toldaléksorozatot keresünk, akkor használjuk a részletes keresést: az -aiért/-eiért esetében például állítsuk be, hogy „névszói jellegű...”, van birtokos, egyesszám harmadik személyű, van többesítő is, valamint, hogy az eset „CAU” >>.

Probléma: túl hosszú találat esetén a szöveg ,,lelóg'' a képernyő jobb oldalán.
Megoldás: azt lehet tenni, hogy a KWIC/mondat menüpont segítségével átállítjuk a megjelenítést.

Az űberol alakra se szótőként se szóalakként nem kapunk találatot, karakter szerinti keresésben viszont igen. Miért van ez?
Szótőként azért nem találjuk, mert a morfológiai elemző sajnos nem ismeri ezt a szót (csak rövid ü-vel), szóalakként pedig azért nem, mert ez a szó csak toldalékolva fordul elő a korpuszban. Éppen az ilyen ,,ismeretlen'' szavak esetén tesz jó szolgálatot a karakter szerinti keresés.

Hogyan lehet megállapítani egy gyakorisági listán szereplő elemek számát?
Erre közvetlen mód sajnos nincsen, így kell eljárni: (1) a gyakorisági listát elmentjük (Mentés) – szöveges formában, fejléc nélkül, a sorok maximális száma egy kellően nagy szám legyen (1000000000) – ez így a teljes gyakorisági listát kimenti; (2) a sorokat megszámoljuk külön eszközzel, például Excelbe betöltve.

Hogyan lehet a korpusz egy konkrét szavára, egy konkrét pozíciójára hivatkozni?
Az MNSZ2 egy konkrét szavára (azaz tokenjére, értsd: szavára vagy írásjelére) a sorszámával hivatkozhatunk. Ez a konkordanciasorok elején megjeleníthető, ha a Megjelenítés menüpont Infó részében bekapcsoljuk a „szó sorszáma” lehetőséget.
A szó szorszámára rá is lehet keresni az alábbi speciális formátumú CQL kifejezéssel a # után a szó sorszámát megadva:
[#100]
Ajánlás: publikációban az egyes MNSZ2-ből származó példákat a korpusz verziószáma (a keresőfelületen jobb oldalon lent olvasható, jelenleg v2.0.4) és a találati szó sorszáma együttes megadásával egyértelműen azonosíthatjuk.

Hogyan lehet arra rákeresni, hogy két jelenség egymástól valamilyen távolságra egy mondaton belül helyezkedik el?
Erre szolgál a within kulcsszó. A megoldás a
"X" []{0,2} "Y" within <s/>
CQL kifejezés, melyben "X" és "Y" a két jelenségre vonatkozó CQL kifejezés, a []{0,2} jelenti, hogy minimum 0, maximum 2 token lehet köztük, és a within <s/> hatására ezeknek egy mondaton belül kell lenniük. További részletek a within-ről.

Hogyan lehet a látni lát típusú kifejezésekre keresni, azaz amikor két szó valamilyen tulajdonsága azonos, jelen példában a szótő (lemma)?
Az alábbi nem triviális CQL kifejezés a megoldás:
1:[msd="IGE\.INF"] 2:[msd="IGE.+" & msd!="IGE\.INF"] & 1.lemma = 2.lemma >>
Magyarázat: van egy első (1:[...]) szó, utána meg egy második ([...]"). Az első főnévi igenév, a második ige, de nem főnévi igenév. Valamint a kettőnek a szótöve azonos (& 1.lemma = 2.lemma).
További infó az angol nyelvű súgóban.

Nagyon sok a duplikátum, mit lehet tenni?
A személyes_közösségi alkorpuszban, az anyag természetének megfelelően – sokszor posztolják ugyanazt – sok a duplikátum. Ez gyakran zavarja, torzítja a vizsgálatunkat. Ilyenkor az a megoldás, hogy kizárjuk a személyes_közösségi alkorpuszt a vizsgálatból. Ezt legkönnyebben szűrés révén tehetjük meg: keresési ablak eleje és vége is 0 + katt Alkorpuszok + doc.style alatt bekattintunk mindent, kivéve a személyes_közösségi alkorpuszt.