Súgó

1. Bevezető

Ezen az oldalon a Magyar Nemzeti Szövegtár felületét, a keresési és feldolgozási lehetőségeket mutatjuk be. Az oldal tanulmányozása közben érdemes külön ablakban megnyitni a keresőfelületet, hogy az alább szereplő ikonnal jelölt példákat, gyakorlatokat rögtön kipróbálhassuk. A keresőfelülethez regisztráció után lehet hozzáférni. A >>-re kattintva pedig rögtön megtekintheti a szóban forgó lekérdezés eredményét. Az MNSZ kibővített változatának felülete a szabadon elérhető NoSketch Engine rendszer felhasználásával készült el. Jelen dokumentum merít e rendszer angol nyelvű súgójából. Az alábbiakban a szövegtár és a korpusz kifejezéseket szinonimaként fogjuk használni.
A felület segítségével hozzáférünk a szövegtár teljes anyagához, és az összes hozzáadott információhoz, annotációhoz.
A nyitólapra mindig a bal felső sarokban lévő MNSZ2 logóra kattintva térhetünk vissza.

2. Főoldal

A felület bal oldalán lévő menüből érhetők el az egyes funkciók, a képernyő közepén kap helyet a keresőfelület és a különféle egyéb űrlapok, illetve itt láthatjuk az eredményeket is.

3. Keresés, konkordancia

A felület megnyitásakor a fő keresőablakot látjuk. Ide a bal oldalt felül található Keresés menüpont segítségével juthatunk minden esetben vissza.
A lekérdezés típusánál válasszuk az „egyszerű keresés”-t, írjunk be egy tetszőleges szót, és nyomjuk meg a „Konkordancia készítése” gombot.

Egyszerű keresésnél a megadott szót szóalakként és szótőként is keresi a rendszer, azaz ha az vár szót adjuk meg, akkor a megjelenő konkordancia tartalmazni fogja az igei vár, várja, vártunk stb. valamint a főnévi vár, várra, várait stb. alakokat is.
Többféle keresőűrlap áll rendelkezésre, ezek között a „lekérdezés típusa” legördülőben válthatunk: A fenti példa szerint eljárva eredményül megkapjuk a lekérdezésnek megfelelő összes korpuszpélda listáját, szövegkörnyezettel együtt. Ez az ún. konkordancia, a korpusztalálatok alapvető megjelenítési formája.
Minden lekérdezésnél használhatunk reguláris kifejezéseket, például ha egy szó elejére/végére akarunk rákérdezni.
Bármely típusú lekérdezést szűkíthetünk a kontextus és az alkorpusz megadásával. A konkordancia megjelenítésével és a konkordancián végezhető különböző műveletekkel külön fejezetben szólunk.

4. Kontextus megadása

Egy lekérdezést szűkíthetünk a Kontextus segítségével: itt megszorítást tehetünk a találat környezetében előforduló szavakra.
Lépjünk a lekérdezőfelületre (menü: Keresés). A lekérdezés típusa legyen „szótő”, írjuk be, hogy álom. Kattintsunk a Kontexus-ra a menüben.

A megjelenő felületen megadhatjunk, hogy a találat bal, jobb vagy mindkét irányú környezetében, mely szavak (ne) forduljanak elő.
Válasszuk a „mindkét irányban 5 szó” lehetőséget, és írjunk be mondjuk egy igét, ami az álom szó kapcsán eszünkbe jut (felébred, merül, elnyom, megvalósul stb.). Végül: „Konkordancia készítése”.

Vagy válasszuk a „balra 1 szó” lehetőséget, adjunk meg egy (vagy több) szót (például melléknevet) (édes, szép, rossz, lidérces stb.), melyek „közül egyik se” forduljon elő – pontosan a találati szót megelőző pozícióban.

5. Alkorpusz megadása

Korlátozhatjuk a lekérdezésünket a korpusz egy bizonyos részére is, például adott szövegtípusra.
Lépjünk a lekérdezőfelületre (menü: Keresés). Zárjuk be a Kontextus felületet. Kattintsunk az Alkorpusz-ra a menüben.

A következő lehetőségek állnak rendelkezésre: A stílusréteg és a nyelvváltozat esetén kattintással választhatunk. A másik három opció esetében be kell gépelni a kívánt lehetőségeket. Ezekben a szövegdobozokban automatikus kiegészítés működik. Egymás mellett | jellel elválasztva több értéket is megadhatunk.
Az álom szó eleve meglehetősen ritkán fordul elő a hivatalos szövegben, a merül kontextussal együtt pedig még inkább.

6. Reguláris kifejezések

Reguláris kifejezések segítségével a keresendő szavakat kifinomultabban adhatjuk meg. A reguláris kifejezések az az összes típusú keresésben használhatók.
A .* (pont-csillag) reguláris kifejezés például a tetszőleges számú bármilyen karaktert jelöli. Ennek segítségével megfogalmazhatjuk a szó elejére vagy végére vonatkozó lekérdezést.
Keressük az elé kezdetű szavakat. Megoldás: „szótő:” elé.*

Keressük az oda végű szavakat. Megoldás: „szótő:” .*oda

E témáról további információ található a NoSketch Engine eredeti angol nyelvű súgójában.

7. CQL

Az ún. korpuszlekérdező nyelv (Corpus Query Language) használata teljeskörű hozzáférést biztosít a korpuszban rejlő információhoz. Megismeréséhez a NoSketch Engine eredeti angol nyelvű súgójához fordulhatunk.

8. Részletes keresés

Hasonlóan működik, mint a régi MNSZ keresője, némi kiegészítéssel: bővebb szófajlista, „-hAt” képző az igéknél. Ezen kívül lehetőség van az egyes hangoknak megfelelő betűk helyett fonetikai tulajdonságok megadására. Az ehhez tartozó felület a szövegdoboz melletti jelölőnégyzet kipipálása után jelenik meg.
Lépjünk a lekérdezőfelületre (menü: Keresés). Válasszuk a „részletes keresés”-t. A részletes keresésnél válasszuk a „szótő”-t. Pipáljuk ki a jelölőnégyzetet. Hajtsuk végre a következőket: „affrikáta”; „mssh/Hozzáadás”; „mssh/Törlés”; „mgh/mind”; „mgh/Hozzáadás”; „mgh/Törlés”; „approximáns”; „mssh/Hozzáadás”; „mssh/Törlés”. Ezek után a szótő mezőben a következőt látjuk: {aff}{vow}{app}. A lekérdezést lefuttatva a cél, csaj, csal stb. szótöveket kapjuk. Érdemes a konkordanciából gyakorisági listát is készíteni.

9. Tájékozódás a konkordanciában

Az oldal tetején látjuk a találatok számát, a találati oldalak közötti navigálásra szolgáló eszközöket, ez alatt pedig a lekérdezésnek megfelelő szövegrészeket, középen pirossal a találati szó.
Az egyes találati szavakra kattintva egy külön ablakban megjelenik a bővebb kontextus, ez a pluszjelre (+) kattintással tovább növelhető.
A találati sor előtti dokumentumazonosítóra kattintva a dokumentum metaadatai jelennek meg. (A sor elején alapértelmezés szerint a dokumentumazonosító szerepel, de ez a megjelenítésnél megváltoztatható.)

10. A konkordancia megjelenítése

Egy lekérdezés eredményeként kapott konkordancia megjelenését testre szabhatjuk.
Induljunk ki a „szótő:” gyarapszik keresésből.

A KWIC/mondat menüponttal a konkordancia klasszikus megjelenítési formája (keyword in context, KWIC) és a mondatkontextus között válthatunk.
Válasszuk a Megjelenítés menüpontot.

Attribútumok. Beállíthatjuk, hogy mely attribútumok jelenjenek meg. Alapértelmezés a szóalak (word), a konkordancia egy sora így szóalakok sorozata, azaz az eredeti szöveg. A kívánt attribútumo(ka)t megjeleníthetjük „minden szón”, vagy „csak a találati szavakon”. Az alábbi attribútumok állnak rendelkezésre:
Pipáljuk ki az msd (morfológiai elemzés) attribútumot, megjelenítés „csak a találati szavakon”. „Megjelenítés megváltoztatása”.

A találati szavakon megjelennek (fekete színnel) a morfológiai kódok, az IGE.Me3 például múlt idejű, egyesszám, harmadik személyű igealakot, az IGE.INF főnévi igenevet jelent. A kódok hasonlóak a régi MNSZ -ben használt kódokhoz.
A Megjelenítés-ben az msd helyett most pipáljuk ki a word_cv és a lemma_phon attribútumot. „Megjelenítés megváltoztatása”.

A találati szavak mellett most megjelenik a szóalak CV-váza (word_cv) és a szótő fonetikai reprezentációja (lemma_phon) is. A CV-váz C, B, N, F karakterek sora, melyek rendre a consonant (mssh), back (hátulképzett mgh), neutral (netrális mgh), front (elölképzett mgh) hangokat jelentik, pl.: a gyarapodni esetén ez CBCBCBCCN. A fonetikai reprezentációban egy karakter egy hangot jelöl, a kettős betűket egy nagybetűvel jelöljük, pl.: a gyarapodni szótöve esetén ez GarapSik.
Struktúrák. A korpuszban számos típusú különféle méretű szerkezeti egység is kódolva van. Alapértelmezés szerint a bekezdések eleje (<p>) és vége (</p>) van feltüntetve, de itt beállíthatjuk például a mondat- vagy a dokumentumhatárok megjelenítését is. (Több struktúrát Ctrl + kattintás segítségével választhatunk.)
Infó. Itt állíthatjuk be, hogy a konkordanciasorok elején milyen információ jelenjen meg. Az alapértelmezett „dokumentumazonosító”-n kívül beállíthatjuk a „szó sorszámá”-t (mely a találat egyértelmű azonosító adata), valamint az alkorpusz megadásáról szóló fejezetben felsorolt metaadatokat.
Az űrlap alján testre szabhatjuk a konkordanciaoldalak horizontális és vertikális kiterjedését.

11. Konkordanciamenü, funkciók

A konkordancia mellett a bal oldali menüben a vízszintes vonal alatt számos új lehetőség jelenik meg. A nagybetűvel írt főbb pontok külön űrlapot nyitnak, ahol be lehet állítani a szükséges paramétereket. Innen a < Konkordancia-ra kattintva lehet visszatérni a konkordanciához. A beljebb szedett lehetőségek a gyakoribb funkciókhoz biztosítanak gyors hozzáférést.
Mentés. Ha az összes találatot ki szeretnénk menteni, akkor „Sorok maximális száma:” mezőbe be kell írni a találatok számát. Ez leolvasható az oldal tetején, a „A konkordancia leírása” részben, a pluszjelre (+) kattintva. A kimentett konkordanciával aztán például táblázatkezelő segítségével dolgozhatunk tovább.
Megjelenítés. Ld. külön.
Rendezés. A konkordancia rendezése gyors módszer a különböző mintázatok feltárásához. Rendezhetünk a találati szó előtti (bal) vagy utáni (jobb) szó szerint, a találati szó szerint (találat), a sor elején látható infó (alapértelmezésben a dokumentumazonosító) szerint. Előállíthatunk véletlenszerű sorrendet (keverés) is, ennek segítségével a konkordanciát a sorrendi hatástól megtisztítva vizsgálhatjuk.
Véletlen minta. Kezelhetetlenül nagy méretű konkordancia esetén érdemes lehet véletlen mintát készíteni, és azt vizsgálni. Adott konkordanciára az adott méretű véletlen minta mindig azonos tartalmú és sorrendű eredményt ad.
Szűrés. A korpuszlekérdező nagyon erős eszköze a szűrés. Egy lekérdezés eredményét szűrhetjük egy újabb lekérdezéssel, ilyenkor az első lekérdezésből kapott konkordancia anyagán futtatjuk a szűrőlekérdezést. Az így kapott eredményt ismét szűrhetjük, és így tovább. Bonyolult lekérdezéseket szűrőlekérdezések soraként fogalmazhatunk meg, illetve egy nagy méretű konkordanciát feltérképezhetünk szűrések által. Az űrlap alsó részében egy keresést adhatunk meg. Ez a felület azonos a keresésnél használt összetett felülettel, annak minden lehetőségét használhatjuk itt is. Az űrlap felső részében az opciókat állíthatjuk be. Ha azt szeretnénk, hogy a szűrési feltétel ne legyen igaz, akkor a „negatív” opciót válasszuk. A „keresési ablak”-nál adjuk meg, hogy a meglévő konkordanciánk találati szavaihoz képest milyen pozícióban vizsgáljuk a szűrésként megadott lekérdezés teljesülését. A „-5” a balra 5. a „4” a jobbra 4. szót jelenti. Az „eleje: -1 vége: -1” beállítással pontosan a találati szót megelőző szót jelölhetjük ki. Az „eleje: 0 vége: 0” beállítással a találati szóra tehetünk plusz megszorítást.
Induljunk ki a „szótő:” húz keresésből. Szűrés. Beállítások: „pozitív”, „eleje: -7 vége: 7”, szóalak szerinti keresés: fülére.

A szűrt konkordanciából vissza térhetünk az eredetihez az Eredeti konk. menüponttal.
Gyakoriságok. A legtöbb vizsgálatnál érdemes a konkordanciákból valamilyen gyakorisági listát készíteni. A menüből közvetlenül elérhető a találati szóalakok, szótövek, morfológiai elemzések és a dokumentumok szerinti gyakorisági lista.
A vár szóalak konkordanciájára futtassuk le az elemzések szerinti gyakorisági listát.

Azt látjuk, hogy igeként (IGE.e3) gyakrabban fordul elő ez a szó, mint főnévként (FN.NOM). Az első sor elején lévő „p”-re (pozitív példák) kattintva megtekinthetjük az igei vár szavak konkordanciáját. (Ugyanazt az eredményt kapjuk, mintha a vár szóalak konkordanciájára egy CQL = [msd="IGE.e3"] „eleje: 0 vége: 0” szűrést végeztünk volna.)
A Gyakoriságok űrlapon többszintű gyakorisági listákkal dolgozhatunk. Minden szinten megadhatjuk az attribútumot, a kisbetű-nagybetű érzékenységet, illetve azt, hogy a találati szóra („Node”), tőle balra eső szóra („1L”), vagy például tőle kettővel jobbra eső szóra („2R”) kérdezünk rá.
A vár szóalak konkordanciájából készítsünk kétszintű gyakorisági listát. Az első szint legyen a találati szóalak („Node” + „word”), a második szint pedig a követő szó szótöve („1R” + „lemma”).

Kollokációk. Itt készíthetjük el azon szavak listáját, melyek egy adott szóval gyakran fordulnak együtt elő.
Induljunk ki a „szóalak:” szenet konkordanciából. Kollokációk. Keressük a találati szót közvetlenül követő („eleje: 1 vége: 1”) kollokáló szótöveket („attribútum: lemma”). Elsősorban a szén fogalmához szorosan kapcsolódó igéket kapunk.

12. GYIK