Hírek

2023. február 13.
Elindult az MNSZ2 youtube-csatornája, oktatóvideókkal: https://www.youtube.com/@magyarnemzetiszovegtar
2020. március 9.
Elérhető a morfoszintaktikai kódok részletes leírása.
2018. június 8. v2.0.5
Kényelmi szolgáltatások és javítások.
  1. A korábbi verziókban bizonyos xml tagek megjelentek a szövegben. Ezek most strukturális információként kódolódnak, megjelenítésük ki-bekapcsolható.
  2. Korábban előfordultak alkorpuszon kívüli szövegek, így az alkorpuszok összesítése bizonyos esetekben nem adta ki az összes találati számot. A jelen verzióban minden szöveg alkorpuszhoz van rendelve.
  3. A közösségi médiából származó anyagban – az anyag természetének megfelelően – sok duplikátum van. Ha a vizsgálathoz fontos a duplikátummentes szöveg, akkor a közösségi médiát ki lehet hagyni. Hogy ezt könnyen megtehessük, a személyes alkorpuszt kettéválasztottuk a közösségi médiát tartalmazó személyes-közösségi és az egyéb szövegeket tartalmazó személyes-fórum alkorpuszra.
  4. Az írásjelek a korpuszban önálló tokenek, ezért a konkordanciában szóközzel elválasztva külön jelentek meg. Részleges megoldás született arra, hogy az írásjeleket az írott szövegekben szokásosnak megfelelően a szomszédos szóhoz kapcsoljuk, növelve így a konkordancia olvashatóságát. Ez a megjelenítésnél a <g> (mint glue, ragasztó) struktúra bekapcsolásával érhető el.
  5. A beszéltnyelvi (rádiós) alkorpusz elnevezése a korábbi spok helyett beszéltnyelvi lett.
A szöveganyagban a v2.0.4 verzióhoz képest nem történt változás.
A korábbi kutatások reprodukálhatóságának érdekében továbbra is elérhető az MNSZ v2.0.2v2.0.4-es verziója is.
2017. október 18.
Elérhetők az alkorpuszok méretére vonatkozó adatok.
2016. augusztus 29. v2.0.4
A korpusz terjedelme 1,04 milliárd szövegszó (1,348 milliárd token).
2016. február 19. v2.0.3
A korpusz terjedelme 785 millió szövegszó (978 millió token).
A teljes korpusz újraelemezve.
Új információ: mboundary mező az ana attribútumban, mely a szóalakban lévő morfémahatárokat tartalmazza, ebben a formában: dolgoz+ó+i.
Új attribútumok: word_syll – a szóalak szótagszáma, lemma_syll – a szótő szótagszáma.
2014. szeptember 26. v2.0.2
A korpusz terjedelme 587 millió szövegszó (732 millió token).
2014. szeptember 13. v2.0.1
Megnyílt az MNSZ2 új felületen, új elemzéssel. Az MNSZ1 187 millió szövegszónyi anyagát tartalmazza.