Hírek
2023. február 13.
Elindult az MNSZ2 youtube-csatornája, oktatóvideókkal:
https://www.youtube.com/@magyarnemzetiszovegtar
2020. március 9.
Elérhető a
morfoszintaktikai kódok részletes leírása.
2018. június 8. v2.0.5
Kényelmi szolgáltatások és javítások.
- A korábbi verziókban bizonyos xml tagek megjelentek a szövegben. Ezek most strukturális információként kódolódnak, megjelenítésük ki-bekapcsolható.
- Korábban előfordultak alkorpuszon kívüli szövegek, így az alkorpuszok összesítése bizonyos esetekben nem adta ki az összes találati számot. A jelen verzióban minden szöveg alkorpuszhoz van rendelve.
- A közösségi médiából származó anyagban – az anyag természetének megfelelően – sok duplikátum van. Ha a vizsgálathoz fontos a duplikátummentes szöveg, akkor a közösségi médiát ki lehet hagyni. Hogy ezt könnyen megtehessük, a személyes alkorpuszt kettéválasztottuk a közösségi médiát tartalmazó személyes-közösségi és az egyéb szövegeket tartalmazó személyes-fórum alkorpuszra.
- Az írásjelek a korpuszban önálló tokenek, ezért a konkordanciában szóközzel elválasztva külön jelentek meg. Részleges megoldás született arra, hogy az írásjeleket az írott szövegekben szokásosnak megfelelően a szomszédos szóhoz kapcsoljuk, növelve így a konkordancia olvashatóságát. Ez a megjelenítésnél a
<g>
(mint glue, ragasztó) struktúra bekapcsolásával érhető el.
- A beszéltnyelvi (rádiós) alkorpusz elnevezése a korábbi spok helyett beszéltnyelvi lett.
A szöveganyagban a
v2.0.4
verzióhoz képest nem történt változás.
A korábbi kutatások reprodukálhatóságának érdekében
továbbra is elérhető az
MNSZ
v2.0.2
–
v2.0.4
-es verziója is.
2017. október 18.
Elérhetők az
alkorpuszok méretére vonatkozó adatok.
2016. augusztus 29. v2.0.4
A korpusz terjedelme
1,04 milliárd szövegszó (1,348 milliárd token).
2016. február 19. v2.0.3
A korpusz terjedelme 785 millió szövegszó (978 millió token).
A teljes korpusz újraelemezve.
Új információ:
mboundary
mező az
ana
attribútumban,
mely a szóalakban lévő morfémahatárokat tartalmazza,
ebben a formában:
dolgoz+ó+i
.
Új attribútumok:
word_syll
– a szóalak szótagszáma,
lemma_syll
– a szótő szótagszáma.
2014. szeptember 26. v2.0.2
A korpusz terjedelme 587 millió szövegszó (732 millió token).
2014. szeptember 13. v2.0.1
Megnyílt az
MNSZ2 új felületen, új elemzéssel.
Az
MNSZ1 187 millió szövegszónyi anyagát tartalmazza.