Az
MNSZ v2.0.5 verziója
1,04 milliárd szövegszót tartalmaz. Egyrészt hat stílusrétegből tartalmaz szövegeket, másrészt ezen belül öt regionális nyelvváltozatra oszlik. A vizsgálandó alkorpuszt ezek tetszőleges variációjaként választhatjuk ki. Kiemelendő az önmagában is jelentős, új
76 millió szavas beszéltnyelvi (rádiós) alkorpusz, ez
az MR1 Kossuth rádió bizonyos anyagait öleli fel az 2004-2012 évekből,
felolvasott szöveget (hírek) és spontán beszélgetést (riportok) vegyesen.
Az
MNSZ felépítése a következő (a számszerű adatok millió szóban vannak megadva, százezer szóra kerekítve):
|
magyarországi |
szlovákiai |
kárpátaljai |
erdélyi |
vajdasági |
összesen |
sajtó |
350,5 |
11,6 |
0,7 |
0,6 |
1,5 |
364,8 |
szépirodalom |
77,0 |
2,3 |
0,4 |
0,8 |
0,2 |
80,6 |
tudományos |
112,0 |
3,3 |
0,7 |
1,6 |
0,3 |
117,9 |
hivatalos |
98,0 |
0,2 |
0,3 |
0,6 |
0,1> |
99,0 |
személyes |
300,3 |
– |
0,4 |
0,4 |
0,1> |
301,1 |
beszéltnyelvi |
76,2 |
– |
– |
– |
– |
76,2 |
összesen |
1013,9 |
17,3 |
2,5 |
3,9 |
2,0 |
1039,7 |
A
személyes alkorpusz két részre oszlik:
a
személyes-fórum alkorpusz becsült mérete: 57,9 millió szó;
a
személyes-közösségi alkorpusz becsült mérete: 243,2 millió szó.