Ғылым және жоғары білім министрінің бұйрығымен қазақ тілінің ұлттық корпусын қалыптастыру және жүргізу қағидалары бекітілді, деп хабарлайды Zakon.kz.
Қағидалар Қазақ тілі мен лингвистика саласындағы ғылыми, білім беру және практикалық зерттеулер үшін негіз болатын қазақ тілінің ұлттық корпусын құру, толықтыру, өңдеу, сақтау және пайдалану үшін жалпы талаптар мен рәсімдерді белгілейді.
Ұлттық корпусты әзірлеуге, жүргізуге және пайдалануға байланысты барлық жұмыстар деректердің сапасы, қауіпсіздігі мен қолжетімділігінің жоғары деңгейі қамтамасыз етіле отырып, бірыңғай ұлттық тәсіл шеңберінде жүргізіледі.
Ұлттық корпус осы Қағидалардың талаптарына сәйкес келетін корпустар мен ішкорпустар есебінен қалыптасады.
Ұлттық корпусты қалыптастыру оның қызметінің барлық аспектілерін қамтитын мәтіндерді, тілдің әртүрлі салаларда және уақыт кезеңдерінде қолданылу ерекшеліктерін көрсететін жазбаша дереккөздерден бастап ауызша материалдарға дейін мұқият жинаудан және іріктеуден басталады.
Ұлттық корпустағы барлық материалдар ғылыми сапа стандарттарына сәйкес келеді, метадеректері мен дереккөздері болады, грамматикалық және емле қателерінің бар-жоғына тексеріледі, сондай-ақ бірыңғай кодтау және жіктеу жүйесіне сәйкес өңделеді және реттеледі.
Ұлттық корпуста әртүрлі жанрларды, мәтін түрлерін, диалектілер мен стильдерді қоса алғанда лингвистикалық тәжірибелердің алуан түрлілігі көрініс табады, сондай-ақ аймақтық және тарихи ерекшеліктер ескеріледі.
Барлық жиналған мәтіндер жанр, стиль, кезең, дереккөз, лексикалық және грамматикалық деңгейлер бойынша жүйеленеді және аннотациясы беріледі.
Энциклопедиялық және дереккөздік талдау ескеріле отырып, мәтіндер жиналғаннан және аннотацияланғаннан кейін, ғылыми зерттеулерге қажетті мақсатты эмпирикалық тілдік базалар құруға және тілдік технологиялар мен лексикографиялық жобаларды әзірлеуде қолданылатын тіл модельдерін әзірлеуге мүмкіндік беретін лингвистикалық өңдеу және деректерді талдау әдістері қолданылады.
Ұлттық корпустың функциялары:
- Метабелгіленім мәтінді және оның сипаттамаларын, соның ішінде авторларды, тақырыпты, жанрды, дереккөзді, әзірленген күнін, мақсатты аудиторияны, стильді, мәтіннің өлшемін, форматын, құрылымдық ерекшеліктерін егжей-тегжейлі сипаттайтын ақпаратты береді;
- Ұлттық корпустың цифрлық құрылымы мәтіндерді цифрлық форматта жүйелеуді қамтамасыз етеді, бұл заманауи автоматтандырылған талдау құралдарын пайдалануға мүмкіндік береді;
- Ұлттық корпустың көпфункционалдығы оны лингвистикалық зерттеулер, лексикография, тілдерді оқыту және компьютерлік лингвистика және нейролингвистикалық бағдарламалау сияқты әртүрлі салаларда қолдануға мүмкіндік береді;
- Ұлттық корпустың қолданбалы міндеттері мәтінді өңдеуді автоматтандыруға, тілдік модельдердің сапасын жақсартуға, мәтінді талдаудың тиімді құралдарын әзірлеуге, тілдерді оқытуға арналған қосымшалар жасауға, машиналық аудармаға және жасанды интелектті әзірлеуге мүмкіндік береді.
Ұлттық корпусты жүргізу
Ұлттық корпус тілдегі өзгерістер мен әртүрлі салалардағы өзекті жетістіктерді көрсететін жаңа материалдардың енгізілуі арқылы үздіксіз жаңартылып, кеңейтіледі, архивтік нұсқаларының қолжетімдігі қамтамасыз етіледі.
Деректер базасының сапасы мен өзектілігін арттыру үшін халықаралық ғылыми және лингвистикалық ұйымдармен өзара іс-қимыл қамтамасыз етіледі.
Ұлттық корпустың тиімді жұмыс істеуін үйлестіру үшін қажетті білімі мен тәжірибесі бар бейінді мамандардан тұратын жұмыс тобы құрылады.
Ұлттық корпусқа жүктелген барлық материалдар форматтау, емле, пунктуация, стиль және құрылым талаптарына сәйкес келеді.
Ұлттық корпусқа қосу үшін материалдар ұсынатын барлық қатысушылар олардың сапасын, дәлдігін, шынайылығын, өзектілігін қамтамасыз етеді.
Деректердің жоғары сапасын қамтамасыз ету үшін жүйелі түрде мониторинг жүргізіледі.
Ұлттық корпус лексикографиялық және грамматикалық жобаларды, ғылыми және білім беру материалдарын әзірлеуге, сондай-ақ бағдарламалық өнімдерді жасауға негіз болады.
Ұлттық корпусты жүргізу кезінде ақаулар немесе қателер орын алған жағдайда Институт оларды жою үшін шаралар қабылдайды, сондай-ақ Ұлттық корпустың тұрақты және үздіксіз жұмысын қамтамасыз ету үшін бағдарламалық жасақтаманы жаңартып отырады.
Ұлттық корпус тілдегі өзгерістердің, жаңа тенденциялардың, сондай-ақ жаңа жанрлардың, стильдер мен бағыттардың пайда болуы есебінен кеңейеді, бұл оның өзектілігі мен тілдік инновацияларға сәйкестігіне кепілдік береді.
Егер оларды пайдалану авторлық құқықты бұзбаса және әділ пайдалану нормаларына сәйкес келсе, Ұлттық корпусқа ашық және қолжетімді көздерден алынған материалдар енгізілуі мүмкін.
Ұлттық корпус, корпустар пен ішкорпустар жалпыға қолжетімді және барлық мүдделі тараптарға пайдалануға ұсынылады. Ұлттық корпусты жүргізу кезінде кемсітушілік мазмұнға жол бермілмейді және инклюзивтілікті қамтамасыз етуді қоса алғанда, этикалық қағидаттар ескеріледі.
Бұйрық 2025 жылғы 2 шілдеден бастап қолданысқа енгізіледі.