ភាសាម៉ាស៊ីន។ ប្រវត្តិសាស្រ្ត ការអភិវឌ្ឍន៍ និងការបង្កើតភាសាវិទ្យាក្នុងការគណនាជាទិសដៅវិទ្យាសាស្ត្រ

ទស្សនវិជ្ជា វិទ្យាល័យសេដ្ឋកិច្ច កម្មវិធីថ្នាក់អនុបណ្ឌិតថ្មីមួយកំពុងត្រូវបានបង្កើតឡើងដើម្បីឧទ្ទិសដល់ភាសាវិទ្យាគណនា៖ វាស្វាគមន៍បេក្ខជនដែលមានការអប់រំជាមូលដ្ឋានផ្នែកមនុស្សធម៌ និងគណិតវិទ្យា និងអ្នកដែលមានចំណាប់អារម្មណ៍ក្នុងការដោះស្រាយបញ្ហានៅក្នុងផ្នែកមួយនៃផ្នែកវិទ្យាសាស្ត្រដ៏ជោគជ័យបំផុត។ អ្នកដឹកនាំរបស់ខ្លួនឈ្មោះ Anastasia Bonch-Osmolovskaya បានប្រាប់ទ្រឹស្ដី និងការអនុវត្តថាតើភាសាវិទ្យាជាអ្វី ហេតុអ្វីបានជាមនុស្សយន្តនឹងមិនជំនួសមនុស្ស និងអ្វីដែលពួកគេនឹងបង្រៀននៅក្នុង ថ្នាក់អនុបណ្ឌិត HSEនៅក្នុងភាសាវិទ្យាគណនា។

កម្មវិធីនេះស្ទើរតែតែមួយគត់នៃប្រភេទរបស់វានៅក្នុងប្រទេសរុស្ស៊ី។ តើអ្នកបានសិក្សាខ្លួនឯងនៅឯណា?

ខ្ញុំបានសិក្សានៅសាកលវិទ្យាល័យ Moscow State នៅនាយកដ្ឋានទ្រឹស្តី និងអនុវត្តភាសាវិទ្យា មហាវិទ្យាល័យ Philology. ខ្ញុំ​មិន​បាន​ទៅ​ទីនោះ​ភ្លាម​ៗ​ទេ​ដំបូង​ខ្ញុំ​ចូល​ទៅ​ សាខារុស្ស៊ីប៉ុន្តែបន្ទាប់មកខ្ញុំបានចាប់អារម្មណ៍យ៉ាងខ្លាំងលើភាសាវិទ្យា ហើយខ្ញុំត្រូវបានទាក់ទាញដោយបរិយាកាសដែលនៅតែមាននៅក្នុងនាយកដ្ឋានរហូតមកដល់សព្វថ្ងៃនេះ។ អ្វី​ដែល​សំខាន់​បំផុត​គឺ​ទំនាក់ទំនង​ល្អ​រវាង​គ្រូ​និង​សិស្ស និង​ការ​ចាប់អារម្មណ៍​ទៅវិញទៅមក​របស់​ពួកគេ។

ពេល​ខ្ញុំ​មាន​កូន ហើយ​ត្រូវ​រក​ប្រាក់​ចិញ្ចឹម​ជីវិត ខ្ញុំ​បាន​ចូល​ប្រឡូក​ក្នុង​វិស័យ​ភាសា​ពាណិជ្ជកម្ម។ នៅឆ្នាំ 2005 វាមិនច្បាស់ទេថាតើតំបន់នៃសកម្មភាពបែបនេះជាអ្វី។ ខ្ញុំបានធ្វើការនៅក្នុងក្រុមហ៊ុនភាសាផ្សេងៗគ្នា៖ ខ្ញុំបានចាប់ផ្តើមជាមួយក្រុមហ៊ុនតូចមួយនៅគេហទំព័រ Public.ru - នេះគឺជាបណ្ណាល័យប្រព័ន្ធផ្សព្វផ្សាយ ដែលខ្ញុំចាប់ផ្តើមធ្វើការជាមួយបច្ចេកវិទ្យាភាសា។ បន្ទាប់មកខ្ញុំបានធ្វើការមួយឆ្នាំនៅ Rosnanotech ជាកន្លែងដែលខ្ញុំមានគំនិតបង្កើតវិបផតថលវិភាគ ដូច្នេះទិន្នន័យនៅលើវានឹងត្រូវបានរៀបចំដោយស្វ័យប្រវត្តិ។ បន្ទាប់មកខ្ញុំបានដឹកនាំផ្នែកភាសានៅក្រុមហ៊ុន Avicomp - នេះគឺជាផលិតកម្មដ៏ធ្ងន់ធ្ងររួចទៅហើយនៅក្នុងវិស័យនេះ។ ភាសាវិទ្យាគណនានិងបច្ចេកវិទ្យា semantic ។ ក្នុងពេលជាមួយគ្នានេះ ខ្ញុំបានបង្រៀនវគ្គសិក្សាភាសាកុំព្យូទ័រនៅសាកលវិទ្យាល័យ Moscow State University ហើយព្យាយាមធ្វើឱ្យវាកាន់តែទំនើប។

ធនធានពីរសម្រាប់អ្នកភាសាវិទ្យា៖ - គេហទំព័រដែលបង្កើតឡើងដោយអ្នកភាសាវិទ្យាសម្រាប់ការស្រាវជ្រាវវិទ្យាសាស្ត្រ និងអនុវត្តទាក់ទងនឹងភាសារុស្សី។ នេះគឺជាគំរូនៃភាសារុស្សី ដែលបង្ហាញដោយជំនួយនៃអត្ថបទដ៏ច្រើនពីប្រភេទ និងសម័យផ្សេងៗគ្នា។ អត្ថបទត្រូវបានផ្តល់ជូនជាមួយនឹងការសម្គាល់ភាសាដែលអាចត្រូវបានប្រើដើម្បីទទួលបានព័ត៌មានអំពីភាពញឹកញាប់នៃបាតុភូតភាសាជាក់លាក់។ Wordnet - មូលដ្ឋានទិន្នន័យ lexical ដ៏ធំមួយ ជា​ភាសាអង់គ្លេស, គំនិត​ចម្បង Wordnet - ដើម្បីភ្ជាប់មិនមែនពាក្យទេប៉ុន្តែអត្ថន័យរបស់វាទៅក្នុងបណ្តាញធំមួយ។ Wordnet អាចត្រូវបានទាញយក និងប្រើប្រាស់សម្រាប់គម្រោងផ្ទាល់ខ្លួនរបស់អ្នក។

តើភាសាវិទ្យាគណនាធ្វើអ្វី?

នេះគឺជាវិស័យអន្តរកម្មច្រើនបំផុត។ អ្វីដែលសំខាន់បំផុតនៅទីនេះគឺត្រូវយល់ពីអ្វីដែលកំពុងកើតឡើងនៅក្នុងពិភពអេឡិចត្រូនិច ហើយអ្នកដែលនឹងជួយអ្នកធ្វើរឿងជាក់លាក់។

យើងត្រូវបានហ៊ុំព័ទ្ធដោយ មួយ​ចំនួន​ធំ​នៃព័ត៌មានឌីជីថល មានគម្រោងអាជីវកម្មជាច្រើនដែលជោគជ័យអាស្រ័យលើដំណើរការព័ត៌មាន គម្រោងទាំងនេះអាចទាក់ទងនឹងទីផ្សារ នយោបាយ សេដ្ឋកិច្ច និងអ្វីក៏ដោយ ។ ហើយវាមានសារៈសំខាន់ខ្លាំងណាស់ដើម្បីអាចគ្រប់គ្រងព័ត៌មាននេះប្រកបដោយប្រសិទ្ធភាព - រឿងសំខាន់គឺមិនត្រឹមតែល្បឿននៃដំណើរការព័ត៌មានប៉ុណ្ណោះទេ ប៉ុន្តែវាក៏ជាភាពងាយស្រួលផងដែរដែលអ្នកអាចធ្វើបាន បន្ទាប់ពីត្រងសំឡេងរំខាន ទទួលបានទិន្នន័យដែលអ្នកត្រូវការ និងបង្កើត រូបភាពពេញលេញពីពួកគេ។

ពីមុន គំនិតសកលមួយចំនួនត្រូវបានផ្សារភ្ជាប់ជាមួយនឹងភាសាវិទ្យាក្នុងការគណនាឧទាហរណ៍៖ មនុស្សគិតថាការបកប្រែដោយម៉ាស៊ីននឹងជំនួសការបកប្រែរបស់មនុស្ស មនុស្សយន្តនឹងធ្វើការជំនួសមនុស្ស។ ប៉ុន្តែឥឡូវនេះវាហាក់បីដូចជា utopia ហើយការបកប្រែតាមម៉ាស៊ីនត្រូវបានប្រើនៅក្នុងម៉ាស៊ីនស្វែងរក ដើម្បីស្វែងរកយ៉ាងឆាប់រហ័សជាភាសាដែលមិនធ្លាប់ស្គាល់។ នោះគឺឥឡូវនេះភាសាវិទ្យាកម្រនឹងដោះស្រាយជាមួយនឹងកិច្ចការអរូបី - ភាគច្រើនជាមួយនឹងរឿងតូចតាចមួយចំនួនដែលអាចបញ្ចូលទៅក្នុងផលិតផលធំមួយ ហើយរកប្រាក់បានពីវា។

មួយ​នៃ កិច្ចការធំភាសាវិទ្យាទំនើប - បណ្តាញន័យវិទ្យា នៅពេលដែលការស្វែងរកកើតឡើងមិនត្រឹមតែដោយចៃដន្យនៃពាក្យប៉ុណ្ណោះទេ ប៉ុន្តែដោយអត្ថន័យ ហើយគេហទំព័រទាំងអស់ត្រូវបានសម្គាល់ដោយអត្ថន័យ។ នេះអាចមានប្រយោជន៍ ជាឧទាហរណ៍ សម្រាប់ប៉ូលីស ឬរបាយការណ៍វេជ្ជសាស្រ្តដែលត្រូវបានសរសេរជារៀងរាល់ថ្ងៃ។ ការវិភាគនៃការតភ្ជាប់ខាងក្នុងផ្តល់នូវព័ត៌មានចាំបាច់ជាច្រើន ហើយវាមានរយៈពេលមិនគួរឱ្យជឿក្នុងការអាន និងគណនាវាដោយដៃ។

សរុបមក យើងមានអត្ថបទមួយពាន់ យើងត្រូវតម្រៀបវាទៅជាគំនរ បង្ហាញអត្ថបទនីមួយៗជារចនាសម្ព័ន្ធ និងទទួលបានតារាងដែលយើងអាចធ្វើការជាមួយបាន។ នេះត្រូវបានគេហៅថាដំណើរការព័ត៌មានគ្មានរចនាសម្ព័ន្ធ។ ម៉្យាងវិញទៀត ភាសាវិទ្យាទាក់ទងនឹងការគណនាជាឧទាហរណ៍ ជាមួយនឹងការបង្កើតអត្ថបទសិប្បនិម្មិត។ មានក្រុមហ៊ុនមួយដែលបានបង្កើតយន្តការសម្រាប់បង្កើតអត្ថបទលើប្រធានបទដែលគួរឱ្យធុញទ្រាន់សម្រាប់មនុស្សម្នាក់ក្នុងការសរសេរអំពី៖ ការផ្លាស់ប្តូរតម្លៃអចលនទ្រព្យ ការព្យាករណ៍អាកាសធាតុ រាយការណ៍អំពី ការប្រកួតបាល់ទាត់. វាមានតម្លៃថ្លៃជាងក្នុងការបញ្ជាទិញអត្ថបទទាំងនេះសម្រាប់មនុស្សម្នាក់ លើសពីនេះ អត្ថបទកុំព្យូទ័រលើប្រធានបទបែបនេះត្រូវបានសរសេរជាភាសាមនុស្សដែលមានភាពស៊ីសង្វាក់គ្នា។

ការអភិវឌ្ឍន៍ក្នុងវិស័យស្វែងរកព័ត៌មានដែលមិនមានរចនាសម្ព័ន្ធនៅក្នុងប្រទេសរុស្ស៊ីត្រូវបានចូលរួមយ៉ាងសកម្មនៅក្នុង "Yandex", "Kaspersky Lab" ជួល។ ក្រុមស្រាវជ្រាវដែលសិក្សា ការរៀនម៉ាស៊ីន. តើមាននរណាម្នាក់នៅក្នុងទីផ្សារកំពុងព្យាយាមបង្កើតអ្វីដែលថ្មីនៅក្នុងវិស័យភាសាវិទ្យាកុំព្យូទ័រមែនទេ?

** សៀវភៅ ភាសាវិទ្យា គណនា៖ **

ដានីយ៉ែល ជូរ៉ាហ្វស្គី ដំណើរការការនិយាយ និងភាសា

Christopher Manning, Prabhakar Raghavan, Heinrich Schütze, ការណែនាំអំពីការទាញយកព័ត៌មាន

Jacob Testelec, "ការណែនាំអំពីវាក្យសម្ព័ន្ធទូទៅ"

ការវិវឌ្ឍន៍ផ្នែកភាសាភាគច្រើនជាកម្មសិទ្ធិរបស់ក្រុមហ៊ុនធំៗ ស្ទើរតែគ្មានអ្វីអាចត្រូវបានរកឃើញនៅក្នុងនោះទេ។ បើកការចូលប្រើ. នេះរារាំងការអភិវឌ្ឍន៍នៃឧស្សាហកម្មនេះ យើងមិនមានទីផ្សារភាសាសេរីទេ ដំណោះស្រាយប្រអប់។

លើសពីនេះទៅទៀតមានការខ្វះខាតពេញលេញ ធនធានព័ត៌មាន. មានគម្រោងដូចជា ស្ថាប័នជាតិនៃភាសារុស្ស៊ី។ នេះគឺជាសាកសពជាតិដ៏ល្អបំផុតមួយនៅក្នុងពិភពលោក ដែលកំពុងអភិវឌ្ឍយ៉ាងឆាប់រហ័ស និងបើកឱកាសដ៏អស្ចារ្យសម្រាប់វិទ្យាសាស្ត្រ និង ការស្រាវជ្រាវដែលបានអនុវត្ត. ភាពខុសគ្នាគឺប្រហែលដូចគ្នាទៅនឹងជីវវិទ្យា - មុននិងក្រោយការស្រាវជ្រាវ DNA ។

ប៉ុន្តែធនធានជាច្រើនមិនមានជាភាសារុស្សីទេ។ ដូច្នេះមិនមាន analogue ទៅនឹងធនធានភាសាអង់គ្លេសដ៏អស្ចារ្យដូចជា Framenet ទេ - នេះគឺជាបណ្តាញគោលគំនិត ដែលការតភ្ជាប់ដែលអាចធ្វើបានទាំងអស់នៃពាក្យជាក់លាក់ជាមួយពាក្យផ្សេងទៀតត្រូវបានបង្ហាញជាផ្លូវការ។ ឧទាហរណ៍មានពាក្យ "ហោះហើរ" - តើអ្នកណាអាចហោះហើរបាន កន្លែងណា ដោយប្រើលេសពាក្យនេះប្រើពាក្យអ្វី វាត្រូវបានផ្សំជាមួយ។ល។ ធនធាននេះជួយភ្ជាប់ភាសាជាមួយ ជីវិត​ពិតនោះគឺដើម្បីតាមដានពីរបៀបដែលពាក្យជាក់លាក់មួយប្រព្រឹត្តនៅកម្រិតនៃ morphology និងវាក្យសម្ព័ន្ធ។ វាមានប្រយោជន៍ណាស់។

បច្ចុប្បន្ន Avicomp កំពុងបង្កើតកម្មវិធីជំនួយ ដើម្បីស្វែងរកអត្ថបទពាក់ព័ន្ធ។ នោះគឺប្រសិនបើអ្នកចាប់អារម្មណ៍លើអត្ថបទខ្លះ អ្នកអាចឃើញប្រវតិ្តនៃគ្រោងនេះយ៉ាងឆាប់រហ័ស៖ នៅពេលដែលប្រធានបទកើតឡើង អ្វីដែលត្រូវបានសរសេរ ហើយនៅពេលណាដែលការចាប់អារម្មណ៍លើបញ្ហានេះមានកម្រិតខ្ពស់បំផុត។ ជាឧទាហរណ៍ ការប្រើប្រាស់កម្មវិធីជំនួយនេះ វានឹងអាចធ្វើទៅបាន ដោយចាប់ផ្តើមពីអត្ថបទស្តីពីព្រឹត្តិការណ៍នៅក្នុងប្រទេសស៊ីរី ដើម្បីមើលយ៉ាងរហ័សពីរបៀប ឆ្នាំមុនព្រឹត្តិការណ៍បានលាតត្រដាងនៅទីនោះ។

តើ​ដំណើរ​ការ​សិក្សា​នៅ​ក្នុង​កម្មវិធី​មេ​នឹង​ត្រូវ​បាន​រៀប​ចំ​ឡើង​ដោយ​របៀប​ណា?

ការអប់រំនៅ HSE ត្រូវបានរៀបចំជាម៉ូឌុលដាច់ដោយឡែក - ដូចនៅក្នុង សាកលវិទ្យាល័យលោកខាងលិច. សិស្សនឹងត្រូវបានបែងចែកទៅជាក្រុមតូចៗ ការចាប់ផ្តើមអាជីវកម្មខ្នាតតូច - នោះគឺនៅចុងបញ្ចប់យើងគួរតែទទួលបានច្រើន។ គម្រោងដែលបានបញ្ចប់. យើង​ចង់​បាន​ផលិតផល​ពិត​ប្រាកដ ដែល​បន្ទាប់​មក​យើង​នឹង​បើក​ឱ្យ​មនុស្ស​ហើយ​ទុក​ជា​សាធារណៈ។

បន្ថែមពីលើអ្នកគ្រប់គ្រងផ្ទាល់នៃគម្រោងសិស្ស យើងចង់ស្វែងរកអ្នកថែរក្សាសម្រាប់ពួកគេពីក្នុងចំណោមពួកគេ។ និយោជកដែលមានសក្តានុពលឧទាហរណ៍ពី "Yandex" ដូចគ្នា អ្នកណាក៏នឹងលេងហ្គេមនេះ ហើយផ្តល់ដំបូន្មានខ្លះដល់សិស្ស។

ខ្ញុំសង្ឃឹមថាមនុស្សមកពីភាគច្រើន តំបន់ផ្សេងគ្នា: អ្នកសរសេរកម្មវិធី, ភាសាវិទូ, សង្គមវិទូ, អ្នកទីផ្សារ។ យើងនឹងមានវគ្គសិក្សាបន្សាំជាច្រើននៅក្នុងភាសាវិទ្យា គណិតវិទ្យា និងកម្មវិធី។ បន្ទាប់មកយើងនឹងមានវគ្គសិក្សាធ្ងន់ធ្ងរចំនួនពីរនៅក្នុងភាសាវិទ្យា ហើយពួកគេនឹងភ្ជាប់ជាមួយនឹងអ្វីដែលពាក់ព័ន្ធបំផុត។ ទ្រឹស្តីភាសាយើងចង់ឱ្យនិស្សិតបញ្ចប់ការសិក្សារបស់យើងអាចអាន និងយល់ពីអត្ថបទភាសាវិទ្យាសហសម័យ។ វាដូចគ្នាជាមួយនឹងគណិតវិទ្យា។ យើងនឹងមានវគ្គសិក្សាមួយដែលមានឈ្មោះថា "មូលដ្ឋានគ្រឹះគណិតវិទ្យានៃភាសាវិទ្យាគណនា" ដែលនឹងបង្ហាញផ្នែកទាំងនោះនៃគណិតវិទ្យាដែលភាសាវិទ្យាកុំព្យូទ័រទំនើបផ្អែកលើ។

ដើម្បីចុះឈ្មោះក្នុងកម្មវិធីអនុបណ្ឌិត អ្នកត្រូវឆ្លងកាត់ ការប្រឡងចូលជាភាសា និងឆ្លងកាត់ការប្រកួតប្រជែងផលប័ត្រ។

បន្ថែមពីលើវគ្គសិក្សាសំខាន់ៗ នឹងមានមុខវិជ្ជាជ្រើសរើស។ យើងបានគ្រោងទុកជាច្រើនវគ្គ - វគ្គពីរគឺផ្តោតលើការសិក្សាស៊ីជម្រៅលើប្រធានបទនីមួយៗ ដែលរួមមានឧទាហរណ៍ ការបកប្រែតាមម៉ាស៊ីន និងភាសារូបវិទ្យា និងនៅលើ ផ្ទុយទៅវិញ វគ្គមួយទាក់ទងនឹងផ្នែកដែលពាក់ព័ន្ធដូចជា៖ បណ្តាញសង្គម ការរៀនម៉ាស៊ីន ឬមនុស្សជាតិឌីជីថល - វគ្គសិក្សាដែលយើងសង្ឃឹមថានឹងត្រូវបានផ្តល់ជូនជាភាសាអង់គ្លេស។

អ្នកភាសាវិទ្យាកុំព្យូទ័របានចូលរួមក្នុងការអភិវឌ្ឍន៍នៃក្បួនដោះស្រាយការទទួលស្គាល់អត្ថបទ និងការនិយាយ ការសំយោគការនិយាយសិប្បនិម្មិត ការបង្កើតប្រព័ន្ធបកប្រែតាមន័យ និងការអភិវឌ្ឍន៍យ៉ាងខ្លាំងនៃបញ្ញាសិប្បនិមិត្ត (ក្នុងន័យបុរាណនៃពាក្យនេះ ជាការជំនួសបញ្ញារបស់មនុស្ស។ ទំនង​ជា​មិន​ធ្លាប់​លេច​ឡើង​ទេ ប៉ុន្តែ​ប្រព័ន្ធ​អ្នក​ជំនាញ​ផ្សេងៗ​ផ្អែក​លើ​ការ​វិភាគ​ទិន្នន័យ)។

ក្បួនដោះស្រាយការទទួលស្គាល់ការនិយាយនឹងត្រូវបានប្រើកាន់តែខ្លាំងឡើងនៅក្នុងជីវិតប្រចាំថ្ងៃ - ផ្ទះឆ្លាតវៃ និងឧបករណ៍អេឡិចត្រូនិកនឹងមិនមានឧបករណ៍បញ្ជាពីចម្ងាយ និងប៊ូតុងនោះទេ ប៉ុន្តែចំណុចប្រទាក់សំឡេងនឹងត្រូវបានប្រើជំនួសវិញ។ បច្ចេកវិទ្យានេះត្រូវបានធ្វើឱ្យល្អឥតខ្ចោះ ប៉ុន្តែនៅតែមានបញ្ហាប្រឈមជាច្រើន៖ វាពិបាកសម្រាប់កុំព្យូទ័រក្នុងការទទួលស្គាល់ការនិយាយរបស់មនុស្ស ព្រោះមនុស្សផ្សេងគ្នានិយាយខុសគ្នាខ្លាំង។ ដូច្នេះជាក្បួន ប្រព័ន្ធទទួលស្គាល់ដំណើរការល្អ ទាំងនៅពេលដែលពួកគេត្រូវបានបណ្តុះបណ្តាលសម្រាប់វាគ្មិនម្នាក់ ហើយបានកែសម្រួលរួចហើយទៅនឹងលក្ខណៈពិសេសនៃការបញ្ចេញសំឡេងរបស់គាត់ ឬនៅពេលដែលចំនួនឃ្លាដែលប្រព័ន្ធអាចទទួលស្គាល់មានកំណត់ (ឧទាហរណ៍ នៅក្នុងពាក្យបញ្ជាសំឡេងសម្រាប់ទូរទស្សន៍។ )

អ្នកឯកទេសក្នុងការបង្កើតកម្មវិធីបកប្រែតាមបែប semantic នៅតែមានការងារជាច្រើនមុនពួកគេ៖ ពេលនេះក្បួនដោះស្រាយល្អត្រូវបានបង្កើតឡើងសម្រាប់តែការបកប្រែទៅជាភាសាអង់គ្លេសប៉ុណ្ណោះ។ មានបញ្ហាជាច្រើននៅទីនេះ - ភាសាផ្សេងគ្នាត្រូវបានរៀបចំខុសគ្នានៅក្នុងផែនការ semantic នេះខុសគ្នាសូម្បីតែនៅកម្រិតនៃការសាងសង់ឃ្លា ហើយមិនមែនគ្រប់អត្ថន័យនៃភាសាមួយអាចត្រូវបានបញ្ជូនដោយប្រើឧបករណ៍ semantic នៃភាសាមួយផ្សេងទៀតនោះទេ។ លើសពីនេះទៀតកម្មវិធីត្រូវតែបែងចែករវាងពាក្យដូចគ្នា, ទទួលស្គាល់ផ្នែកនៃការនិយាយឱ្យបានត្រឹមត្រូវ, ជ្រើសរើស តម្លៃត្រឹមត្រូវ។ពាក្យ polysemantic សមស្របនឹងបរិបទ។

ការសំយោគការនិយាយសិប្បនិម្មិត (ឧទាហរណ៍សម្រាប់មនុស្សយន្តនៅផ្ទះ) ក៏ជាការងារដ៏លំបាកផងដែរ។ វាពិបាកក្នុងការធ្វើឱ្យការនិយាយដែលបង្កើតដោយសិប្បនិម្មិតស្តាប់ទៅធម្មជាតិ ត្រចៀករបស់មនុស្សពីព្រោះវាមានរាប់លានចំនុចដែលយើងមិនយកចិត្តទុកដាក់ ប៉ុន្តែបើគ្មានអ្វីៗទាំងអស់គឺលែងជា "នោះ" - ការចាប់ផ្តើមមិនពិត ការផ្អាក ការប៉ះទង្គិចជាដើម។ ស្ទ្រីមសុន្ទរកថាគឺបន្ត ហើយក្នុងពេលតែមួយដាច់ដោយឡែកពីគ្នា៖ យើងនិយាយដោយមិនផ្អាករវាងពាក្យ ប៉ុន្តែវាមិនមែនជាការលំបាកសម្រាប់យើងក្នុងការយល់ដឹងពីកន្លែងដែលពាក្យមួយបញ្ចប់ និងមួយទៀតចាប់ផ្តើម ហើយសម្រាប់ម៉ាស៊ីន វានឹងជាបញ្ហាធំ។

ទិសដៅដ៏ធំបំផុតនៅក្នុងភាសាវិទ្យាគណនាត្រូវបានភ្ជាប់ជាមួយទិន្នន័យធំ។ យ៉ាងណាមិញ មានសារសំខាន់ៗជាច្រើនដូចជាព័ត៌មានព័ត៌មាន ដែលអ្នកត្រូវញែកព័ត៌មានជាក់លាក់មួយចំនួន ឧទាហរណ៍ រំលេចព្រឹត្តិការណ៍ដែលគួរព័ត៌មាន ឬធ្វើឱ្យ RSS កាន់តែច្បាស់ទៅតាមចំណង់ចំណូលចិត្តរបស់អ្នកប្រើប្រាស់ជាក់លាក់។ បច្ចេកវិទ្យាបែបនេះមានរួចហើយ ហើយនឹងបន្តអភិវឌ្ឍ ពីព្រោះថាមពលកុំព្យូទ័រកំពុងរីកចម្រើនយ៉ាងឆាប់រហ័ស។ ការវិភាគភាសានៃអត្ថបទក៏ត្រូវបានប្រើដើម្បីធានាសុវត្ថិភាពនៅលើអ៊ីនធឺណិត ការស្វែងរក ព័ត៌មានចាំបាច់សម្រាប់សេវាកម្មពិសេស។

កន្លែងដែលត្រូវសិក្សាជាភាសាវិទ្យាកុំព្យូទ័រ? ជាអកុសល យើងមានការបែងចែកយ៉ាងរឹងមាំរវាងឯកទេសទាក់ទងនឹងភាសាបុរាណ និងការសរសេរកម្មវិធី ស្ថិតិ និងការវិភាគទិន្នន័យ។ ហើយដើម្បីក្លាយជាអ្នកភាសាវិទ្យាឌីជីថល អ្នកត្រូវយល់ទាំងពីរ។ អេ សាកលវិទ្យាល័យបរទេសមានកម្មវិធីឧត្តមសិក្សាផ្នែកភាសាវិទ្យា ប៉ុន្តែយើងនៅតែមាន ជម្រើសល្អបំផុត- ទទួលបានការអប់រំផ្នែកភាសាមូលដ្ឋាន បន្ទាប់មកធ្វើជាម្ចាស់លើមូលដ្ឋាននៃ IT ។ វាជាការល្អដែលឥឡូវនេះមានវគ្គសិក្សាតាមអ៊ីនធឺណិតផ្សេងៗគ្នាជាច្រើន ជាអកុសលនៅក្នុងថ្ងៃសិស្សរបស់ខ្ញុំ វាមិនមែនជាករណីនោះទេ។ ខ្ញុំបានសិក្សានៅមហាវិទ្យាល័យភាសាវិទ្យាអនុវត្តនៅសាកលវិទ្យាល័យ Moscow State Linguistic University ជាកន្លែងដែលយើងមានវគ្គសិក្សាផ្នែកបញ្ញាសិប្បនិម្មិត និងការទទួលស្គាល់ការនិយាយ ប៉ុន្តែនៅតែមិនគ្រប់គ្រាន់។ ឥឡូវនេះក្រុមហ៊ុន IT កំពុងព្យាយាមយ៉ាងសកម្មក្នុងការប្រាស្រ័យទាក់ទងជាមួយស្ថាប័ននានា។ សហការីរបស់ខ្ញុំមកពី Kaspersky Lab ហើយខ្ញុំក៏ព្យាយាមចូលរួមផងដែរ។ ដំណើរការអប់រំ៖ យើងផ្តល់ការបង្រៀន ធ្វើសន្និសីទនិស្សិត ផ្តល់ជំនួយដល់និស្សិតបញ្ចប់ការសិក្សា។ ប៉ុន្តែ​សម្រាប់​ពេល​នេះ ការ​ផ្ដួចផ្ដើម​នេះ​បាន​មក​ពី​និយោជក​ច្រើន​ជាង​មក​ពី​សាកលវិទ្យាល័យ។

វគ្គសិក្សា

នៅក្នុងមុខវិជ្ជា "ព័ត៌មានវិទ្យា"

លើប្រធានបទ៖ "ភាសាវិទ្យាកុំព្យូទ័រ"


ការណែនាំ

2. ចំណុចប្រទាក់ទំនើបនៃភាសាវិទ្យាគណនា

សេចក្តីសន្និដ្ឋាន

អក្សរសាស្ត្រ


សេចក្តីផ្តើម

បច្ចេកវិទ្យាព័ត៌មានស្វ័យប្រវត្តិដើរតួនាទីយ៉ាងសំខាន់ក្នុងជីវិតនៃសង្គមទំនើប។ ជាមួយនឹងការឆ្លងកាត់នៃពេលវេលាតម្លៃរបស់ពួកគេកើនឡើងជាបន្តបន្ទាប់។ ប៉ុន្តែ​ការ​អភិវឌ្ឍ​នៃ​បច្ចេកវិទ្យា​ព័ត៌មាន​គឺ​មិន​ស្មើ​គ្នា​ខ្លាំង​ទេ៖ បើ កម្រិតទំនើបបច្ចេកវិជ្ជាកុំព្យូទ័រ និងមធ្យោបាយទំនាក់ទំនងធ្វើឱ្យមានការស្រមើលស្រមៃ បន្ទាប់មកនៅក្នុងវិស័យដំណើរការព័ត៌មានតាមន័យធៀប ភាពជោគជ័យគឺមានលក្ខណៈតិចតួចជាង។ ជាដំបូង ជោគជ័យទាំងនេះអាស្រ័យទៅលើសមិទ្ធិផលក្នុងការសិក្សាអំពីដំណើរការនៃការគិតរបស់មនុស្ស ដំណើរការនៃការទំនាក់ទំនងការនិយាយរវាងមនុស្ស និងលើសមត្ថភាពក្នុងការក្លែងធ្វើដំណើរការទាំងនេះនៅលើកុំព្យូទ័រ។

នៅពេលដែលវាមកដល់ការបង្កើតបច្ចេកវិទ្យាព័ត៌មានដ៏ជោគជ័យ បញ្ហានៃដំណើរការដោយស្វ័យប្រវត្តិ ព័ត៌មានអត្ថបទបង្ហាញ​ជា​ភាសា​ធម្មជាតិ​មក​ដល់​មុខ។ នេះត្រូវបានកំណត់ដោយការពិតដែលថាការគិតរបស់មនុស្សមានទំនាក់ទំនងយ៉ាងជិតស្និទ្ធជាមួយនឹងភាសារបស់គាត់។ ជាងនេះទៅទៀត ភាសាធម្មជាតិគឺជាឧបករណ៍នៃការគិត។ គាត់ក៏ជា ឱសថសកលការប្រាស្រ័យទាក់ទងគ្នារវាងមនុស្ស - មធ្យោបាយនៃការយល់ឃើញ ការប្រមូលផ្តុំ ការផ្ទុក ដំណើរការ និងការបញ្ជូនព័ត៌មាន។ បញ្ហានៃការប្រើប្រាស់ភាសាធម្មជាតិនៅក្នុងប្រព័ន្ធដំណើរការព័ត៌មានដោយស្វ័យប្រវត្តិត្រូវបានដោះស្រាយដោយវិទ្យាសាស្រ្តនៃភាសាកុំព្យូទ័រ។ វិទ្យាសាស្រ្តនេះបានកើតឡើងថ្មីៗនេះ - នៅវេននៃហាសិបនិងហុកសិបនៃសតវត្សទីចុងក្រោយ។ ជាងពាក់កណ្តាលសតវត្សកន្លងមកនេះ លទ្ធផលវិទ្យាសាស្ត្រ និងជាក់ស្តែងសំខាន់ៗត្រូវបានទទួលនៅក្នុងវិស័យភាសាវិទ្យាគណនា៖ ប្រព័ន្ធ ការបកប្រែម៉ាស៊ីនអត្ថបទពីភាសាធម្មជាតិមួយទៅភាសាមួយទៀត ប្រព័ន្ធសម្រាប់ការស្វែងរកដោយស្វ័យប្រវត្តិសម្រាប់ព័ត៌មាននៅក្នុងអត្ថបទ ប្រព័ន្ធសម្រាប់ការវិភាគដោយស្វ័យប្រវត្តិ និងការសំយោគការនិយាយផ្ទាល់មាត់ និងអ្នកផ្សេងទៀតជាច្រើន។ ការងារ​នេះត្រូវបានឧទ្ទិសដល់ការសាងសង់ចំណុចប្រទាក់កុំព្យូទ័រដ៏ល្អប្រសើរដោយប្រើភាសាវិទ្យាគណនានៅពេលដំណើរការ ការស្រាវជ្រាវភាសា.


1. ទីកន្លែង និងតួនាទីនៃភាសាវិទ្យាគណនាក្នុងការស្រាវជ្រាវភាសា

អេ ពិភពលោកទំនើបភាសាវិទ្យាកំពុងត្រូវបានប្រើប្រាស់កាន់តែខ្លាំងឡើងនៅក្នុងការសិក្សាភាសាផ្សេងៗ។

ភាសាវិទ្យាកុំព្យូទ័រគឺជាវិស័យចំណេះដឹងដែលទាក់ទងនឹងការដោះស្រាយបញ្ហានៃដំណើរការដោយស្វ័យប្រវត្តិនៃព័ត៌មានដែលបង្ហាញជាភាសាធម្មជាតិ។ កណ្តាល បញ្ហាវិទ្យាសាស្ត្រភាសាកុំព្យូទ័រគឺជាបញ្ហានៃការបង្កើតគំរូដំណើរការនៃការយល់ពីអត្ថន័យនៃអត្ថបទ (ការផ្លាស់ប្តូរពីអត្ថបទទៅជាតំណាងផ្លូវការនៃអត្ថន័យរបស់វា) និងបញ្ហានៃការសំយោគការនិយាយ (ការផ្លាស់ប្តូរពីតំណាងផ្លូវការនៃអត្ថន័យទៅអត្ថបទជាភាសាធម្មជាតិ) ។ បញ្ហាទាំងនេះកើតឡើងនៅពេលដោះស្រាយបញ្ហាដែលបានអនុវត្តមួយចំនួន ហើយជាពិសេសបញ្ហានៃការរកឃើញដោយស្វ័យប្រវត្តិ និងការកែកំហុសនៅពេលបញ្ចូលអត្ថបទទៅក្នុងកុំព្យូទ័រ ការវិភាគដោយស្វ័យប្រវត្តិ និងការសំយោគការនិយាយផ្ទាល់មាត់ ការបកប្រែអត្ថបទដោយស្វ័យប្រវត្តិពីភាសាមួយទៅភាសាមួយទៀត ការប្រាស្រ័យទាក់ទងជាមួយ កុំព្យូទ័រជាភាសាធម្មជាតិ ការចាត់ថ្នាក់ដោយស្វ័យប្រវត្តិ និងការធ្វើលិបិក្រមនៃឯកសារអត្ថបទ ការយោងដោយស្វ័យប្រវត្តិរបស់ពួកគេ ការស្វែងរកឯកសារនៅក្នុងមូលដ្ឋានទិន្នន័យអត្ថបទពេញលេញ។

ឧបករណ៍ភាសាដែលបានបង្កើត និងប្រើប្រាស់ក្នុងភាសាវិទ្យាគណនាអាចបែងចែកតាមលក្ខខណ្ឌជាពីរផ្នែក៖ ប្រកាស និងនីតិវិធី។ ផ្នែកប្រកាសរួមមានវចនានុក្រមនៃឯកតាភាសា និងការនិយាយ អត្ថបទ និងប្រភេទផ្សេងៗនៃតារាងវេយ្យាករណ៍ ខណៈដែលផ្នែកនីតិវិធីរួមមានមធ្យោបាយនៃការរៀបចំភាសា និងការនិយាយ អត្ថបទ និងតារាងវេយ្យាករណ៍។ ចំណុចប្រទាក់កុំព្យូទ័រសំដៅលើផ្នែកនីតិវិធីនៃភាសាវិទ្យាគណនា។

ភាពជោគជ័យក្នុងការដោះស្រាយបញ្ហាដែលបានអនុវត្តនៃភាសាវិទ្យាគណនាគឺអាស្រ័យទៅលើភាពពេញលេញ និងភាពត្រឹមត្រូវនៃការតំណាងនៃមធ្យោបាយប្រកាសនៅក្នុងអង្គចងចាំកុំព្យូទ័រ និងលើគុណភាពនៃមធ្យោបាយនីតិវិធី។ រហូតមកដល់ពេលនេះ កម្រិតដែលត្រូវការនៃការដោះស្រាយបញ្ហាទាំងនេះមិនទាន់សម្រេចបាននៅឡើយទេ ទោះបីជាការងារក្នុងវិស័យភាសាវិទ្យាកំពុងត្រូវបានអនុវត្តនៅក្នុងគ្រប់ផ្នែកក៏ដោយ។ ប្រទេសអភិវឌ្ឍន៍ពិភពលោក (រុស្ស៊ី សហរដ្ឋអាមេរិក អង់គ្លេស បារាំង អាល្លឺម៉ង់ ជប៉ុន ។ល។)

ទោះជាយ៉ាងណាក៏ដោយ សមិទ្ធិផលវិទ្យាសាស្ត្រ និងជាក់ស្តែងដ៏ធ្ងន់ធ្ងរនៅក្នុងវិស័យភាសាវិទ្យាអាចត្រូវបានគេកត់សម្គាល់។ ដូច្នេះនៅក្នុងប្រទេសមួយចំនួន (រុស្ស៊ី សហរដ្ឋអាមេរិក ជប៉ុន។ល។) ប្រព័ន្ធពិសោធន៍ និងឧស្សាហកម្មសម្រាប់ការបកប្រែអត្ថបទដោយម៉ាស៊ីនពីភាសាមួយទៅភាសាមួយទៀតត្រូវបានបង្កើតឡើង ប្រព័ន្ធពិសោធន៍មួយចំនួនសម្រាប់ទំនាក់ទំនងជាមួយកុំព្យូទ័រជាភាសាធម្មជាតិត្រូវបានបង្កើតឡើង។ , ការងារកំពុងដំណើរការដើម្បីបង្កើតធនាគារទិន្នន័យ វេយ្យាករណ៍ វេយ្យាករណ៍ វចនានុក្រមម៉ាស៊ីនពីរភាសា និងពហុភាសា (រុស្ស៊ី សហរដ្ឋអាមេរិក អាឡឺម៉ង់ បារាំង។ .), ការស្រាវជ្រាវកំពុងដំណើរការក្នុងវិស័យកសាងគំរូនៃភាសាធម្មជាតិ។

បញ្ហាវិធីសាស្រ្តដ៏សំខាន់មួយនៃភាសាវិទ្យាដែលបានអនុវត្តគឺការវាយតម្លៃត្រឹមត្រូវនៃការជាប់ទាក់ទងគ្នាចាំបាច់រវាងធាតុផ្សំនៃសេចក្តីប្រកាស និងនីតិវិធីនៃប្រព័ន្ធដំណើរការដោយស្វ័យប្រវត្តិព័ត៌មានអត្ថបទ។ តើអ្វីដែលគួរពេញចិត្ត៖ នីតិវិធីគណនាដ៏មានឥទ្ធិពលដោយផ្អែកលើប្រព័ន្ធវាក្យសព្ទតូចដែលមានព័ត៌មានវេយ្យាករណ៍ និងអត្ថន័យដ៏សម្បូរបែប ឬសមាសធាតុប្រកាសដ៏មានអានុភាពជាមួយនឹងចំណុចប្រទាក់កុំព្យូទ័រសាមញ្ញ? អ្នកវិទ្យាសាស្ត្រភាគច្រើនជឿថាវិធីទីពីរគឺល្អជាង។ វានឹងនាំទៅរកការសម្រេចបាននូវគោលដៅជាក់ស្តែងកាន់តែលឿន ដោយហេតុថាក្នុងករណីនេះ វានឹងមានផ្លូវស្លាប់ និងឧបសគ្គតិចជាងមុន ដែលពិបាកនឹងយកឈ្នះ ហើយនៅទីនេះ វានឹងអាចប្រើកុំព្យូទ័រក្នុងទ្រង់ទ្រាយធំដើម្បីធ្វើការស្រាវជ្រាវ និងការអភិវឌ្ឍន៍ដោយស្វ័យប្រវត្តិ។

តម្រូវការក្នុងការកៀងគរកិច្ចខិតខំប្រឹងប្រែង ជាចម្បងលើការអភិវឌ្ឍន៍សមាសធាតុប្រកាសនៃប្រព័ន្ធដំណើរការអត្ថបទដោយស្វ័យប្រវត្តិត្រូវបានបញ្ជាក់ដោយបទពិសោធន៍ពាក់កណ្តាលសតវត្សន៍ក្នុងការអភិវឌ្ឍន៍ភាសាកុំព្យូទ័រ។ យ៉ាងណាមិញ នៅទីនេះ ថ្វីបើជោគជ័យដែលមិនអាចប្រកែកបាននៃវិទ្យាសាស្ត្រនេះក៏ដោយ ភាពរីករាយចំពោះនីតិវិធីក្បួនដោះស្រាយមិនបាននាំមកនូវភាពជោគជ័យដែលរំពឹងទុកនោះទេ។ មានការខកចិត្តខ្លះចំពោះលទ្ធភាពនៃមធ្យោបាយនីតិវិធី។

នៅក្នុងពន្លឺនៃអ្វីដែលបានរៀបរាប់ខាងលើ មាគ៌ានៃការអភិវឌ្ឍន៍ភាសាកុំព្យូទ័រហាក់ដូចជាមានជោគជ័យ នៅពេលដែលកិច្ចខិតខំប្រឹងប្រែងសំខាន់ៗនឹងត្រូវបានដឹកនាំទៅការបង្កើតវចនានុក្រមដ៏មានអានុភាពនៃឯកតានៃភាសា និងការនិយាយ ការសិក្សាអំពីរចនាសម្ព័ន្ធន័យវិទ្យា-សក្ការកម្ម និងការបង្កើត នីតិវិធីជាមូលដ្ឋានសម្រាប់ការវិភាគ morphological, semantic-syntactic និងគំនិត និងការសំយោគនៃអត្ថបទ។ នេះនឹងធ្វើឱ្យវាអាចដោះស្រាយបញ្ហាដែលបានអនុវត្តយ៉ាងទូលំទូលាយនាពេលអនាគត។

មុខជំនាញភាសាវិទ្យា ជាដំបូងភារកិច្ចនៃការគាំទ្រភាសាសម្រាប់ដំណើរការប្រមូល ប្រមូល ដំណើរការ និងស្វែងរកព័ត៌មាន។ សំខាន់បំផុតក្នុងចំនោមពួកគេគឺ៖

1. ស្វ័យប្រវត្តិកម្មនៃការចងក្រង និងដំណើរការភាសានៃវចនានុក្រមម៉ាស៊ីន;

2. ស្វ័យប្រវត្តិកម្មនៃដំណើរការស្វែងរក និងកែកំហុសនៅពេលបញ្ចូលអត្ថបទទៅក្នុងកុំព្យូទ័រ។

3. ការធ្វើលិបិក្រមដោយស្វ័យប្រវត្តិនៃឯកសារ និងសំណើព័ត៌មាន;

4. ការចាត់ថ្នាក់ដោយស្វ័យប្រវត្តិ និងការយោងឯកសារ;

5. ការគាំទ្រផ្នែកភាសានៃដំណើរការស្វែងរកព័ត៌មាននៅក្នុងមូលដ្ឋានទិន្នន័យពហុភាសា និងពហុភាសា។

6. ការបកប្រែដោយម៉ាស៊ីននៃអត្ថបទពីភាសាធម្មជាតិមួយទៅភាសាមួយទៀត;

7. ការសាងសង់ឧបករណ៍ដំណើរការភាសាដែលផ្តល់ឱ្យអ្នកប្រើប្រាស់នូវការប្រាស្រ័យទាក់ទងជាមួយប្រព័ន្ធព័ត៌មានឆ្លាតវៃស្វ័យប្រវត្តិ (ជាពិសេសជាមួយប្រព័ន្ធអ្នកជំនាញ) ជាភាសាធម្មជាតិ ឬជាភាសាដែលជិតស្និទ្ធនឹងធម្មជាតិ។

8. ការដកស្រង់ព័ត៌មានពិតចេញពីអត្ថបទមិនផ្លូវការ។

ចូរយើងពិភាក្សាលម្អិតអំពីបញ្ហាដែលពាក់ព័ន្ធបំផុតចំពោះប្រធានបទស្រាវជ្រាវ។

អេ សកម្មភាពជាក់ស្តែងមជ្ឈមណ្ឌលព័ត៌មាន មានតំរូវការក្នុងការដោះស្រាយបញ្ហានៃការរកឃើញដោយស្វ័យប្រវត្តិ និងការកែកំហុសក្នុងអត្ថបទ នៅពេលដែលពួកវាត្រូវបានបញ្ចូលទៅក្នុងកុំព្យូទ័រ។ កិច្ចការស្មុគ្រស្មាញនេះអាចបែងចែកតាមលក្ខខណ្ឌជាបីកិច្ចការគឺ កិច្ចការអក្ខរាវិរុទ្ធ វាក្យសម្ព័ន្ធ និងការគ្រប់គ្រងអត្ថបទ។ ទីមួយនៃពួកវាអាចត្រូវបានដោះស្រាយដោយប្រើនីតិវិធីវិភាគ morphological ដែលប្រើវចនានុក្រមម៉ាស៊ីនយោងដ៏មានឥទ្ធិពលនៃពាក្យដើម។ នៅក្នុងដំណើរការនៃការត្រួតពិនិត្យអក្ខរាវិរុទ្ធពាក្យនៃអត្ថបទត្រូវបានទទួលរងនូវការវិភាគ morphological ហើយប្រសិនបើមូលដ្ឋានរបស់ពួកគេត្រូវបានកំណត់អត្តសញ្ញាណជាមួយនឹងមូលដ្ឋាននៃវចនានុក្រមយោងនោះពួកគេត្រូវបានចាត់ទុកថាត្រឹមត្រូវ; ប្រសិនបើពួកគេមិនត្រូវបានគេកំណត់អត្តសញ្ញាណទេ នោះពួកវា អមដោយបរិបទមីក្រូ ត្រូវបានផ្តល់ឱ្យសម្រាប់មើលដោយមនុស្សម្នាក់។ មនុស្សម្នាក់រកឃើញ និងកែពាក្យដែលបំភ្លៃ ហើយប្រព័ន្ធសូហ្វវែរដែលត្រូវគ្នាធ្វើការកែតម្រូវទាំងនេះចំពោះអត្ថបទដែលបានកែ។

ភារកិច្ចនៃការគ្រប់គ្រងវាក្យសម្ព័ន្ធនៃអត្ថបទដើម្បីរកមើលកំហុសនៅក្នុងពួកវាគឺពិបាកជាងភារកិច្ចនៃការគ្រប់គ្រងអក្ខរាវិរុទ្ធរបស់ពួកគេ។ ទីមួយ ដោយសារវារួមបញ្ចូលនៅក្នុងសមាសភាពរបស់វា ភារកិច្ចនៃការគ្រប់គ្រងអក្ខរាវិរុទ្ធជាសមាសភាគចាំបាច់របស់វា ហើយទីពីរ ដោយសារតែបញ្ហានៃការវិភាគវាក្យសម្ព័ន្ធនៃអត្ថបទដែលមិនមែនជាផ្លូវការមិនទាន់ត្រូវបានដោះស្រាយពេញលេញនៅឡើយ។ ទោះជាយ៉ាងណាក៏ដោយ ការគ្រប់គ្រងវាក្យសម្ព័ន្ធមួយផ្នែកនៃអត្ថបទគឺពិតជាអាចធ្វើទៅបាន។ មានវិធីពីរយ៉ាងដើម្បីទៅទីនេះ៖ ទាំងដើម្បីចងក្រងវចនានុក្រមម៉ាស៊ីនតំណាងឱ្យបានគ្រប់គ្រាន់នៃរចនាសម្ព័ន្ធវាក្យសម្ព័ន្ធយោង និងប្រៀបធៀបរចនាសម្ព័ន្ធវាក្យសម្ព័ន្ធនៃអត្ថបទដែលបានវិភាគជាមួយពួកគេ។ ឬបង្កើតប្រព័ន្ធស្មុគស្មាញនៃច្បាប់សម្រាប់ពិនិត្យមើលភាពស៊ីសង្វាក់នៃវេយ្យាករណ៍នៃធាតុអត្ថបទ។ វិធីទី 1 ហាក់ដូចជាយើងកាន់តែមានសង្ឃឹម ទោះបីជាជាការពិតក៏ដោយ វាមិនរាប់បញ្ចូលលទ្ធភាពនៃការប្រើប្រាស់ធាតុនៃវិធីទីពីរនោះទេ។ រចនាសម្ព័ន្ធវាក្យសម្ព័ន្ធនៃអត្ថបទគួរតែត្រូវបានពិពណ៌នានៅក្នុងលក្ខខណ្ឌនៃថ្នាក់វេយ្យាករណ៍នៃពាក្យ (កាន់តែច្បាស់នៅក្នុងទម្រង់នៃលំដាប់នៃសំណុំព័ត៌មានវេយ្យាករណ៍សម្រាប់ពាក្យ) ។

ភារកិច្ចនៃការគ្រប់គ្រង semantic នៃអត្ថបទដើម្បីស្វែងរកកំហុស semantic នៅក្នុងពួកវាគួរតែត្រូវបានកំណត់គុណលក្ខណៈថ្នាក់នៃភារកិច្ចបញ្ញាសិប្បនិម្មិត។ សរុបមក វាអាចដោះស្រាយបានតែលើមូលដ្ឋាននៃគំរូនៃដំណើរការនៃការគិតរបស់មនុស្សប៉ុណ្ណោះ។ ក្នុងពេលជាមួយគ្នានេះ ជាក់ស្តែង វានឹងចាំបាច់ក្នុងការបង្កើតមូលដ្ឋានចំណេះដឹងសព្វវចនាធិប្បាយដ៏មានអានុភាព និងឧបករណ៍កម្មវិធីសម្រាប់រៀបចំចំណេះដឹង។ យ៉ាង​ណា​ក៏​ដោយ សម្រាប់​មុខ​វិជ្ជា​មាន​កម្រិត និង​សម្រាប់​ព័ត៌មាន​ផ្លូវការ បញ្ហា​នេះ​គឺ​អាច​ដោះស្រាយ​បាន​ណាស់។ វាគួរតែត្រូវបានដាក់និងដោះស្រាយជាភារកិច្ចនៃការគ្រប់គ្រង semantic-syntactic នៃអត្ថបទ។

បញ្ហានៃការធ្វើលិបិក្រមនៃឯកសារ និងសំណួរដោយស្វ័យប្រវត្តិគឺជាទម្លាប់សម្រាប់ប្រព័ន្ធស្វែងរកអត្ថបទដោយស្វ័យប្រវត្តិ។ ដំបូងឡើយ ការធ្វើលិបិក្រមត្រូវបានគេយល់ថាជាដំណើរការនៃការចាត់ថ្នាក់ចំណាត់ថ្នាក់ទៅឯកសារ និងសំណួរ ដែលឆ្លុះបញ្ចាំងពីខ្លឹមសារប្រធានបទរបស់ពួកគេ។ នៅពេលអនាគត គំនិតនេះត្រូវបានផ្លាស់ប្តូរ ហើយពាក្យ "ការធ្វើលិបិក្រម" បានចាប់ផ្តើមសំដៅទៅលើដំណើរការនៃការបកប្រែការពិពណ៌នានៃឯកសារ និងសំណួរពីភាសាធម្មជាតិទៅជាទម្រង់ផ្លូវការ ជាពិសេសទៅជាភាសានៃ "រូបភាពស្វែងរក"។ រូបភាពនៃការស្វែងរកឯកសារបានចាប់ផ្តើមជាក្បួនដែលត្រូវបានធ្វើឡើងក្នុងទម្រង់នៃបញ្ជីពាក្យគន្លឹះ និងឃ្លាដែលឆ្លុះបញ្ចាំងពីខ្លឹមសារប្រធានបទរបស់ពួកគេ ហើយស្វែងរករូបភាពនៃសំណួរ - ក្នុងទម្រង់នៃរចនាសម្ព័ន្ធឡូជីខល ដែលពាក្យគន្លឹះ និងឃ្លាត្រូវបានភ្ជាប់ទៅគ្នាទៅវិញទៅមក។ ដោយប្រតិបត្តិករឡូជីខល និងវាក្យសម្ព័ន្ធ។

ការធ្វើលិបិក្រមដោយស្វ័យប្រវត្តិនៃឯកសារគឺមានភាពងាយស្រួលក្នុងការអនុវត្តយោងទៅតាមអត្ថបទនៃអរូបីរបស់ពួកគេ (ប្រសិនបើមាន) ដោយសារខ្លឹមសារសំខាន់នៃឯកសារត្រូវបានឆ្លុះបញ្ចាំងនៅក្នុងអរូបីក្នុងទម្រង់ប្រមូលផ្តុំ។ ការធ្វើលិបិក្រមអាចត្រូវបានធ្វើដោយមានឬគ្មានការគ្រប់គ្រងវាក្យសព្ទ។ ក្នុងករណីដំបូង ពាក្យគន្លឹះ និងឃ្លានៃវចនានុក្រមម៉ាស៊ីនយោងត្រូវបានស្វែងរកនៅក្នុងអត្ថបទចំណងជើងនៃឯកសារ និងអរូបីរបស់វា ហើយមានតែពាក្យដែលរកឃើញនៅក្នុងវចនានុក្រមប៉ុណ្ណោះដែលត្រូវបានបញ្ចូលក្នុង DOD ។ ក្នុងករណីទីពីរ ពាក្យគន្លឹះ និងឃ្លាត្រូវបានស្រង់ចេញពីអត្ថបទ ហើយបញ្ចូលក្នុង POD ដោយមិនគិតថាវាជារបស់វចនានុក្រមយោងណាមួយឡើយ។ ជម្រើសទីបីក៏ត្រូវបានអនុវត្តផងដែរ ដែលរួមជាមួយនឹងលក្ខខណ្ឌពីកម្រងវេវចនៈរបស់ម៉ាស៊ីន AML ក៏បានរួមបញ្ចូលពាក្យដែលដកស្រង់ចេញពីចំណងជើង និងប្រយោគទីមួយនៃអរូបីនៃឯកសារ។ ការពិសោធន៍បានបង្ហាញថា PODs ចងក្រងដោយស្វ័យប្រវត្តិដោយផ្អែកលើចំណងជើង និងអរូបីនៃឯកសារផ្តល់នូវភាពពេញលេញនៃការស្វែងរកជាង PODs ដែលបានចងក្រងដោយដៃ។ នេះត្រូវបានពន្យល់ដោយការពិតដែលថាប្រព័ន្ធធ្វើលិបិក្រមដោយស្វ័យប្រវត្តិឆ្លុះបញ្ចាំងយ៉ាងពេញលេញនូវទិដ្ឋភាពផ្សេងៗនៃខ្លឹមសារនៃឯកសារជាងប្រព័ន្ធធ្វើលិបិក្រមដោយដៃ។

ជាមួយនឹងការធ្វើលិបិក្រមដោយស្វ័យប្រវត្តិនៃសំណួរ ប្រហែលជាបញ្ហាដូចគ្នាកើតឡើងដូចនឹងការធ្វើលិបិក្រមដោយស្វ័យប្រវត្តិនៃឯកសារ។ នៅទីនេះអ្នកក៏ត្រូវទាញយកពាក្យគន្លឹះ និងឃ្លាចេញពីអត្ថបទ ហើយធ្វើឱ្យពាក្យធម្មតាដែលរួមបញ្ចូលក្នុងអត្ថបទសំណួរ។ តំណភ្ជាប់ឡូជីខលរវាងពាក្យគន្លឹះ និងឃ្លា និងប្រតិបត្តិករបរិបទអាចត្រូវបានបញ្ចូលដោយដៃ ឬដោយប្រើនីតិវិធីស្វ័យប្រវត្តិ។ ធាតុសំខាន់មួយ។ដំណើរការនៃការធ្វើលិបិក្រមដោយស្វ័យប្រវត្តិនៃសំណួរគឺការបន្ថែមពាក្យគន្លឹះ និងឃ្លារបស់វាជាមួយនឹងសទិសន័យ និងសម្មតិនាមរបស់វា (ជួនកាលក៏មាន hypernyms និងពាក្យផ្សេងទៀតដែលទាក់ទងនឹងពាក្យដើមនៃសំណួរ)។ នេះអាចត្រូវបានធ្វើដោយស្វ័យប្រវត្តិ ឬអន្តរកម្មដោយប្រើកម្រងវេវចនៈម៉ាស៊ីន។

យើងបានពិចារណាមួយផ្នែករួចហើយអំពីបញ្ហានៃស្វ័យប្រវត្តិកម្មនៃការស្វែងរកព័ត៌មានឯកសារទាក់ទងនឹងកិច្ចការនៃការបង្កើតលិបិក្រមដោយស្វ័យប្រវត្តិ។ ការសន្យាបំផុតនៅទីនេះគឺការស្វែងរកឯកសារដោយអត្ថបទពេញលេញរបស់ពួកគេ ចាប់តាំងពីការប្រើប្រាស់គ្រប់ប្រភេទនៃការជំនួសសម្រាប់គោលបំណងនេះ (ការពិពណ៌នាគន្ថនិទ្ទេស ការស្វែងរករូបភាពនៃឯកសារ និងអត្ថបទនៃអរូបីរបស់ពួកគេ) នាំឱ្យបាត់បង់ព័ត៌មានក្នុងអំឡុងពេលស្វែងរក។ ការខាតបង់ដ៏ធំបំផុតកើតឡើងនៅពេលដែលការពិពណ៌នាគន្ថនិទ្ទេសរបស់ពួកគេត្រូវបានប្រើជាឯកសារជំនួសសម្រាប់ឯកសារបឋម ដែលតូចបំផុត - នៅពេលដែលអរូបីត្រូវបានប្រើ។

លក្ខណៈសំខាន់ៗគុណភាពនៃការទាញយកព័ត៌មានគឺភាពពេញលេញ និងភាពត្រឹមត្រូវរបស់វា។ ភាពពេញលេញនៃការស្វែងរកអាចធានាបានដោយគិតគូរឱ្យបានច្រើនតាមដែលអាចធ្វើទៅបាន ការតភ្ជាប់តាមលំនាំរវាងឯកតានៃភាសា និងការនិយាយ (ពាក្យ និងឃ្លា) និងភាពត្រឹមត្រូវ ដោយគិតគូរពីការតភ្ជាប់វាក្យសម្ព័ន្ធរបស់ពួកគេ។ មានមតិមួយថា ភាពពេញលេញ និងភាពត្រឹមត្រូវនៃការស្វែងរកគឺទាក់ទងបញ្ច្រាស់គ្នា៖ វិធានការដើម្បីកែលម្អលក្ខណៈមួយក្នុងចំណោមលក្ខណៈទាំងនេះនាំទៅរកការខ្សោះជីវជាតិមួយទៀត។ ប៉ុន្តែនេះជាការពិតសម្រាប់តក្កវិជ្ជាស្វែងរកថេរប៉ុណ្ណោះ។ ប្រសិនបើតក្កវិជ្ជានេះត្រូវបានកែលម្អ នោះលក្ខណៈទាំងពីរអាចត្រូវបានកែលម្អក្នុងពេលដំណាលគ្នា។

ដំណើរការនៃការស្វែងរកព័ត៌មាននៅក្នុងមូលដ្ឋានទិន្នន័យអត្ថបទពេញលេញគួរតែត្រូវបានបង្កើតឡើងជាដំណើរការនៃការទំនាក់ទំនងអន្តរកម្មរវាងអ្នកប្រើប្រាស់ និងប្រព័ន្ធទាញយកព័ត៌មាន (IPS) ដែលក្នុងនោះគាត់មើលជាបន្តបន្ទាប់តាមរយៈបំណែកអត្ថបទ (កថាខណ្ឌ កថាខណ្ឌ) ដែលពេញចិត្ត។ លក្ខខណ្ឌឡូជីខលស្នើសុំ ហើយជ្រើសរើសអ្នកដែលចាប់អារម្មណ៍គាត់។ លទ្ធផលស្វែងរកចុងក្រោយអាចត្រូវបានផ្តល់ឱ្យ អត្ថបទពេញឯកសារ ក៏ដូចជាបំណែកណាមួយរបស់វា។

ដូចដែលអាចមើលឃើញពីការពិចារណាពីមុន ក្នុងការស្វែងរកព័ត៌មានដោយស្វ័យប្រវត្តិ មនុស្សម្នាក់ត្រូវយកឈ្នះលើឧបសគ្គភាសាដែលកើតឡើងរវាងអ្នកប្រើប្រាស់ និង IPS ដោយសារតែភាពខុសគ្នានៃទម្រង់តំណាងនៃអត្ថន័យដូចគ្នាដែលកើតឡើងនៅក្នុងអត្ថបទ។ របាំងនេះកាន់តែសំខាន់ ប្រសិនបើអ្នកត្រូវស្វែងរកក្នុងមូលដ្ឋានទិន្នន័យពហុភាសា។ ដំណោះស្រាយសំខាន់នៃបញ្ហានៅទីនេះអាចជាម៉ាស៊ីនបកប្រែអត្ថបទនៃឯកសារពីភាសាមួយទៅភាសាមួយទៀត។ នេះអាចត្រូវបានធ្វើជាមុន មុនពេលផ្ទុកឯកសារទៅម៉ាស៊ីនស្វែងរក ឬនៅក្នុងដំណើរការនៃការស្វែងរកព័ត៌មាន។ អេ ករណីចុងក្រោយសំណួររបស់អ្នកប្រើត្រូវតែបកប្រែទៅជាភាសានៃអារេនៃឯកសារដែលការស្វែងរកកំពុងត្រូវបានធ្វើឡើង ហើយលទ្ធផលស្វែងរកទៅជាភាសានៃសំណួរ។ នៃប្រភេទបែបនេះ ម៉ាស៊ីនស្វែងរកធ្វើការលើអ៊ីនធឺណិតរួចហើយ។ ប្រព័ន្ធ Cyrillic Browser ក៏ត្រូវបានបង្កើតឡើងនៅ VINITI RAS ដែលធ្វើឱ្យវាអាចស្វែងរកព័ត៌មានជាអត្ថបទជាភាសារុស្សី តាមសំណួរជាភាសាអង់គ្លេស ជាមួយនឹងលទ្ធផលស្វែងរកក៏បង្ហាញជាភាសារបស់អ្នកប្រើប្រាស់ផងដែរ។

ភារកិច្ចសំខាន់ និងជោគជ័យនៃភាសាវិទ្យាគឺការកសាងប្រព័ន្ធដំណើរការភាសាដែលផ្តល់ឱ្យអ្នកប្រើប្រាស់នូវការប្រាស្រ័យទាក់ទងជាមួយប្រព័ន្ធព័ត៌មានស្វ័យប្រវត្តិឆ្លាតវៃ (ជាពិសេសជាមួយប្រព័ន្ធអ្នកជំនាញ) ជាភាសាធម្មជាតិ ឬជាភាសាដែលជិតស្និទ្ធនឹងធម្មជាតិ។ ដោយសារព័ត៌មានត្រូវបានរក្សាទុកក្នុងទម្រង់ផ្លូវការនៅក្នុងប្រព័ន្ធឆ្លាតវៃទំនើប ដំណើរការភាសាដែលដើរតួជាអន្តរការីរវាងមនុស្សម្នាក់ និងកុំព្យូទ័រ ត្រូវតែដោះស្រាយកិច្ចការសំខាន់ៗដូចខាងក្រោមៈ 1) ភារកិច្ចផ្លាស់ប្តូរពីអត្ថបទនៃសំណើព័ត៌មានបញ្ចូល និងសារជាភាសាធម្មជាតិ។ តំណាងឱ្យអត្ថន័យរបស់ពួកគេជាភាសាផ្លូវការ (នៅពេលបញ្ចូលព័ត៌មានទៅក្នុងកុំព្យូទ័រ); 2) ភារកិច្ចនៃការផ្លាស់ប្តូរពីការតំណាងជាផ្លូវការនៃអត្ថន័យនៃសារលទ្ធផលទៅជាតំណាងរបស់វាជាភាសាធម្មជាតិ (នៅពេលដែលព័ត៌មានត្រូវបានផ្តល់ឱ្យមនុស្សម្នាក់) ។ កិច្ចការទី 1 គួរតែត្រូវបានដោះស្រាយដោយ morphological, syntactic និងការវិភាគគំនិតនៃសំណើបញ្ចូលនិងសារ, ទីពីរ - ដោយការសំយោគគំនិត, វាក្យសម្ព័ន្ធនិង morphological នៃសារលទ្ធផល។

ការវិភាគគំនិតនៃសំណើព័ត៌មាន និងសារមាននៅក្នុងការកំណត់រចនាសម្ព័ន្ធគំនិតរបស់ពួកគេ (ព្រំដែននៃឈ្មោះគំនិត និងទំនាក់ទំនងរវាងគំនិតនៅក្នុងអត្ថបទ) និងការបកប្រែរចនាសម្ព័ន្ធនេះទៅជាភាសាផ្លូវការ។ វាត្រូវបានអនុវត្តបន្ទាប់ពីការវិភាគ morphological និង syntactic នៃសំណើនិងសារ។ ការសំយោគគំនិតនៃសារមាននៅក្នុងការផ្លាស់ប្តូរពីការតំណាងនៃធាតុនៃរចនាសម្ព័ន្ធរបស់ពួកគេនៅក្នុងភាសាផ្លូវការទៅជាតំណាងពាក្យសំដី (ពាក្យសំដី) ។ បន្ទាប់ពីនោះ សារត្រូវបានផ្តល់ឱ្យនូវការរចនាវាក្យសម្ព័ន្ធ និង morphological ចាំបាច់។

សម្រាប់ការបកប្រែតាមម៉ាស៊ីននៃអត្ថបទពីភាសាធម្មជាតិមួយទៅភាសាមួយទៀត ចាំបាច់ត្រូវមានវចនានុក្រមនៃការបកប្រែការឆ្លើយឆ្លងគ្នារវាងឈ្មោះនៃគោលគំនិត។ ចំណេះដឹងអំពីការឆ្លើយឆ្លងបកប្រែបែបនេះត្រូវបានប្រមូលផ្ដុំដោយមនុស្សជាច្រើនជំនាន់ ហើយចេញជាទម្រង់នៃការបោះពុម្ពពិសេស - វចនានុក្រមពីរភាសា ឬច្រើនភាសា។ សម្រាប់អ្នកឯកទេសដែលចេះភាសាបរទេសខ្លះ វចនានុក្រមទាំងនេះបានបម្រើជាជំនួយដ៏មានតម្លៃក្នុងការបកប្រែអត្ថបទ។

នៅក្នុងវចនានុក្រមប្រពៃណីពីរភាសា និងពហុភាសា គោលបំណង​ទូទៅសមមូលផ្ទេរត្រូវបានចង្អុលបង្ហាញជាចម្បងសម្រាប់ ពាក្យបុគ្គលសម្រាប់ឃ្លា - តិចជាញឹកញាប់។ ការចង្អុលបង្ហាញអំពីសមមូលការបកប្រែសម្រាប់ឃ្លាគឺមានលក្ខណៈធម្មតាសម្រាប់វចនានុក្រមពាក្យពិសេស។ ដូច្នេះហើយ នៅពេលបកប្រែផ្នែកនៃអត្ថបទដែលមានពាក្យ polysemantic សិស្សតែងតែមានការលំបាក។

ខាងក្រោមនេះគឺជាការឆ្លើយឆ្លងបកប្រែរវាងឃ្លាភាសាអង់គ្លេស និងរុស្ស៊ីជាច្រើនគូលើប្រធានបទ "សាលា"។

១) ប្រចៀវមើលទៅដូចជាកណ្តុរមានស្លាប - ប្រចៀវមើលទៅដូចជាកណ្តុរមានស្លាប។

2) ក្មេងៗចូលចិត្តលេងខ្សាច់នៅលើឆ្នេរខ្សាច់ - ក្មេងៗចូលចិត្តលេងខ្សាច់នៅលើឆ្នេរ។

3) តំណក់ទឹកភ្លៀងធ្លាក់មកលើដៃខ្ញុំ - តំណក់ទឹកភ្លៀងធ្លាក់មកលើដៃខ្ញុំ។

4) ឈើស្ងួតងាយឆេះ - ឈើស្ងួតដុតបានល្អ។

5) គាត់ធ្វើពុតជាមិនស្តាប់ខ្ញុំ - គាត់ធ្វើពុតជាមិនស្តាប់ខ្ញុំ។

នៅទីនេះឃ្លាភាសាអង់គ្លេសមិនមែនជាកន្សោម idiomatic ។ ទោះជាយ៉ាងណាក៏ដោយ ការបកប្រែរបស់ពួកគេទៅជាភាសារុស្សីអាចត្រូវបានគេពិចារណាតែប៉ុណ្ណោះ ដោយមានការលាតសន្ធឹងខ្លះៗ ជាការបកប្រែពាក្យសាមញ្ញៗ ចាប់តាំងពីពាក្យស្ទើរតែទាំងអស់ដែលបានបញ្ចូលក្នុងពួកគេសុទ្ធតែជាពាក្យប៉ូលីសេម។ ដូច្នេះហើយ មានតែសមិទ្ធិផលនៃភាសាវិទ្យាដែលអាចជួយសិស្សនៅទីនេះបាន។

ខ្លឹមសារនៃអត្ថបទ

ភាសាវិទ្យាកុំព្យូទ័រ,ទិសដៅក្នុងភាសាវិទ្យាដែលបានអនុវត្ត ផ្តោតលើការប្រើប្រាស់ឧបករណ៍កុំព្យូទ័រ-កម្មវិធី បច្ចេកវិទ្យាកុំព្យូទ័រសម្រាប់រៀបចំ និងដំណើរការទិន្នន័យ-សម្រាប់គំរូនៃដំណើរការនៃភាសាក្នុងលក្ខខណ្ឌជាក់លាក់ ស្ថានភាព បញ្ហា។ល។ ក៏ដូចជាវិសាលភាពនៃកុំព្យូទ័រទាំងមូល។ គំរូភាសាក្នុងភាសាវិទ្យា និង វិញ្ញាសាដែលពាក់ព័ន្ធ. តាមពិតទៅ មានតែនៅក្នុងករណីចុងក្រោយនេះទេ ដែលយើងកំពុងនិយាយអំពីភាសាវិទ្យាអនុវត្តក្នុងន័យតឹងរ៉ឹង ចាប់តាំងពីការធ្វើគំរូកុំព្យូទ័រនៃភាសាក៏អាចចាត់ទុកថាជាផ្នែកនៃការអនុវត្តវិទ្យាសាស្ត្រកុំព្យូទ័រ និងទ្រឹស្តីកម្មវិធីដើម្បីដោះស្រាយបញ្ហានៃវិទ្យាសាស្ត្រភាសា។ ទោះជាយ៉ាងណាក៏ដោយ នៅក្នុងការអនុវត្ត ស្ទើរតែគ្រប់អ្វីៗទាំងអស់ដែលទាក់ទងនឹងការប្រើប្រាស់កុំព្យូទ័រក្នុងភាសាវិទ្យា ត្រូវបានហៅថាជាភាសាវិទ្យាគណនា។

ក្នុងនាមជាទិសដៅវិទ្យាសាស្ត្រពិសេស ភាសាគណនាបានបង្កើតឡើងនៅក្នុងទសវត្សរ៍ឆ្នាំ 1960 ។ ពាក្យរុស្ស៊ី "ភាសាវិទ្យាគណនា" គឺជាក្រដាសតាមដានពីភាសាកុំព្យូទ័រភាសាអង់គ្លេស។ ដោយសារគុណនាមការគណនាជាភាសារុស្សីក៏អាចបកប្រែថាជា "ការគណនា" ពាក្យ "ភាសាវិទ្យាគណនា" ក៏ត្រូវបានរកឃើញនៅក្នុងអក្សរសិល្ប៍ដែរ ប៉ុន្តែនៅក្នុងវិទ្យាសាស្ត្ររុស្ស៊ី វាមានអត្ថន័យតូចចង្អៀត ដោយចូលទៅជិតគោលគំនិតនៃ "ភាសាវិទ្យាបរិមាណ"។ លំហូរនៃការបោះពុម្ពផ្សាយនៅក្នុងតំបន់នេះគឺខ្ពស់ណាស់។ លើកលែងតែ ការប្រមូលប្រធានបទនៅសហរដ្ឋអាមេរិក ទិនានុប្បវត្តិកុំព្យូទ័រភាសាវិទ្យាត្រូវបានបោះពុម្ពប្រចាំត្រីមាស។ អង្គការដ៏អស្ចារ្យនិង ការងារវិទ្យាសាស្ត្រត្រូវបានអនុវត្តដោយសមាគមសម្រាប់ភាសាវិទ្យាគណនាដែលមានរចនាសម្ព័ន្ធក្នុងតំបន់ (ជាពិសេសសាខាអឺរ៉ុប) ។ រៀងរាល់ពីរឆ្នាំម្តង មានសន្និសីទអន្តរជាតិស្តីពីភាសាវិទ្យាគណនា - COLING ។ បញ្ហាដែលពាក់ព័ន្ធជាធម្មតាត្រូវបានបង្ហាញយ៉ាងទូលំទូលាយផងដែរនៅក្នុងសន្និសីទផ្សេងៗស្តីពីបញ្ញាសិប្បនិមិត្ត។

ឧបករណ៍នៃភាសាវិទ្យាគណនា។

ភាសាគណិតវិទ្យា ជាវិន័យអនុវត្តពិសេស ត្រូវបានសម្គាល់ជាចម្បងដោយឧបករណ៍របស់វា - i.e. លើការប្រើប្រាស់ឧបករណ៍កុំព្យូទ័រសម្រាប់ដំណើរការទិន្នន័យភាសា។ ដរាបណា កម្មវិធីកុំព្យូទ័រការធ្វើគំរូតាមទិដ្ឋភាពមួយចំនួននៃមុខងារនៃភាសាអាចប្រើច្រើនបំផុត មធ្យោបាយផ្សេងៗការសរសេរកម្មវិធី បន្ទាប់មកវាហាក់ដូចជាមិនចាំបាច់និយាយអំពីឧបករណ៍គោលគំនិតទូទៅនៃភាសាវិទ្យាគណនានោះទេ។ ទោះយ៉ាងណាក៏ដោយវាមិនមែនទេ។ មានគោលការណ៍ទូទៅ ការក្លែងធ្វើកុំព្យូទ័រការគិត ដែលត្រូវបានអនុវត្តនៅក្នុងគំរូកុំព្យូទ័រណាមួយ។ ពួកគេត្រូវបានផ្អែកលើទ្រឹស្តីនៃចំណេះដឹង ដែលដំបូងឡើយត្រូវបានបង្កើតឡើងក្នុងវិស័យបញ្ញាសិប្បនិមិត្ត ហើយក្រោយមកបានក្លាយជាផ្នែកមួយនៃផ្នែកនៃវិទ្យាសាស្ត្រការយល់ដឹង។ សំខាន់​បំផុត ប្រភេទគំនិតភាសាការគណនាគឺជារចនាសម្ព័ន្ធចំណេះដឹងដូចជា "ស៊ុម" (គំនិត ឬ ដូចដែលពួកគេនិយាយ រចនាសម្ព័ន្ធគំនិតសម្រាប់ការតំណាងការប្រកាសនៃចំណេះដឹងអំពីស្ថានភាពដែលបានបង្រួបបង្រួមតាមរូបវិទ្យា) "សេណារីយ៉ូ" (រចនាសម្ព័នគំនិតសម្រាប់តំណាងនីតិវិធីនៃចំណេះដឹងអំពីស្តេរ៉េអូឌីត។ ស្ថានភាព ឬអាកប្បកិរិយាប្រកបដោយនិរន្តរភាព) "ផែនការ" (រចនាសម្ព័ន្ធចំណេះដឹងដែលជួសជុលគំនិតអំពី សកម្មភាពដែលអាចកើតមាននាំទៅរកសមិទ្ធិផល គោលបំណងជាក់លាក់) គំនិតនៃ "ឈុតឆាក" គឺទាក់ទងយ៉ាងជិតស្និទ្ធទៅនឹងប្រភេទនៃស៊ុម។ ប្រភេទឈុតត្រូវបានប្រើប្រាស់ជាចម្បងនៅក្នុងអក្សរសិល្ប៍ស្តីពីភាសាវិទ្យាក្នុងការគណនាជាការរចនានៃរចនាសម្ព័ន្ធគំនិតសម្រាប់តំណាងប្រកាសនៃស្ថានភាព និងផ្នែករបស់ពួកគេដែលត្រូវបានអនុវត្តនៅក្នុងទង្វើនិយាយ និងបន្លិចដោយមធ្យោបាយភាសា (lexemes, សំណង់វាក្យសម្ព័ន្ធ, ប្រភេទវេយ្យាករណ៍។ល។ .)

សំណុំនៃរចនាសម្ព័ន្ធចំណេះដឹងដែលបានរៀបចំបង្កើតជា "គំរូនៃពិភពលោក" នៃប្រព័ន្ធការយល់ដឹង និងគំរូកុំព្យូទ័ររបស់វា។ នៅក្នុងប្រព័ន្ធបញ្ញាសិប្បនិម្មិត គំរូនៃពិភពលោកបង្កើតជាប្លុកពិសេស ដែលអាស្រ័យលើស្ថាបត្យកម្មដែលបានជ្រើសរើសអាចរួមបញ្ចូល ចំណេះដឹង​ទូទៅអំពីពិភពលោក (ក្នុងទម្រង់នៃសំណើសាមញ្ញដូចជា "វាត្រជាក់ក្នុងរដូវរងា" ឬក្នុងទម្រង់នៃច្បាប់ផលិតកម្ម "ប្រសិនបើមានភ្លៀងនៅខាងក្រៅ អ្នកត្រូវពាក់អាវភ្លៀង ឬយកឆ័ត្រ") ការពិតជាក់លាក់មួយចំនួន ("The កំពូលភ្នំខ្ពស់បំផុតនៅលើពិភពលោកគឺអេវឺរេស") ហើយតម្លៃនិងឋានានុក្រមរបស់ពួកគេផងដែរជួនកាលត្រូវបានជ្រើសរើសនៅក្នុង "ប្លុកអ័ក្ស" ពិសេស។

ធាតុភាគច្រើននៃគោលគំនិតនៃឧបករណ៍ភាសាវិទ្យាគណនាគឺដូចគ្នាបេះបិទ៖ ពួកវាកំណត់ធាតុពិតមួយចំនួននៃប្រព័ន្ធយល់ដឹងរបស់មនុស្ស និងវិធីតំណាងឱ្យអង្គភាពទាំងនេះបានប្រើនៅក្នុងការពិពណ៌នាទ្រឹស្តី និងគំរូរបស់ពួកគេ។ នៅក្នុងពាក្យផ្សេងទៀត, ធាតុ ឧបករណ៍គំនិតភាសាវិទ្យាគណនាមានទិដ្ឋភាព ontological និងឧបករណ៍។ ឧទាហរណ៍ នៅក្នុងទិដ្ឋភាព ontological ការបំបែកនៃចំណេះដឹងផ្នែកប្រកាស និងនីតិវិធីត្រូវគ្នាទៅនឹង ប្រភេទផ្សេងគ្នាចំណេះ​ដឹង​ដែល​មនុស្ស​មាន - អ្វី​ដែល​គេ​ហៅ​ថា​ចំណេះ​ដឹង (សេចក្តី​ប្រកាស; ដូច​ជា ចំណេះ​ដឹង អាសយដ្ឋាន​ប្រៃ​ស​ណី​យនៃ NN មួយចំនួន) នៅលើដៃម្ខាង និងចំណេះដឹងអំពី HOW (នីតិវិធី; ឧទាហរណ៍ ចំណេះដឹងដែលអនុញ្ញាតឱ្យអ្នកស្វែងរកអាផាតមិនរបស់ NN នេះ ទោះបីជាមិនស្គាល់អាសយដ្ឋានផ្លូវការរបស់វាក៏ដោយ) - នៅលើផ្សេងទៀត។ នៅក្នុងទិដ្ឋភាពឧបករណ៍ ចំណេះដឹងអាចត្រូវបានបញ្ចូលក្នុងសំណុំនៃការពិពណ៌នា (ការពិពណ៌នា) នៅក្នុងសំណុំទិន្នន័យមួយនៅលើដៃមួយ និងនៅក្នុងក្បួនដោះស្រាយមួយ ការណែនាំដែលកុំព្យូទ័រ ឬគំរូមួយចំនួនផ្សេងទៀតនៃប្រព័ន្ធការយល់ដឹងប្រតិបត្តិនៅលើ ផ្សេងទៀត។

ទិសដៅនៃភាសាវិទ្យាគណនា។

វិស័យនៃ CL គឺមានភាពចម្រុះណាស់ ហើយរួមបញ្ចូលផ្នែកដូចជា ការធ្វើគំរូកុំព្យូទ័រនៃការទំនាក់ទំនង ការធ្វើគំរូនៃរចនាសម្ព័ន្ធគ្រោង បច្ចេកវិទ្យា hypertext សម្រាប់ការបង្ហាញអត្ថបទ ការបកប្រែតាមម៉ាស៊ីន វេយ្យាករណ៍កុំព្យូទ័រ។ អេ អារម្មណ៍តូចចង្អៀតបញ្ហា CL ជារឿយៗត្រូវបានផ្សារភ្ជាប់ជាមួយនឹងតំបន់អនុវត្តអន្តរកម្មជាមួយនឹងឈ្មោះមិនល្អមួយចំនួន "ដំណើរការភាសាធម្មជាតិ" (ការបកប្រែពាក្យភាសាអង់គ្លេស Natural Language Processing)។ វាបានកើតឡើងនៅចុងទសវត្សរ៍ឆ្នាំ 1960 ហើយត្រូវបានបង្កើតឡើងក្នុងក្របខ័ណ្ឌនៃវិន័យវិទ្យាសាស្ត្រ និងបច្ចេកវិទ្យា "បញ្ញាសិប្បនិម្មិត"។ តាមរបៀបរបស់ខ្លួន។ ទម្រង់ខាងក្នុងឃ្លា "ដំណើរការភាសាធម្មជាតិ" គ្របដណ្ដប់លើគ្រប់វិស័យដែលកុំព្យូទ័រត្រូវបានប្រើប្រាស់ដើម្បីដំណើរការទិន្នន័យភាសា។ ទន្ទឹមនឹងនេះ ការយល់ដឹងកាន់តែតូចចង្អៀតនៃពាក្យនេះ ត្រូវបានជួសជុលនៅក្នុងការអនុវត្ត - ការអភិវឌ្ឍន៍នៃវិធីសាស្រ្ត បច្ចេកវិទ្យា និងប្រព័ន្ធជាក់លាក់ដែលធានាការទំនាក់ទំនងរវាងមនុស្សម្នាក់ និងកុំព្យូទ័រជាភាសាធម្មជាតិ ឬមានកម្រិត។

ការអភិវឌ្ឍន៍យ៉ាងឆាប់រហ័សនៃទិសដៅនៃ "ដំណើរការភាសាធម្មជាតិ" ធ្លាក់នៅទសវត្សរ៍ឆ្នាំ 1970 ដែលត្រូវបានផ្សារភ្ជាប់ជាមួយនឹងកំណើនអិចស្ប៉ូណង់ស្យែលដែលមិនរំពឹងទុកនៅក្នុងចំនួនអ្នកប្រើប្រាស់កុំព្យូទ័រ។ ដោយសារវាមិនអាចទៅរួចទេក្នុងការបង្រៀនភាសា និងបច្ចេកវិទ្យាកម្មវិធីដល់អ្នកប្រើប្រាស់ទាំងអស់ បញ្ហានៃការរៀបចំអន្តរកម្មជាមួយកម្មវិធីកុំព្យូទ័របានកើតឡើង។ ដំណោះស្រាយ​ចំពោះ​បញ្ហា​ទំនាក់ទំនង​នេះ​បាន​ដើរ​តាម​ផ្លូវ​សំខាន់​ពីរ។ ក្នុងករណីដំបូង ការព្យាយាមត្រូវបានធ្វើឡើងដើម្បីសម្របភាសាកម្មវិធី និងប្រព័ន្ធប្រតិបត្តិការទៅកាន់អ្នកប្រើប្រាស់ចុងក្រោយ។ ជាលទ្ធផល ភាសាកម្រិតខ្ពស់ដូចជា Visual Basic បានបង្ហាញខ្លួន ក៏ដូចជាប្រព័ន្ធប្រតិបត្តិការដ៏ងាយស្រួលដែលត្រូវបានបង្កើតឡើងនៅក្នុងចន្លោះគំនិតនៃពាក្យប្រៀបធៀបដែលធ្លាប់ស្គាល់សម្រាប់មនុស្ស - DESK, LIBRARY ។ វិធីទីពីរគឺការបង្កើតប្រព័ន្ធដែលអនុញ្ញាតឱ្យមានអន្តរកម្មជាមួយកុំព្យូទ័រនៅក្នុងតំបន់បញ្ហាជាក់លាក់មួយនៅក្នុងភាសាធម្មជាតិ ឬកំណែដែលមានកម្រិតមួយចំនួនរបស់វា។

ស្ថាបត្យកម្មនៃប្រព័ន្ធដំណើរការភាសាធម្មជាតិជាទូទៅរួមបញ្ចូលអង្គភាពវិភាគ សារជាសំឡេងអ្នកប្រើប្រាស់ ប្លុកបកស្រាយសារ ប្លុកសម្រាប់បង្កើតអត្ថន័យនៃចម្លើយ និងប្លុកសម្រាប់សំយោគរចនាសម្ព័ន្ធផ្ទៃនៃពាក្យ។ ផ្នែកពិសេសនៃប្រព័ន្ធគឺផ្នែកសន្ទនា ដែលមានយុទ្ធសាស្ត្រសន្ទនា លក្ខខណ្ឌសម្រាប់ការអនុវត្តយុទ្ធសាស្ត្រទាំងនេះ វិធីដើម្បីជំនះការបរាជ័យនៃការទំនាក់ទំនងដែលអាចកើតមាន (ការបរាជ័យក្នុងដំណើរការទំនាក់ទំនង)។

ក្នុងចំណោមប្រព័ន្ធកុំព្យូទ័រដែលដំណើរការភាសាធម្មជាតិ ប្រព័ន្ធសំណួរ-ចម្លើយត្រូវបានសម្គាល់ជាធម្មតា។ ប្រព័ន្ធសន្ទនាការដោះស្រាយបញ្ហា និងប្រព័ន្ធដំណើរការអត្ថបទដែលបានតភ្ជាប់។ ដំបូង ប្រព័ន្ធសំណួរ-ចម្លើយ បានចាប់ផ្តើមត្រូវបានបង្កើតឡើងជាការឆ្លើយតបទៅនឹង គុណភាព​អន់ការអ៊ិនកូដនៃសំណួរនៅពេលស្វែងរកព័ត៌មាននៅក្នុងប្រព័ន្ធទាញយកព័ត៌មាន។ ដោយសារតំបន់បញ្ហានៃប្រព័ន្ធបែបនេះមានកម្រិតខ្លាំងណាស់ នេះបានធ្វើឱ្យសាមញ្ញខ្លះនៃក្បួនដោះស្រាយសម្រាប់ការបកប្រែសំណួរទៅជាតំណាងភាសាផ្លូវការ និងនីតិវិធីបញ្ច្រាសសម្រាប់បំប្លែងតំណាងផ្លូវការទៅជាសេចក្តីថ្លែងការណ៍ភាសាធម្មជាតិ។ ពីការអភិវឌ្ឍន៍ក្នុងស្រុក ប្រព័ន្ធ POET ដែលបង្កើតឡើងដោយក្រុមអ្នកស្រាវជ្រាវដែលដឹកនាំដោយ E.V. Popov ជាកម្មសិទ្ធិរបស់កម្មវិធីប្រភេទនេះ។ ប្រព័ន្ធដំណើរការសំណើជាភាសារុស្សី (ដោយមានការរឹតបន្តឹងតិចតួច) និងសំយោគការឆ្លើយតប។ ដ្យាក្រាមប្លុកនៃកម្មវិធីសន្មត់ថាឆ្លងកាត់ដំណាក់កាលនៃការវិភាគទាំងអស់ (morphological, syntactic និង semantic) និងដំណាក់កាលនៃការសំយោគដែលត្រូវគ្នា។

ប្រព័ន្ធសន្ទនាសម្រាប់ការដោះស្រាយបញ្ហា មិនដូចប្រព័ន្ធនៃប្រភេទមុនទេ ដើរតួក្នុងការទំនាក់ទំនង តួនាទីសកម្មចាប់តាំងពីភារកិច្ចរបស់ពួកគេគឺដើម្បីទទួលបានដំណោះស្រាយចំពោះបញ្ហាដោយផ្អែកលើចំណេះដឹងដែលត្រូវបានបង្ហាញនៅក្នុងខ្លួនវាផ្ទាល់និងលើព័ត៌មានដែលអាចទទួលបានពីអ្នកប្រើប្រាស់។ ប្រព័ន្ធនេះមានរចនាសម្ព័ន្ធចំណេះដឹងដែលកត់ត្រាលំដាប់ធម្មតានៃសកម្មភាពសម្រាប់ការដោះស្រាយបញ្ហានៅក្នុងតំបន់បញ្ហាដែលបានផ្តល់ឱ្យ ក៏ដូចជាព័ត៌មានអំពី ធនធានចាំបាច់. នៅពេលអ្នកប្រើប្រាស់សួរសំណួរ ឬកំណត់កិច្ចការជាក់លាក់ ស្គ្រីបដែលត្រូវគ្នាត្រូវបានធ្វើឱ្យសកម្ម។ ប្រសិនបើសមាសធាតុស្គ្រីបខ្លះបាត់ ឬធនធានខ្លះបាត់ ប្រព័ន្ធចាប់ផ្តើមទំនាក់ទំនង។ នេះជារបៀបដែលប្រព័ន្ធ SNUKA ដំណើរការ ដែលដោះស្រាយបញ្ហានៃការរៀបចំផែនការប្រតិបត្តិការយោធា។

ប្រព័ន្ធដំណើរការអត្ថបទដែលបានភ្ជាប់គឺមានភាពចម្រុះណាស់នៅក្នុងរចនាសម្ព័ន្ធ។ ពួកគេ។ លក្ខណៈទូទៅអាចត្រូវបានចាត់ទុកថាជាការប្រើប្រាស់យ៉ាងទូលំទូលាយនៃបច្ចេកវិទ្យាតំណាងចំណេះដឹង។ មុខងារនៃប្រព័ន្ធប្រភេទនេះគឺដើម្បីយល់ពីអត្ថបទ និងឆ្លើយសំណួរអំពីខ្លឹមសាររបស់វា។ ការយល់ដឹងត្រូវបានចាត់ទុកថាមិនមែនជាប្រភេទសកលទេ ប៉ុន្តែជាដំណើរការនៃការទាញយកព័ត៌មានចេញពីអត្ថបទ ដែលកំណត់ដោយចេតនាទំនាក់ទំនងជាក់លាក់មួយ។ នៅក្នុងពាក្យផ្សេងទៀត អត្ថបទគឺ "អាន" តែជាមួយនឹងការសន្មត់ថាវាជាអ្នកប្រើប្រាស់សក្តានុពលដែលចង់ដឹងអំពីវា។ ដូច្នេះ ប្រព័ន្ធដំណើរការអត្ថបទដែលបានតភ្ជាប់ប្រែទៅជាមិនមានលក្ខណៈជាសកលទេ ប៉ុន្តែផ្តោតលើបញ្ហា។ ឧទាហរណ៍ធម្មតានៃប្រព័ន្ធនៃប្រភេទដែលកំពុងពិភាក្សាគឺប្រព័ន្ធ RESEARCHER និង TAILOR ដែលបង្កើតបានជាប្រព័ន្ធតែមួយ។ កញ្ចប់កម្មវិធីដែលអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ទទួលបានព័ត៌មានពីអរូបីនៃប៉ាតង់ដែលពិពណ៌នាអំពីវត្ថុរូបវន្តស្មុគស្មាញ។

ផ្នែកសំខាន់បំផុតនៃភាសាវិទ្យាគណនាគឺការអភិវឌ្ឍន៍ប្រព័ន្ធទាញយកព័ត៌មាន (IPS) ។ ក្រោយមកទៀតបានកើតឡើងនៅចុងទសវត្សរ៍ឆ្នាំ 1950 និងដើមទសវត្សរ៍ឆ្នាំ 1960 ដែលជាការឆ្លើយតបទៅនឹងការកើនឡើងយ៉ាងខ្លាំងនៃបរិមាណព័ត៌មានវិទ្យាសាស្ត្រ និងបច្ចេកទេស។ យោងតាមប្រភេទនៃព័ត៌មានដែលបានរក្សាទុក និងដំណើរការ ក៏ដូចជាលក្ខណៈពិសេសនៃការស្វែងរក IPS ត្រូវបានបែងចែកជាពីរក្រុមធំ - ឯកសារ និងការពិត។ ប្រព័ន្ធព័ត៌មានឯកសាររក្សាទុកអត្ថបទឯកសារ ឬការពិពណ៌នារបស់វា (អរូបី កាតគន្ថនិទ្ទេស។ល។)។ Factographic IPS ដោះស្រាយជាមួយនឹងការពិពណ៌នានៃការពិតជាក់លាក់ ហើយមិនចាំបាច់ជាទម្រង់អត្ថបទទេ។ វាអាចជាតារាង រូបមន្ត និងប្រភេទផ្សេងទៀតនៃការបង្ហាញទិន្នន័យ។ វាក៏មាន IPSs ចម្រុះដែលមានទាំងឯកសារ និងព័ត៌មានពិត។ នាពេលបច្ចុប្បន្ននេះ ប្រព័ន្ធព័ត៌មានពិតត្រូវបានបង្កើតឡើងដោយផ្អែកលើបច្ចេកវិទ្យាមូលដ្ឋានទិន្នន័យ (DB)។ ដើម្បីផ្តល់នូវការទាញយកព័ត៌មាននៅក្នុង IPS ភាសាទាញយកព័ត៌មានពិសេសត្រូវបានបង្កើតឡើង ដែលផ្អែកលើការទាញយកព័ត៌មាន thesauri ។ ភាសាទាញយកព័ត៌មានគឺជាភាសាផ្លូវការដែលត្រូវបានរចនាឡើងដើម្បីពិពណ៌នាអំពីទិដ្ឋភាពមួយចំនួននៃផែនការមាតិកានៃឯកសារដែលបានរក្សាទុកនៅក្នុង IPS និងសំណើ។ នីតិវិធីសម្រាប់ការពិពណ៌នាឯកសារជាភាសាទាញយកព័ត៌មានត្រូវបានគេហៅថា ការធ្វើលិបិក្រម។ ជាលទ្ធផលនៃការធ្វើលិបិក្រម ឯកសារនីមួយៗត្រូវបានផ្តល់ការពិពណ៌នាផ្លូវការរបស់វានៅក្នុងភាសានៃការទាញយកព័ត៌មាន - រូបភាពស្វែងរកឯកសារ។ ដូចគ្នានេះដែរ សំណួរត្រូវបានធ្វើលិបិក្រម ដែលរូបភាពស្វែងរកនៃសំណួរ និងវេជ្ជបញ្ជាស្វែងរកត្រូវបានចាត់តាំង។ ក្បួនដោះស្រាយការទាញយកព័ត៌មានគឺផ្អែកលើការប្រៀបធៀបនៃវេជ្ជបញ្ជាស្វែងរកជាមួយនឹងរូបភាពស្វែងរកនៃសំណួរ។ លក្ខណៈវិនិច្ឆ័យសម្រាប់ការចេញឯកសារទៅសំណើអាចមាននៅក្នុងការផ្គូផ្គងពេញលេញ ឬដោយផ្នែករវាងរូបភាពស្វែងរកឯកសារ និងវេជ្ជបញ្ជាស្វែងរក។ ក្នុងករណីខ្លះ អ្នកប្រើប្រាស់មានឱកាសបង្កើតលក្ខណៈវិនិច្ឆ័យនៃការចេញដោយខ្លួនឯង។ នេះត្រូវបានកំណត់ដោយតម្រូវការព័ត៌មានរបស់គាត់។ ភាសា​ទាញយក​ព័ត៌មាន​ពិពណ៌នា​ត្រូវ​បាន​ប្រើ​ញឹកញាប់​ជាង​ក្នុង​ IS ស្វ័យប្រវត្តិ។ ប្រធានបទនៃឯកសារត្រូវបានពិពណ៌នាដោយសំណុំនៃអ្នកពណ៌នា។ ពាក្យ និង​ពាក្យ​ដែល​បង្ហាញ​ពី​ប្រភេទ​បឋម​ដ៏​សាមញ្ញ និង​យុត្តិធម៌​នៃ​តំបន់​បញ្ហា​ដើរតួ​ជា​អ្នក​ពណ៌នា។ ដូចដែលអ្នកពណ៌នាជាច្រើនត្រូវបានបញ្ចូលទៅក្នុងរូបភាពស្វែងរកឯកសារ ប្រធានបទផ្សេងៗរងផលប៉ះពាល់ដោយឯកសារ។ ចំនួនអ្នកពណ៌នាមិនត្រូវបានកំណត់ទេ ដែលធ្វើឱ្យវាអាចពណ៌នាឯកសារក្នុងម៉ាទ្រីសលក្ខណៈពហុវិមាត្រ។ ជាញឹកញយ នៅក្នុងភាសាទាញយកព័ត៌មានអ្នកពណ៌នា ការដាក់កម្រិតត្រូវបានដាក់លើភាពអាចផ្សំគ្នានៃអ្នកពណ៌នា។ ក្នុងករណីនេះយើងអាចនិយាយបានថាភាសាទាញយកព័ត៌មានមានវាក្យសម្ព័ន្ធ។

ប្រព័ន្ធទីមួយដែលធ្វើការជាមួយភាសាពិពណ៌នាគឺ ប្រព័ន្ធអាមេរិក UNITEM បង្កើតឡើងដោយ M. Taube ។ នៅក្នុងប្រព័ន្ធនេះ ពាក្យគន្លឹះនៃឯកសារ ឯកតា មានមុខងារជាអ្នកពណ៌នា។ ភាពប្លែកនៃ IPS នេះគឺថាដំបូងឡើយវចនានុក្រមនៃភាសាព័ត៌មានមិនត្រូវបានកំណត់ទេ ប៉ុន្តែបានកើតឡើងនៅក្នុងដំណើរការនៃការធ្វើលិបិក្រមឯកសារ និងសំណួរ។ ការអភិវឌ្ឍន៍ប្រព័ន្ធទាញយកព័ត៌មានទំនើបត្រូវបានផ្សារភ្ជាប់ជាមួយនឹងការអភិវឌ្ឍនៃ IPS ដែលមិនមែនជាសៀវភៅកត់ត្រា។ IPS បែបនេះធ្វើការជាមួយអ្នកប្រើប្រាស់ក្នុងភាសាធម្មជាតិដែលមានកម្រិត ហើយការស្វែងរកត្រូវបានអនុវត្តនៅក្នុងអត្ថបទនៃឯកសារសង្ខេប នៅក្នុងការពិពណ៌នាគន្ថនិទ្ទេសរបស់ពួកគេ ហើយជារឿយៗនៅក្នុងឯកសារខ្លួនឯង។ សម្រាប់ការធ្វើលិបិក្រមក្នុងប្រភេទ IPS ដែលមិនមែនជាវេយ្យាករណ៍ ពាក្យ និងឃ្លានៃភាសាធម្មជាតិត្រូវបានប្រើប្រាស់។

ក្នុងកម្រិតជាក់លាក់មួយ វិស័យភាសាវិទ្យាក្នុងការគណនាអាចរួមបញ្ចូលការងារនៅក្នុងផ្នែកនៃការបង្កើតប្រព័ន្ធ hypertext ដែលត្រូវបានចាត់ទុកថាជាវិធីពិសេសនៃការរៀបចំអត្ថបទ និងសូម្បីតែជាមូលដ្ឋាន។ ប្រភេទថ្មី។អត្ថបទដែលផ្ទុយពីលក្ខណៈសម្បត្តិជាច្រើនរបស់វាទៅនឹងអត្ថបទធម្មតាដែលបានបង្កើតឡើងនៅក្នុងប្រពៃណី Gutenberg នៃការវាយអក្សរ។ គំនិតនៃអក្សរធំត្រូវបានផ្សារភ្ជាប់ជាមួយនឹងឈ្មោះរបស់ Vannevar Bush ដែលជាទីប្រឹក្សាវិទ្យាសាស្ត្ររបស់ប្រធានាធិបតី F. Roosevelt ។ W. Bush បានបង្ហាញជាទ្រឹស្តីនូវគម្រោងនៃប្រព័ន្ធបច្ចេកទេស "Memex" ដែលអនុញ្ញាតឱ្យអ្នកប្រើប្រាស់ភ្ជាប់អត្ថបទ និងបំណែករបស់ពួកគេតាមប្រភេទផ្សេងៗនៃតំណភ្ជាប់ ភាគច្រើនដោយទំនាក់ទំនងសមាគម។ អវត្តមាន បច្ចេកវិទ្យា​កុំព្យូទ័របានធ្វើឱ្យគម្រោងមានការលំបាកក្នុងការអនុវត្ត ដោយសារប្រព័ន្ធមេកានិកបង្ហាញថាស្មុគស្មាញពេកសម្រាប់ការអនុវត្តជាក់ស្តែង។

គំនិតរបស់លោក Bush ក្នុងទសវត្សរ៍ឆ្នាំ 1960 បានទទួលកំណើតទីពីរនៅក្នុងប្រព័ន្ធ "Xanadu" របស់ T. Nelson ដែលបានសន្មត់រួចហើយនូវការប្រើប្រាស់បច្ចេកវិទ្យាកុំព្យូទ័រ។ "Xanadu" បានអនុញ្ញាតឱ្យអ្នកប្រើអានចំនួនសរុបនៃអត្ថបទដែលបានបញ្ចូលទៅក្នុងប្រព័ន្ធ វិធី​ផ្សេង​គ្នានៅក្នុងលំដាប់ផ្សេងៗ កម្មវិធីបានធ្វើឱ្យវាអាចធ្វើទៅបានដើម្បីទន្ទេញចាំលំដាប់នៃអត្ថបទដែលបានមើល ហើយជ្រើសរើសស្ទើរតែទាំងអស់នៃពួកវាតាមអំពើចិត្តទាន់ពេលវេលា។ សំណុំនៃអត្ថបទដែលមានទំនាក់ទំនងភ្ជាប់ពួកវា (ប្រព័ន្ធនៃការផ្លាស់ប្តូរ) ត្រូវបានគេហៅថា hypertext ដោយ T. Nelson ។ អ្នកស្រាវជ្រាវជាច្រើនចាត់ទុកការបង្កើត hypertext ថាជាការចាប់ផ្តើមនៃយុគសម័យព័ត៌មានថ្មី ផ្ទុយពីសម័យបោះពុម្ព។ លីនេអ៊ែរនៃការសរសេរ ដែលឆ្លុះបញ្ចាំងពីខាងក្រៅពីភាពជាលីនេអ៊ែរនៃការនិយាយ ប្រែទៅជាប្រភេទមូលដ្ឋានដែលកំណត់ការគិតរបស់មនុស្ស និងការយល់ដឹងអំពីអត្ថបទ។ ពិភពនៃអត្ថន័យគឺមិនមែនលីនេអ៊ែរទេ ដូច្នេះហើយការបង្រួមនៃព័ត៌មានតាមន័យធៀបនៅក្នុងផ្នែកសុន្ទរកថាលីនេអ៊ែរតម្រូវឱ្យប្រើប្រាស់ "កញ្ចប់ទំនាក់ទំនង" ពិសេស - ការបែងចែកទៅជាប្រធានបទ និង rheme ការបែងចែកផែនការខ្លឹមសារនៃការបញ្ចេញមតិទៅជាច្បាស់លាស់ (សេចក្តីថ្លែងការណ៍ សំណើ។ ការផ្តោតអារម្មណ៍) និង implicit (presupposition, consequence, implicature of discourse) ស្រទាប់។ ការបដិសេធនៃលីនេអ៊ែរនៃអត្ថបទទាំងនៅក្នុងដំណើរការនៃការបង្ហាញរបស់វាដល់អ្នកអាន (ពោលគឺក្នុងការអាននិងការយល់ដឹង) និងនៅក្នុងដំណើរការនៃការសំយោគនេះបើយោងតាមអ្នកទ្រឹស្តីនឹងរួមចំណែកដល់ "ការរំដោះ" នៃការគិតនិងសូម្បីតែការលេចឡើងនៃ ទម្រង់ថ្មីរបស់វា។

នៅក្នុងប្រព័ន្ធកុំព្យូទ័រ អត្ថបទខ្ពស់ត្រូវបានតំណាងជាក្រាហ្វ ថ្នាំងដែលមានអត្ថបទប្រពៃណី ឬបំណែករបស់វា រូបភាព តារាង វីដេអូ។ល។ ថ្នាំងត្រូវបានភ្ជាប់ដោយទំនាក់ទំនងផ្សេងៗគ្នា ប្រភេទដែលត្រូវបានបញ្ជាក់ដោយអ្នកអភិវឌ្ឍន៍កម្មវិធី Hypertext ឬដោយអ្នកអានខ្លួនឯង។ ទំនាក់ទំនងកំណត់លទ្ធភាពសក្តានុពលនៃចលនា ឬការរុករកតាមរយៈ hypertext ។ ទំនាក់ទំនងអាចជា unidirectional ឬ bidirectional ។ ដូច្នោះហើយ ព្រួញទ្វេទិសអនុញ្ញាតឱ្យអ្នកប្រើផ្លាស់ទីក្នុងទិសដៅទាំងពីរ ខណៈដែលព្រួញឯកទិសអនុញ្ញាតឱ្យអ្នកប្រើផ្លាស់ទីក្នុងទិសដៅតែមួយប៉ុណ្ណោះ។ ខ្សែសង្វាក់នៃថ្នាំងដែលអ្នកអានឆ្លងកាត់ពេលកំពុងមើលសមាសធាតុនៃអត្ថបទបង្កើតជាផ្លូវ ឬផ្លូវ។

ការអនុវត្តកុំព្យូទ័រនៃ hypertext គឺជាឋានានុក្រម ឬបណ្តាញ។ រចនាសម្ព័ន្ធឋានានុក្រម - ដូចដើមឈើ - នៃអត្ថបទខ្ពស់កំណត់យ៉ាងសំខាន់នូវលទ្ធភាពនៃការផ្លាស់ប្តូររវាងសមាសធាតុរបស់វា។ នៅក្នុង hypertext បែបនេះ ទំនាក់ទំនងរវាងសមាសធាតុប្រហាក់ប្រហែលនឹងរចនាសម្ព័ន្ធនៃកម្រងវេវចនសព្ទ ដោយផ្អែកលើទំនាក់ទំនងនៃប្រភេទសត្វ។ បណ្តាញ hypertext អនុញ្ញាតឱ្យអ្នកប្រើប្រភេទផ្សេងៗនៃទំនាក់ទំនងរវាងសមាសធាតុ ដោយមិនកំណត់ចំពោះទំនាក់ទំនង genus-species ទេ។ យោងទៅតាមរបៀបនៃអត្ថិភាពនៃអត្ថបទខ្ពស់ អក្សរធំឋិតិវន្ត និងថាមវន្តត្រូវបានសម្គាល់។ hypertext ឋិតិវន្តមិនផ្លាស់ប្តូរកំឡុងប្រតិបត្តិការ; នៅក្នុងវា អ្នកប្រើប្រាស់អាចកត់ត្រាមតិរបស់គាត់ ប៉ុន្តែពួកគេមិនផ្លាស់ប្តូរខ្លឹមសារនៃបញ្ហានោះទេ។ សម្រាប់ hypertext ថាមវន្ត ការផ្លាស់ប្តូរគឺជាទម្រង់ធម្មតានៃអត្ថិភាព។ ជាធម្មតា មុខងារ hypertexts ថាមវន្ត ដែលវាចាំបាច់ដើម្បីវិភាគលំហូរព័ត៌មានឥតឈប់ឈរ ពោលគឺឧ។ នៅក្នុងសេវាកម្មព័ត៌មាននៃប្រភេទផ្សេងៗ។ ឧទាហរណ៍ Hypertext គឺជាប្រព័ន្ធព័ត៌មានរដ្ឋអារីហ្សូណា (AAIS) ដែលត្រូវបានធ្វើបច្ចុប្បន្នភាពប្រចាំខែជាមួយនឹង 300-500 អរូបីក្នុងមួយខែ។

ទំនាក់ទំនងរវាងធាតុ Hypertext អាចត្រូវបានជួសជុលដំបូងដោយអ្នកបង្កើត ឬពួកវាអាចត្រូវបានបង្កើតនៅពេលណាដែលអ្នកប្រើប្រាស់ចូលប្រើ Hypertext ។ ក្នុងករណីទីមួយ យើងកំពុងនិយាយអំពី hypertexts នៃរចនាសម្ព័ន្ធរឹង ហើយនៅក្នុងករណីទីពីរ អំពី hypertexts នៃរចនាសម្ព័ន្ធទន់។ រចនាសម្ព័ន្ធរឹងគឺច្បាស់ណាស់បច្ចេកវិទ្យា។ បច្ចេកវិជ្ជាសម្រាប់រៀបចំរចនាសម្ព័ន្ធទន់គួរតែផ្អែកលើការវិភាគតាមន័យនៃភាពជិតនៃឯកសារ (ឬប្រភពព័ត៌មានផ្សេងទៀត) ទៅគ្នាទៅវិញទៅមក។ នេះ​ជា​កិច្ចការ​មិន​សំខាន់​នៃ​ភាសា​កុំព្យូទ័រ។ បច្ចុប្បន្ននេះការប្រើប្រាស់បច្ចេកវិទ្យារចនាសម្ព័ន្ធទន់លើពាក្យគន្លឹះគឺរីករាលដាល។ ការផ្លាស់ប្តូរពីថ្នាំងមួយទៅថ្នាំងមួយទៀតនៅក្នុងបណ្តាញ hypertext ត្រូវបានអនុវត្តជាលទ្ធផលនៃការស្វែងរកពាក្យគន្លឹះ។ ដោយសារសំណុំនៃពាក្យគន្លឹះអាចខុសគ្នារាល់ពេល រចនាសម្ព័ន្ធនៃអត្ថបទខ្ពស់ក៏ផ្លាស់ប្តូររាល់ពេលដែរ។

បច្ចេកវិទ្យានៃការកសាងប្រព័ន្ធ Hypertext មិនបែងចែករវាងព័ត៌មានជាអត្ថបទ និងមិនមែនអត្ថបទទេ។ ទន្ទឹមនឹងនេះ ការដាក់បញ្ចូលព័ត៌មានដែលមើលឃើញ និងសំឡេង (វីដេអូ គំនូរ រូបថត ការថតសំឡេង។ល។) ទាមទារ ការផ្លាស់ប្តូរដ៏សំខាន់ចំណុចប្រទាក់អ្នកប្រើ និងកម្មវិធីដែលមានអនុភាព និងការគាំទ្រកុំព្យូទ័រ។ ប្រព័ន្ធបែបនេះត្រូវបានគេហៅថា hypermedia ឬពហុព័ត៌មាន។ ភាពមើលឃើញនៃប្រព័ន្ធពហុមេឌៀបានកំណត់ទុកជាមុននូវការប្រើប្រាស់យ៉ាងទូលំទូលាយនៅក្នុងការអប់រំ ក្នុងការបង្កើតកំណែកុំព្យូទ័រនៃសព្វវចនាធិប្បាយ។ ជាឧទាហរណ៍ មាន CD-roms ដែលត្រូវបានប្រតិបត្តិយ៉ាងស្រស់ស្អាតជាមួយនឹងប្រព័ន្ធពហុព័ត៌មានសម្រាប់សព្វវចនាធិប្បាយរបស់កុមារដែលបោះពុម្ពដោយ Dorlin Kindersley ។

នៅក្នុងក្របខ័ណ្ឌនៃសទ្ទានុក្រមកុំព្យូទ័រ បច្ចេកវិទ្យាកុំព្យូទ័រសម្រាប់ការចងក្រង និងប្រតិបត្តិការវចនានុក្រមកំពុងត្រូវបានបង្កើតឡើង។ កម្មវិធីពិសេស - មូលដ្ឋានទិន្នន័យ ទូដាក់ឯកសារកុំព្យូទ័រ កម្មវិធីដំណើរការអត្ថបទ - អនុញ្ញាតឱ្យអ្នកបង្កើតធាតុវចនានុក្រមដោយស្វ័យប្រវត្តិ រក្សាទុកព័ត៌មានវចនានុក្រម និងដំណើរការវា។ កម្មវិធីវេយ្យាករណ៍កុំព្យូទ័រផ្សេងៗគ្នាជាច្រើនត្រូវបានបែងចែកទៅជាក្រុមធំពីរ៖ កម្មវិធីសម្រាប់គាំទ្រដល់ការងារ lexicographic និងវចនានុក្រមស្វ័យប្រវត្តិនៃប្រភេទផ្សេងៗ រួមទាំងមូលដ្ឋានទិន្នន័យ lexicographic ។ វចនានុក្រមស្វ័យប្រវត្តិគឺជាវចនានុក្រមក្នុងទម្រង់ម៉ាស៊ីនពិសេសដែលត្រូវបានរចនាឡើងសម្រាប់ប្រើនៅលើកុំព្យូទ័រដោយអ្នកប្រើប្រាស់ ឬកម្មវិធីដំណើរការពាក្យកុំព្យូទ័រ។ នៅក្នុងពាក្យផ្សេងទៀត វាមានភាពខុសគ្នារវាងវចនានុក្រមអ្នកប្រើប្រាស់ចុងក្រោយរបស់មនុស្សដោយស្វ័យប្រវត្តិ និងវចនានុក្រមស្វ័យប្រវត្តិសម្រាប់កម្មវិធីដំណើរការពាក្យ។ វចនានុក្រមស្វ័យប្រវត្តិដែលមានបំណងសម្រាប់អ្នកប្រើប្រាស់ចុងក្រោយ ទាក់ទងនឹងចំណុចប្រទាក់ និងរចនាសម្ព័ន្ធនៃធាតុវចនានុក្រម មានភាពខុសប្លែកគ្នាយ៉ាងខ្លាំងពីវចនានុក្រមស្វ័យប្រវត្តិដែលមាននៅក្នុងប្រព័ន្ធបកប្រែម៉ាស៊ីន ប្រព័ន្ធយោងដោយស្វ័យប្រវត្តិ ប្រព័ន្ធទាញយកព័ត៌មាន។ល។ ភាគច្រើនពួកគេគឺជាកំណែកុំព្យូទ័រនៃវចនានុក្រមសាមញ្ញដ៏ល្បីល្បាញ។ មានកុំព្យូទ័រ analogues នៃវចនានុក្រមពន្យល់នៃភាសាអង់គ្លេសនៅលើទីផ្សារកម្មវិធី (Webster ដោយស្វ័យប្រវត្តិ, វចនានុក្រមអង់គ្លេសពន្យល់ដោយស្វ័យប្រវត្តិនៃគ្រឹះស្ថានបោះពុម្ព Collins, កំណែស្វ័យប្រវត្តិនៃ New Large វចនានុក្រមអង់គ្លេស-រុស្ស៊ី ed ។ Yu.D. Apresyan និង E.M. Mednikova) ក៏មាន កំណែកុំព្យូទ័រវចនានុក្រម Ozhegov ។ វចនានុក្រមស្វ័យប្រវត្តិសម្រាប់កម្មវិធីដំណើរការពាក្យអាចត្រូវបានគេហៅថាវចនានុក្រមស្វ័យប្រវត្តិក្នុងន័យពិតប្រាកដ។ ពួកវាជាទូទៅមិនមានបំណងសម្រាប់អ្នកប្រើប្រាស់មធ្យមទេ។ លក្ខណៈពិសេសនៃរចនាសម្ព័ន្ធរបស់ពួកគេវិសាលភាពនៃសម្ភារៈវាក្យសព្ទត្រូវបានកំណត់ដោយកម្មវិធីដែលមានអន្តរកម្មជាមួយពួកគេ។

គំរូកុំព្យូទ័រនៃរចនាសម្ព័ន្ធគ្រោងគឺមួយទៀត ទិសដៅសន្យាភាសាវិទ្យាគណនា។ ការសិក្សាអំពីរចនាសម្ព័ន្ធនៃគ្រោង សំដៅលើបញ្ហានៃការរិះគន់ផ្នែកអក្សរសាស្ត្រតាមលំដាប់ (ក្នុងន័យទូលំទូលាយ) ការសិក្សា semiotics និងវប្បធម៌។ កម្មវិធីកុំព្យូទ័រដែលមានសម្រាប់ការធ្វើគំរូគ្រោងគឺផ្អែកលើទម្រង់នៃការបង្ហាញគ្រោងជាមូលដ្ឋានចំនួនបី - ទិសដៅ morphological និង syntactic សម្រាប់ការបង្ហាញគ្រោង ក៏ដូចជាវិធីសាស្រ្តការយល់ដឹង។ គំនិតអំពីរចនាសម្ព័ន្ធ morphological នៃរចនាសម្ព័ន្ធគ្រោងត្រឡប់ទៅស្នាដៃដ៏ល្បីល្បាញរបស់ V.Ya. Propp ( សង់​ទី​ម៉ែ​ត.) អំពីរឿងនិទានរុស្ស៊ី។ Propp បានកត់សម្គាល់ថាជាមួយនឹងភាពសម្បូរបែបនៃតួអង្គ និងព្រឹត្តិការណ៍នៅក្នុងរឿងនិទាន ចំនួននៃមុខងារតួអក្សរមានកំណត់ ហើយគាត់បានស្នើរឧបករណ៍សម្រាប់ពណ៌នាអំពីមុខងារទាំងនេះ។ គំនិតរបស់ Propp បានបង្កើតមូលដ្ឋាននៃកម្មវិធីកុំព្យូទ័រ TALE ដែលក្លែងធ្វើជំនាន់នៃគ្រោងនៃរឿងនិទាន។ ក្បួនដោះស្រាយនៃកម្មវិធី TALE គឺផ្អែកលើលំដាប់នៃមុខងាររបស់តួអង្គក្នុងរឿងនិទាន។ តាមការពិត មុខងារ Propp កំណត់សំណុំនៃស្ថានភាពដែលសរសេរដោយតម្រៀបតាមមូលដ្ឋាននៃការវិភាគសម្ភារៈជាក់ស្តែង។ សមត្ថភាពភ្ជាប់ ស្ថានភាពផ្សេងៗនៅក្នុងច្បាប់នៃជំនាន់ត្រូវបានកំណត់ដោយលំដាប់ធម្មតានៃមុខងារ - ក្នុងទម្រង់ដែលវាអាចត្រូវបានបង្កើតឡើងពីអត្ថបទនៃរឿងនិទាន។ នៅក្នុងកម្មវិធី លំដាប់ធម្មតានៃមុខងារត្រូវបានពិពណ៌នាថាជាសេណារីយ៉ូធម្មតាសម្រាប់ការជួបតួអង្គ។

មូលដ្ឋានទ្រឹស្តីនៃវិធីសាស្រ្តវាក្យសម្ព័ន្ធទៅនឹងគ្រោងនៃអត្ថបទគឺ "វេយ្យាករណ៍គ្រោង" ឬ "វេយ្យាករណ៍និទានកថា" (វេយ្យាករណ៍រឿង) ។ ពួកគេបានបង្ហាញខ្លួននៅពាក់កណ្តាលទសវត្សរ៍ឆ្នាំ 1970 ដែលជាលទ្ធផលនៃការផ្ទេរគំនិតនៃវេយ្យាករណ៍ជំនាន់របស់ N. Chomsky ទៅនឹងការពិពណ៌នានៃ macrostructure នៃអត្ថបទ។ ប្រសិនបើសមាសធាតុសំខាន់បំផុតនៃរចនាសម្ព័ន្ធវាក្យសម្ព័ន្ធនៅក្នុងវេយ្យាករណ៍ជំនាន់គឺពាក្យសំដី និងក្រុមបន្ទាប់បន្សំ នោះនៅក្នុងវេយ្យាករណ៍គ្រោងភាគច្រើន ការបង្ហាញ (ការកំណត់) ព្រឹត្តិការណ៍ និងភាគត្រូវបានជ្រើសរើសជាមូលដ្ឋាន។ នៅក្នុងទ្រឹស្ដីនៃវេយ្យាករណ៍គ្រោង លក្ខខណ្ឌអប្បបរមា ពោលគឺការរឹតបន្តឹងដែលកំណត់ស្ថានភាពនៃលំដាប់នៃធាតុគ្រោងជាគ្រោងធម្មតា ត្រូវបានពិភាក្សាយ៉ាងទូលំទូលាយ។ ទោះយ៉ាងណាក៏ដោយវាបានប្រែក្លាយថាសុទ្ធសាធ វិធីសាស្រ្តភាសាវាមិនអាចទៅរួចទេក្នុងការធ្វើដូច្នេះ។ ការរឹតបន្តឹងជាច្រើនគឺជាវប្បធម៌សង្គមនៅក្នុងធម្មជាតិ។ គ្រោងវេយ្យាករណ៍ មានភាពខុសប្លែកគ្នាយ៉ាងខ្លាំងនៅក្នុងសំណុំនៃប្រភេទនៅក្នុងមែកធាងជំនាន់នោះ បានអនុញ្ញាតឱ្យមានកំណត់យ៉ាងតឹងរ៉ឹងនៃច្បាប់សម្រាប់ការកែប្រែរចនាសម្ព័ន្ធនិទានកថា (និទានកថា) ។

នៅដើមទសវត្សរ៍ឆ្នាំ 1980 សិស្សម្នាក់របស់ R. Schenk គឺ V. Lenert ដែលជាផ្នែកមួយនៃការងារលើការបង្កើតម៉ាស៊ីនភ្លើងគ្រោងកុំព្យូទ័របានស្នើឱ្យមានទម្រង់បែបបទដើមនៃឯកតាផែនការអារម្មណ៍ (Affective Plot Units) ដែលប្រែទៅជាឧបករណ៍ដ៏មានឥទ្ធិពល។ សម្រាប់តំណាងឱ្យរចនាសម្ព័ន្ធគ្រោង។ ខណៈពេលដែលវាត្រូវបានបង្កើតឡើងដំបូងសម្រាប់ប្រព័ន្ធបញ្ញាសិប្បនិម្មិត ទម្រង់បែបបទនេះត្រូវបានប្រើប្រាស់ក្នុងការសិក្សាទ្រឹស្តីសុទ្ធសាធ។ ខ្លឹមសារនៃវិធីសាស្រ្តរបស់ Lehnert គឺថាគ្រោងនេះត្រូវបានពិពណ៌នាថាជាការផ្លាស់ប្តូរជាបន្តបន្ទាប់នៅក្នុងស្ថានភាពនៃការយល់ដឹង-អារម្មណ៍របស់តួអង្គ។ ដូច្នេះហើយ ការផ្តោតអារម្មណ៍នៃលក្ខណៈផ្លូវការរបស់ Lehnert គឺមិនមែនលើធាតុផ្សំខាងក្រៅនៃគ្រោងនោះទេ - ការបកស្រាយ ព្រឹត្តិការណ៍ វគ្គ សីលធម៌ - ប៉ុន្តែនៅលើលក្ខណៈសំខាន់ៗរបស់វា។ ក្នុងន័យនេះ ភាពផ្លូវការរបស់ Lehnert គឺជាផ្នែកមួយនៃការវិលត្រឡប់ទៅកាន់គំនិតរបស់ Propp ។

ភាសាកុំព្យូទ័រក៏រួមបញ្ចូលការបកប្រែដោយម៉ាស៊ីនផងដែរ ដែលបច្ចុប្បន្នកំពុងជួបប្រទះការកើតជាថ្មី។

អក្សរសិល្ប៍៖

Popov E.V. ការប្រាស្រ័យទាក់ទងជាមួយកុំព្យូទ័រជាភាសាធម្មជាតិ. M. , 1982
Sadur V.G. ការទំនាក់ទំនងជាសំឡេងជាមួយនឹងកុំព្យូទ័រអេឡិចត្រូនិច និងបញ្ហានៃការអភិវឌ្ឍន៍របស់ពួកគេ។. - នៅក្នុងសៀវភៅ៖ ការទំនាក់ទំនងការនិយាយ៖ បញ្ហានិងការរំពឹងទុក។ M. , 1983
Baranov A.N. ប្រភេទនៃបញ្ញាសិប្បនិមិត្តក្នុងន័យភាសាវិទ្យា។ ស៊ុម និងស្គ្រីប. M. , 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. ការទំនាក់ទំនងគំរូនៅក្នុងប្រព័ន្ធមនុស្ស-ម៉ាស៊ីន. - ការគាំទ្រផ្នែកភាសា ប្រព័ន្ធព័ត៌មាន. M. , 1987
លោក Olker H.R. រឿង​ព្រេង​និទានសោកនាដកម្ម និងវិធីនៃការបង្ហាញប្រវត្តិសាស្រ្តពិភពលោក. - នៅក្នុងសៀវភៅ៖ ភាសា និងគំរូ ទំនាក់ទំនង​សង្គម. M. , 1987
Gorodetsky B.Yu. ភាសាវិទ្យាគណនា៖ គំរូទំនាក់ទំនងភាសា
McQueen K. យុទ្ធសាស្ត្រពិភាក្សាសម្រាប់ការសំយោគអត្ថបទភាសាធម្មជាតិ. - ថ្មីនៅក្នុងភាសាបរទេស។ កិច្ចការ។ XXIV, ភាសាវិទ្យាគណនា។ M. , 1989
Popov E.V., Preobrazhensky A.B. . លក្ខណៈពិសេសនៃការអនុវត្តប្រព័ន្ធ NL
Preobrazhensky A.B. ស្ថានភាពនៃការអភិវឌ្ឍន៍ប្រព័ន្ធ NL-ទំនើប. - បញ្ញាសិប្បនិម្មិត។ សៀវភៅ។ 1, ប្រព័ន្ធទំនាក់ទំនង និងប្រព័ន្ធអ្នកជំនាញ។ M. , ឆ្នាំ 1990
Subbotin M.M. អត្ថបទខ្ពស់ ទម្រង់ថ្មី។ការទំនាក់ទំនងជាលាយលក្ខណ៍អក្សរ. - វីនីធី, សឺ។ ព័ត៌មានវិទ្យា ឆ្នាំ ១៩៩៤ ទំព័រ ១៨
Baranov A.N. ការណែនាំអំពីភាសាវិទ្យាអនុវត្ត. M. , 2000



ពាក្យ "ភាសាវិទ្យាគណនា" ជាធម្មតាសំដៅលើផ្នែកដ៏ធំទូលាយនៃការប្រើប្រាស់ឧបករណ៍កុំព្យូទ័រ-កម្មវិធី បច្ចេកវិទ្យាកុំព្យូទ័រសម្រាប់រៀបចំ និងដំណើរការទិន្នន័យ-ដើម្បីធ្វើជាគំរូដល់ដំណើរការនៃភាសាក្នុងលក្ខខណ្ឌជាក់លាក់ ស្ថានភាព បញ្ហា ក៏ដូចជាវិសាលភាព។ នៃគំរូភាសាកុំព្យូទ័រ។ តែនៅក្នុងភាសាវិទ្យា ប៉ុន្តែក៏មាននៅក្នុងមុខវិជ្ជាដែលពាក់ព័ន្ធផងដែរ។ តាមពិតទៅ មានតែនៅក្នុងករណីចុងក្រោយនេះទេ ដែលយើងកំពុងនិយាយអំពីភាសាវិទ្យាដែលបានអនុវត្តក្នុងន័យដ៏តឹងរឹង ចាប់តាំងពីការធ្វើគំរូភាសាកុំព្យូទ័រក៏អាចចាត់ទុកថាជាវិស័យនៃការអនុវត្តទ្រឹស្តីកម្មវិធី (វិទ្យាសាស្ត្រកុំព្យូទ័រ) ក្នុងវិស័យភាសាវិទ្យា។ ទោះជាយ៉ាងណាក៏ដោយ ការអនុវត្តទូទៅគឺបែបនោះ ដែលវិស័យភាសាវិទ្យាគណនាគ្របដណ្តប់ស្ទើរតែទាំងអស់ដែលទាក់ទងនឹងការប្រើប្រាស់កុំព្យូទ័រក្នុងភាសាវិទ្យា៖ "ពាក្យ "ភាសាវិទ្យាគណនា" កំណត់ទិសដៅទូទៅឆ្ពោះទៅរកការប្រើប្រាស់កុំព្យូទ័រដើម្បីដោះស្រាយបញ្ហាវិទ្យាសាស្ត្រ និងការអនុវត្តផ្សេងៗ។ ទាក់ទងនឹងភាសា ដោយមិនកំណត់មធ្យោបាយណាមួយក្នុងការដោះស្រាយបញ្ហាទាំងនេះ។

ទិដ្ឋភាពស្ថាប័ននៃភាសាវិទ្យាគណនា. ក្នុងនាមជាទិសដៅវិទ្យាសាស្ត្រពិសេស ភាសាគណនាបានលេចចេញជារូបរាងនៅក្នុងទសវត្សរ៍ទី 60 ។ លំហូរនៃការបោះពុម្ពផ្សាយនៅក្នុងតំបន់នេះគឺខ្ពស់ណាស់។ បន្ថែមពីលើការប្រមូលតាមប្រធានបទ ទិនានុប្បវត្តិភាសាវិទ្យាគណនាត្រូវបានបោះពុម្ពជារៀងរាល់ត្រីមាសនៅសហរដ្ឋអាមេរិក។ ការងាររៀបចំ និងវិទ្យាសាស្ត្រដ៏ធំមួយត្រូវបានអនុវត្តដោយសមាគមសម្រាប់ភាសាវិទ្យាគណនា ដែលមានរចនាសម្ព័ន្ធក្នុងតំបន់ជុំវិញពិភពលោក (ជាពិសេសសាខាអឺរ៉ុប)។ រៀងរាល់ពីរឆ្នាំម្តង មានសន្និសីទអន្តរជាតិស្តីពីភាសាវិទ្យាគណនា - KOLING។ បញ្ហាពាក់ព័ន្ធក៏ត្រូវបានតំណាងយ៉ាងទូលំទូលាយនៅក្នុងសន្និសីទអន្តរជាតិស្តីពីបញ្ញាសិប្បនិមិត្តនៅកម្រិតផ្សេងៗ។

កញ្ចប់ឧបករណ៍ការយល់ដឹងនៃភាសាវិទ្យាគណនា

ភាសាគណនាជាវិន័យអនុវត្តពិសេសត្រូវបានសម្គាល់ជាចម្បងដោយឧបករណ៍របស់វា ពោលគឺការប្រើប្រាស់ឧបករណ៍កុំព្យូទ័រសម្រាប់ដំណើរការទិន្នន័យភាសា។ ដោយសារកម្មវិធីកុំព្យូទ័រដែលយកគំរូតាមទិដ្ឋភាពមួយចំនួននៃមុខងារនៃភាសាអាចប្រើឧបករណ៍សរសេរកម្មវិធីផ្សេងៗ វាហាក់បីដូចជាមិនចាំបាច់និយាយអំពីភាសាទូទៅនោះទេ។ ទោះយ៉ាងណាក៏ដោយវាមិនមែនទេ។ មានគោលការណ៍ទូទៅនៃការបង្កើតគំរូកុំព្យូទ័រនៃការគិត ដែលត្រូវបានអនុវត្តនៅក្នុងគំរូកុំព្យូទ័រណាមួយ។ ភាសានេះត្រូវបានផ្អែកលើទ្រឹស្ដីនៃចំណេះដឹងដែលត្រូវបានបង្កើតឡើងនៅក្នុងបញ្ញាសិប្បនិម្មិត និងបង្កើតបានជាសាខាដ៏សំខាន់នៃវិទ្យាសាស្ត្រការយល់ដឹង។

ទ្រឹស្ដីចំបងនៃទ្រឹស្ដីចំនេះដឹងចែងថា ការគិតគឺជាដំណើរការកែច្នៃ និងបង្កើតចំណេះដឹង។ "ចំណេះដឹង" ឬ "ចំណេះដឹង" ត្រូវបានគេចាត់ទុកថាជាប្រភេទដែលមិនបានកំណត់។ ប្រព័ន្ធនៃការយល់ដឹងរបស់មនុស្សដើរតួជា "ឧបករណ៍ដំណើរការ" ដែលដំណើរការចំណេះដឹង។ នៅក្នុង epistemology និងវិទ្យាសាស្ត្រការយល់ដឹង ចំណេះដឹងពីរប្រភេទសំខាន់ៗត្រូវបានសម្គាល់ - ប្រកាស ("ដឹងអ្វី") និងនីតិវិធី ("ដឹងពីរបៀប"2)) ។ ចំណេះដឹងអំពីសេចក្តីប្រកាសជាធម្មតាត្រូវបានបង្ហាញជាសំណុំនៃសំណើ សេចក្តីថ្លែងការណ៍អំពីអ្វីមួយ។ ឧទាហរណ៍ធម្មតានៃចំណេះដឹងប្រកាសគឺជាការបកស្រាយពាក្យនៅក្នុងវចនានុក្រមពន្យល់ធម្មតា។ ឧទហរណ៍ ពែងមួយ] - "ធុងផឹករាងមូលតូចមួយ ជាធម្មតាមានចំណុចទាញ ធ្វើពីប៉សឺឡែន ហ្វាយៀន។ល។"។ ចំនេះដឹងនៃសេចក្តីប្រកាសផ្តល់ប្រាក់កម្ចីដល់នីតិវិធីផ្ទៀងផ្ទាត់ក្នុងន័យ "ពិត-មិនពិត" ។ ចំណេះដឹងអំពីនីតិវិធីត្រូវបានបង្ហាញជាលំដាប់ (បញ្ជី) នៃប្រតិបត្តិការ សកម្មភាពដែលត្រូវអនុវត្ត។ នេះគឺជាការណែនាំទូទៅមួយចំនួនអំពីសកម្មភាពក្នុងស្ថានភាពជាក់លាក់មួយ។ ឧទាហរណ៍ធម្មតានៃចំណេះដឹងអំពីនីតិវិធីគឺជាការណែនាំសម្រាប់ការប្រើប្រាស់ឧបករណ៍ប្រើប្រាស់ក្នុងផ្ទះ។

មិនដូចចំណេះដឹងផ្នែកប្រកាសទេ ចំណេះដឹងអំពីនីតិវិធីមិនអាចផ្ទៀងផ្ទាត់ថាពិតឬមិនពិតទេ។ ពួកគេអាចត្រូវបានវាយតម្លៃតែដោយជោគជ័យឬបរាជ័យនៃក្បួនដោះស្រាយ។

គោលគំនិតភាគច្រើននៃកញ្ចប់ឧបករណ៍នៃការយល់ដឹងនៃភាសាវិទ្យាគឺដូចគ្នាបេះបិទ៖ ពួកគេកំណត់ក្នុងពេលដំណាលគ្នានូវធាតុពិតមួយចំនួននៃប្រព័ន្ធការយល់ដឹងរបស់មនុស្ស និងវិធីតំណាងឱ្យអង្គភាពទាំងនេះនៅក្នុងភាសាលោហៈមួយចំនួន។ ម្យ៉ាង​ទៀត ធាតុ​នៃ​ភាសា​លោហធាតុ​មាន​ទិដ្ឋភាព​ខាង​វិញ្ញាណ និង​ជា​ឧបករណ៍។ Ontologically, ការបែងចែកនៃចំណេះដឹងប្រកាសនិងនីតិវិធីត្រូវគ្នាទៅនឹងប្រភេទផ្សេងគ្នានៃចំណេះដឹងនៃប្រព័ន្ធការយល់ដឹងរបស់មនុស្ស។ ដូច្នេះ ចំណេះដឹងអំពីវត្ថុជាក់លាក់ វត្ថុនៃការពិត គឺជាការប្រកាសជាចម្បង ហើយសមត្ថភាពមុខងាររបស់មនុស្សក្នុងការដើរ រត់ បើកឡាន ត្រូវបានដឹងនៅក្នុងប្រព័ន្ធនៃការយល់ដឹងថាជាចំណេះដឹងតាមនីតិវិធី។ តាមឧបករណ៍ ចំណេះដឹង (ទាំងនីតិវិធី ontologically និង declarative) អាចត្រូវបានតំណាងជាសំណុំនៃការពិពណ៌នា ការពិពណ៌នា និងជាក្បួនដោះស្រាយ ការណែនាំមួយ។ ម្យ៉ាងវិញទៀត ចំណេះដឹងដែលប្រកាសអំពីវត្ថុនៃការពិត "តារាង" អាចត្រូវបានតំណាងតាមនីតិវិធីជាសំណុំនៃការណែនាំ ក្បួនដោះស្រាយសម្រាប់ការបង្កើតរបស់វា ការជួបប្រជុំគ្នា (= ទិដ្ឋភាពច្នៃប្រឌិតនៃចំណេះដឹងនីតិវិធី) ឬជាក្បួនដោះស្រាយសម្រាប់ការប្រើប្រាស់ធម្មតារបស់វា (= ទិដ្ឋភាពមុខងារចំណេះដឹងអំពីនីតិវិធី) ។ ក្នុងករណីទី 1 នេះអាចជាការណែនាំសម្រាប់ជាងឈើថ្មីថ្មោងហើយទីពីរការពិពណ៌នាអំពីលទ្ធភាពនៃតុការិយាល័យ។ ការសន្ទនាក៏ជាការពិតផងដែរ៖ ចំណេះដឹងអំពីនីតិវិធី ontologically អាចត្រូវបានតំណាងដោយប្រកាស។

វាទាមទារឱ្យមានការពិភាក្សាដាច់ដោយឡែកមួយថាតើចំណេះដឹងដែលប្រកាសអំពី ontologically អាចត្រូវបានតំណាងថាជានីតិវិធី, និងនីតិវិធី ontologically ណាមួយ - ជាការប្រកាស។ អ្នកស្រាវជ្រាវយល់ស្របថា ជាគោលការណ៍ ចំណេះដឹងដែលអាចប្រកាសណាមួយអាចត្រូវបានតំណាងតាមនីតិវិធី ទោះបីជានេះអាចប្រែទៅជាគ្មានសេដ្ឋកិច្ចសម្រាប់ប្រព័ន្ធការយល់ដឹងក៏ដោយ។ ការបញ្ច្រាសគឺស្ទើរតែមិនពិត។ ការពិតគឺថា ចំណេះដឹងផ្នែកប្រកាសគឺមានភាពច្បាស់លាស់ជាងនេះ វាងាយស្រួលសម្រាប់មនុស្សម្នាក់ក្នុងការយល់ជាងចំណេះដឹងតាមនីតិវិធី។ ផ្ទុយ​ទៅ​នឹង​ចំណេះ​ដឹង​ដែល​បាន​ប្រកាស ចំណេះ​ដឹង​អំពី​នីតិវិធី​គឺ​មាន​ន័យ​លើស​លុប។ ដូច្នេះ​សមត្ថភាព​ភាសា​ជា​ចំណេះដឹង​ផ្នែក​នីតិវិធី​ត្រូវបាន​លាក់កំបាំង​ពី​មនុស្ស​ម្នាក់​គឺ​គាត់​មិនបាន​ដឹង​នោះទេ។ ការប៉ុនប៉ងដើម្បីពន្យល់ពីយន្តការនៃមុខងារភាសានាំឱ្យខូចមុខងារ។ ជាឧទាហរណ៍ អ្នកឯកទេសក្នុងវិស័យ lexical semantics ដឹងជាឧទាហរណ៍ថា វិចារណកថារយៈពេលវែងដែលចាំបាច់ដើម្បីសិក្សាផែនការខ្លឹមសារនៃពាក្យ នាំឱ្យការពិតដែលថាអ្នកស្រាវជ្រាវបាត់បង់សមត្ថភាពបែងចែករវាងភាពត្រឹមត្រូវ និងផ្នែកខ្លះ។ ការប្រើប្រាស់ខុសពាក្យដែលបានវិភាគ។ ឧទាហរណ៍ផ្សេងទៀតអាចត្រូវបានដកស្រង់។ វាត្រូវបានគេស្គាល់ថាពីចំណុចនៃទិដ្ឋភាពនៃមេកានិចរាងកាយរបស់មនុស្សគឺ ប្រព័ន្ធស្មុគស្មាញប៉ោលអន្តរកម្មពីរ។

នៅក្នុងទ្រឹស្តីចំណេះដឹង ចំណេះដឹងត្រូវបានសិក្សា និងតំណាងដោយការប្រើប្រាស់ រចនាសម្ព័ន្ធផ្សេងៗចំណេះដឹង - ស៊ុម សេណារីយ៉ូ ផែនការ។ យោងតាមលោក M. Minsky "ស៊ុមគឺជារចនាសម្ព័ន្ធទិន្នន័យដែលបានរចនាឡើងដើម្បីតំណាងឱ្យស្ថានភាពស្តេរ៉េអូ" [Minsky 1978, p.254] ។ លម្អិតបន្ថែមទៀត យើងអាចនិយាយបានថា ស៊ុមគឺជារចនាសម្ព័ន្ធគំនិតសម្រាប់តំណាងប្រកាសនៃចំនេះដឹងអំពីស្ថានភាពបង្រួបបង្រួមតាមរូបធាតុដែលមានលក្ខណៈអក្សរសាស្ត្រដែលមានរន្ធដោតភ្ជាប់គ្នាដោយទំនាក់ទំនងតាមន័យជាក់លាក់មួយចំនួន។ សម្រាប់​គោលបំណង​នៃ​ការ​បង្ហាញ ស៊ុម​មួយ​ត្រូវ​បាន​តំណាង​ជា​ញឹកញាប់​ជា​តារាង ដែល​ជា​ជួរ​ដេក​ដែល​បង្កើត​ជា​រន្ធ។ រន្ធដោតនីមួយៗមានឈ្មោះ និងខ្លឹមសាររបស់វា (សូមមើលតារាងទី 1)។

តារាងទី 1

បំណែកនៃស៊ុម "តារាង" នៅក្នុងទិដ្ឋភាពតារាង

អាស្រ័យលើ ភារកិច្ចជាក់លាក់រចនាសម្ព័ន្ធស៊ុមអាចមានភាពស្មុគស្មាញជាង។ ស៊ុមអាចរួមបញ្ចូលស៊ុមរងដែលបានដាក់ និងឯកសារយោងទៅស៊ុមផ្សេងទៀត។

ជំនួសឱ្យតារាង ទម្រង់បទបង្ហាញនៃការព្យាករណ៍ត្រូវបានប្រើជាញឹកញាប់។ ក្នុង​ករណី​នេះ ស៊ុម​គឺ​ជា​ទម្រង់​នៃ​ការព្យាករណ៍ ឬ​មុខងារ​ជាមួយ​អាគុយម៉ង់។ មានវិធីផ្សេងទៀតដើម្បីតំណាងឱ្យស៊ុមមួយ។ ឧទាហរណ៍វាអាចត្រូវបានតំណាងថាជា tuple ប្រភេទខាងក្រោម: ( (ឈ្មោះស៊ុម) (ឈ្មោះរន្ធ)) (តម្លៃរន្ធ,), ... , (ឈ្មោះរន្ធ n) (តម្លៃរន្ធ n)) ។

ជាធម្មតា ស៊ុមនៅក្នុងភាសាតំណាងចំណេះដឹងមានទម្រង់នេះ។

ដូចជាប្រភេទការយល់ដឹងផ្សេងទៀតនៃភាសាវិទ្យាគណនា គំនិតនៃស៊ុមគឺដូចគ្នាបេះបិទ។ Ontologically វាគឺជាផ្នែកមួយនៃប្រព័ន្ធនៃការយល់ដឹងរបស់មនុស្ស ហើយក្នុងន័យនេះ ស៊ុមអាចត្រូវបានប្រៀបធៀបជាមួយនឹងគោលគំនិតដូចជា gestalt, prototype, stereotype, scheme ។ នៅក្នុងចិត្តវិទ្យានៃការយល់ដឹង ប្រភេទទាំងនេះត្រូវបានពិចារណាយ៉ាងជាក់លាក់ពីទស្សនៈ ontological ។ ដូច្នេះ D. Norman បែងចែកវិធីសំខាន់ពីរនៃអត្ថិភាព និងការរៀបចំនៃចំណេះដឹងនៅក្នុងប្រព័ន្ធការយល់ដឹងរបស់មនុស្ស - បណ្តាញ semantic និងគ្រោងការណ៍។ "គ្រោងការណ៍" គាត់សរសេរថា "ត្រូវបានរៀបចំជាកញ្ចប់នៃចំណេះដឹងដែលបានប្រមូលផ្តុំដើម្បីតំណាងឱ្យឯកតានៃចំណេះដឹងដាច់ដោយឡែកពីគ្នា។ គ្រោងការណ៍របស់ខ្ញុំសម្រាប់ Sam អាចមានព័ត៌មានដែលពិពណ៌នាអំពីលក្ខណៈរូបវន្ត សកម្មភាពរបស់គាត់ និងបុគ្គលិកលក្ខណៈ។ គ្រោងការណ៍នេះទាក់ទងនឹងគ្រោងការណ៍ផ្សេងទៀត ដែលពិពណ៌នាអំពីទិដ្ឋភាពផ្សេងទៀតរបស់វា” [Norman 1998, p. 359]។ ប្រសិនបើយើងយកផ្នែកខាងឧបករណ៍នៃប្រភេទស៊ុម នោះនេះគឺជារចនាសម្ព័ន្ធសម្រាប់តំណាងប្រកាសនៃចំណេះដឹង។ នៅក្នុងប្រព័ន្ធ AI ដែលមានស្រាប់ ស៊ុមអាចបង្កើតបាន។ រចនាសម្ព័ន្ធស្មុគស្មាញចំណេះដឹង; ប្រព័ន្ធស៊ុមអនុញ្ញាតឱ្យមានឋានានុក្រម - ស៊ុមមួយអាចជាផ្នែកមួយនៃស៊ុមមួយផ្សេងទៀត។

នៅក្នុងលក្ខខណ្ឌនៃខ្លឹមសារ គំនិតនៃស៊ុមគឺមានភាពជិតស្និទ្ធនឹងប្រភេទនៃការបកស្រាយ។ ជាការពិតណាស់ រន្ធដោតគឺជា analogue នៃ valence ការបំពេញរន្ធដោតគឺជា analogue នៃ actant មួយ។ ភាពខុសគ្នាចំបងរវាងពួកគេគឺថាការបកស្រាយមានព័ត៌មានពាក់ព័ន្ធតែផ្នែកភាសាអំពីផែនការនៃខ្លឹមសារនៃពាក្យ ហើយស៊ុមទីមួយគឺមិនចាំបាច់ភ្ជាប់ជាមួយពាក្យនោះទេ ហើយទីពីររួមបញ្ចូលព័ត៌មានទាំងអស់ដែលទាក់ទងនឹងបញ្ហាដែលបានផ្តល់ឱ្យ។ ស្ថានភាព រួមទាំងភាសាក្រៅភាសា (ចំណេះដឹងអំពីពិភពលោក) ៣).

សេណារីយ៉ូ គឺជាក្របខណ្ឌគោលគំនិតសម្រាប់តំណាងនីតិវិធីនៃចំណេះដឹងអំពីស្ថានភាព ឬអាកប្បកិរិយាដែលបានកំណត់ទុកជាមុន។ ធាតុស្គ្រីបគឺជាជំហាននៃក្បួនដោះស្រាយ ឬការណែនាំ។ ជាធម្មតាមនុស្សនិយាយអំពី "សេណារីយ៉ូភោជនីយដ្ឋាន", "សេណារីយ៉ូការទិញ" ជាដើម។

ស៊ុមនេះក៏ត្រូវបានប្រើប្រាស់ដើមដំបូងសម្រាប់ការធ្វើបទបង្ហាញអំពីនីតិវិធី (សូមមើលពាក្យ "ស៊ុមនីតិវិធី") ប៉ុន្តែពាក្យ "សេណារីយ៉ូ" ឥឡូវនេះត្រូវបានប្រើប្រាស់ជាទូទៅក្នុងន័យនេះ។ សេណារីយ៉ូអាចត្រូវបានតំណាងមិនត្រឹមតែជាក្បួនដោះស្រាយប៉ុណ្ណោះទេប៉ុន្តែក៏ជាបណ្តាញផងដែរ ចំនុចកំពូលដែលត្រូវគ្នាទៅនឹងស្ថានភាពជាក់លាក់ ហើយអ័ក្សត្រូវគ្នាទៅនឹងការតភ្ជាប់រវាងស្ថានភាព។ រួមជាមួយនឹងគំនិតនៃស្គ្រីប អ្នកស្រាវជ្រាវខ្លះប្រើប្រភេទស្គ្រីបសម្រាប់ធ្វើគំរូកុំព្យូទ័រនៃភាពវៃឆ្លាត។ យោងតាមលោក R. Schenk ស្គ្រីបមួយត្រូវបានទទួលយកជាទូទៅ លំដាប់ល្បី បុព្វហេតុ. ឧទាហរណ៍៖ ស្វែងយល់ពីការសន្ទនា

នៅតាមផ្លូវវាហូរដូចធុង។

អ្នកនៅតែត្រូវទៅហាង: មិនមានអ្វីនៅក្នុងផ្ទះទេ - កាលពីម្សិលមិញភ្ញៀវបានបោសអ្វីៗទាំងអស់។

គឺផ្អែកលើការភ្ជាប់ពាក្យមិនច្បាស់លាស់ដូចជា "ប្រសិនបើភ្លៀង វាមិនគួរឱ្យចង់ទៅខាងក្រៅទេ ព្រោះអ្នកអាចឈឺ" ។ ការតភ្ជាប់ទាំងនេះបង្កើតជាស្គ្រីប ដែលត្រូវបានប្រើដោយអ្នកនិយាយដើមកំណើត ដើម្បីយល់ពីអាកប្បកិរិយាពាក្យសំដី និងមិនមែនពាក្យសម្ដីរបស់គ្នាទៅវិញទៅមក។

ជាលទ្ធផលនៃការអនុវត្តសេណារីយ៉ូទៅនឹងស្ថានភាពបញ្ហាជាក់លាក់មួយ ក ផែនការ) ផែនការមួយត្រូវបានប្រើដើម្បីតំណាងឱ្យចំណេះដឹងអំពីសកម្មភាពដែលអាចនាំទៅដល់គោលដៅជាក់លាក់មួយ។ ផែនការមួយទាក់ទងនឹងគោលដៅទៅនឹងលំដាប់នៃសកម្មភាព។

ក្នុងករណីទូទៅ ផែនការរួមបញ្ចូលនូវលំដាប់នៃនីតិវិធីដែលផ្ទេរស្ថានភាពដំបូងនៃប្រព័ន្ធទៅដំណាក់កាលចុងក្រោយ ហើយនាំទៅដល់ការសម្រេចបាននូវគោលដៅរង និងគោលដៅជាក់លាក់មួយ។ នៅក្នុងប្រព័ន្ធ AI ផែនការកើតឡើងជាលទ្ធផលនៃសកម្មភាពធ្វើផែនការ ឬផែនការនៃម៉ូឌុលដែលត្រូវគ្នា - ម៉ូឌុលធ្វើផែនការ។ ដំណើរការធ្វើផែនការអាចផ្អែកលើការសម្របខ្លួននៃទិន្នន័យពីសេណារីយ៉ូមួយ ឬច្រើន ដែលដំណើរការដោយនីតិវិធីសាកល្បង ដើម្បីដោះស្រាយស្ថានភាពបញ្ហា។ ការអនុវត្តផែនការត្រូវបានអនុវត្តដោយម៉ូឌុលប្រតិបត្តិដែលគ្រប់គ្រងនីតិវិធីនៃការយល់ដឹង និង សកម្មភាពរាងកាយប្រព័ន្ធ។ នៅក្នុងករណីបឋម ផែនការនៅក្នុងប្រព័ន្ធឆ្លាតវៃ គឺជាលំដាប់សាមញ្ញនៃប្រតិបត្តិការ។ នៅក្នុងកំណែស្មុគ្រស្មាញកាន់តែច្រើន ផែនការត្រូវបានភ្ជាប់ជាមួយប្រធានបទជាក់លាក់ ធនធាន សមត្ថភាព គោលដៅរបស់វា ព​ត៌​មាន​លំអិតអំពីស្ថានភាពមានបញ្ហា។ល។ ការលេចចេញនៃផែនការកើតឡើងនៅក្នុងដំណើរការនៃការទំនាក់ទំនងរវាងគំរូនៃពិភពលោក ដែលផ្នែកមួយត្រូវបានបង្កើតឡើងដោយសេណារីយ៉ូ ម៉ូឌុលធ្វើផែនការ និងម៉ូឌុលប្រតិបត្តិ។

មិនដូចស្គ្រីបទេ ផែនការនេះត្រូវបានផ្សារភ្ជាប់ជាមួយនឹងស្ថានភាពជាក់លាក់មួយ អ្នកសំដែងជាក់លាក់ និងបន្តគោលដៅជាក់លាក់មួយ។ ជម្រើសនៃផែនការត្រូវបានគ្រប់គ្រងដោយធនធានរបស់អ្នកម៉ៅការ។ លទ្ធភាពនៃផែនការគឺជាលក្ខខណ្ឌកាតព្វកិច្ចសម្រាប់ជំនាន់របស់វានៅក្នុងប្រព័ន្ធយល់ដឹង ហើយលក្ខណៈលទ្ធភាពមិនអាចអនុវត្តបានចំពោះសេណារីយ៉ូមួយ។

មួយទៀត គំនិតសំខាន់- គំរូនៃពិភពលោក។ គំរូនៃពិភពលោកជាធម្មតាត្រូវបានយល់ថាជាសំណុំនៃចំណេះដឹងអំពីពិភពលោកដែលបានរៀបចំតាមរបៀបជាក់លាក់មួយ ដែលមាននៅក្នុងប្រព័ន្ធការយល់ដឹង ឬគំរូកុំព្យូទ័ររបស់វា។ នៅក្នុងន័យទូទៅបន្តិច គំរូនៃពិភពលោកត្រូវបាននិយាយអំពីជាផ្នែកមួយនៃប្រព័ន្ធយល់ដឹងដែលរក្សាទុកចំណេះដឹងអំពីរចនាសម្ព័ន្ធនៃពិភពលោក គំរូរបស់វាជាដើម។ ក្នុងន័យមួយទៀត គំរូនៃពិភពលោកត្រូវបានផ្សារភ្ជាប់ជាមួយនឹងលទ្ធផល។ នៃការយល់ដឹងអំពីអត្ថបទ ឬនិយាយយ៉ាងទូលំទូលាយជាងនេះ។ នៅក្នុងដំណើរការនៃការយល់ដឹងអំពីសុន្ទរកថានោះ គំរូផ្លូវចិត្តរបស់វាត្រូវបានបង្កើតឡើង ដែលជាលទ្ធផលនៃអន្តរកម្មរវាងផែនការនៃខ្លឹមសារនៃអត្ថបទ និងចំណេះដឹងអំពីពិភពលោកដែលមាននៅក្នុងប្រធានបទនេះ [Johnson-Laird 1988, p. 237 et វគ្គ។] ការយល់ដឹងទីមួយ និងទីពីរត្រូវបានបញ្ចូលគ្នាជាញឹកញាប់។ នេះ​ជា​តួយ៉ាង​នៃ​អ្នក​ស្រាវជ្រាវ​ភាសា​ដែល​ធ្វើការ​ក្នុង​ផ្នែក​ភាសាវិទ្យា និង​វិទ្យាសាស្ត្រ​ការយល់ដឹង។

ទាក់ទងយ៉ាងជិតស្និទ្ធទៅនឹងប្រភេទនៃស៊ុមគឺជាគំនិតនៃឈុតមួយ។ ប្រភេទឈុតត្រូវបានប្រើប្រាស់ជាចម្បងនៅក្នុងអក្សរសិល្ប៍ជាការរចនានៃរចនាសម្ព័ន្ធគំនិតសម្រាប់តំណាងប្រកាសនៃស្ថានភាព និងផ្នែករបស់ពួកគេបានអនុវត្តជាក់ស្តែងនៅក្នុងសកម្មភាពសុន្ទរកថា និងត្រូវបានរំលេចដោយមធ្យោបាយភាសា (lexemes, សំណង់វាក្យសម្ព័ន្ធ, ប្រភេទវេយ្យាករណ៍។ល។)។ ដោយត្រូវបានផ្សារភ្ជាប់ជាមួយនឹងទម្រង់ភាសា ឈុតនេះត្រូវបានធ្វើបច្ចុប្បន្នភាពជាញឹកញាប់ ពាក្យជាក់លាក់ឬការបញ្ចេញមតិ។ នៅក្នុងវេយ្យាករណ៍គ្រោង (សូមមើលខាងក្រោម) ឈុតមួយលេចឡើងជាផ្នែកនៃវគ្គ ឬនិទានរឿង។ ឧទាហរណ៍ធម្មតា។ឈុតឆាក - សំណុំនៃគូបដែលប្រព័ន្ធ AI ធ្វើការជាមួយ ឈុតក្នុងរឿង និងអ្នកចូលរួមក្នុងសកម្មភាព។ល។ ក្នុង​បញ្ញា​សិប្បនិម្មិត ឈុតឆាក​ត្រូវ​បាន​ប្រើ​ក្នុង​ប្រព័ន្ធ​ទទួល​ស្គាល់​រូបភាព ព្រម​ទាំង​ក្នុង​កម្មវិធី​ដែល​ផ្តោត​លើ​ការ​ស្រាវជ្រាវ (ការវិភាគ ការ​ពិពណ៌នា) ស្ថានភាពបញ្ហា. គោលគំនិតនៃឈុតមួយបានរីករាលដាលនៅក្នុងទ្រឹស្តីភាសាវិទ្យា ក៏ដូចជាក្នុងតក្កវិជ្ជា ជាពិសេសនៅក្នុងន័យន័យស្ថានការណ៍ ដែលអត្ថន័យនៃឯកតា lexical ត្រូវបានទាក់ទងដោយផ្ទាល់ជាមួយកន្លែងកើតហេតុ។