ប្រវត្តិសាស្រ្តនៃភាសាវិទ្យាគណនា។ ភាសាវិទ្យាគណនាគឺជាអ្វី? កញ្ចប់ឧបករណ៍ការយល់ដឹងនៃភាសាវិទ្យាគណនា

Novoselova អ៊ីរីណា

ហេតុអ្វីបានជាការបកប្រែតាមម៉ាស៊ីនទាំងអស់មិនល្អឥតខ្ចោះ? តើអ្វីកំណត់គុណភាពនៃការបកប្រែ? តើអ្នកនិពន្ធមានចំណេះដឹងគ្រប់គ្រាន់ក្នុងការប្រើប្រាស់ និងបន្ថែមវចនានុក្រមកុំព្យូទ័រដែលមានស្រាប់ទេ? អ្នកនិពន្ធបានព្យាយាមផ្តល់ចម្លើយចំពោះសំណួរទាំងនេះនៅក្នុងការងាររបស់នាង។ រាយការណ៍អំពីប្រធានបទ - នៅក្នុងឯកសារភ្ជាប់ផលិតផលនៃសកម្មភាពគម្រោង - នៅលើវិបផតថលសាលា

ទាញយក៖

មើលជាមុន៖

បើក

អន្តរជាតិ

ស្រាវជ្រាវ

សន្និសីទ

សិស្សវិទ្យាល័យ និងសិស្សានុសិស្ស

"ការអប់រំ។ វិទ្យាសាស្ត្រ។ វិជ្ជាជីវៈ"

ផ្នែក "ភាសាវិទ្យាបរទេស"

"ភាសាវិទ្យាកុំព្យូទ័រ"

ផលិតដោយ Irina Novosyolova

កន្លែងហាត់ប្រាណ MOU លេខ 39 "Classic"

១០ ថ្នាក់ "ខ"

អ្នកគ្រប់គ្រងវិទ្យាសាស្ត្រ៖

Chigrineva Tatyana Dmitrievna,

គ្រូភាសាអង់គ្លេសនៃប្រភេទខ្ពស់បំផុត

Osipova Svetlana Leonidovna,

គ្រូបង្រៀនវិទ្យាសាស្ត្រកុំព្យូទ័រនៃប្រភេទខ្ពស់បំផុត

ទីក្រុង Otradny

2011

  1. ពាក្យអង់គ្លេសក្នុង ICT

មើលគេហទំព័រ

  1. ការពិសោធន៍របស់ខ្ញុំ

ភារកិច្ចមួយគឺធ្វើការពិសោធន៍ ដែលមាននៅក្នុងការប្រៀបធៀបសមត្ថភាពនៃវចនានុក្រមភាសាកុំព្យូទ័រផ្សេងៗ សម្រាប់ការបកប្រែត្រឹមត្រូវ និងប្រហាក់ប្រហែលពីភាសាអង់គ្លេសទៅរុស្ស៊ី។

គេហទំព័រខាងក្រោមត្រូវបានសាកល្បង៖

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

សម្រាប់ភាពបរិសុទ្ធនៃការពិសោធន៍ ខ្ញុំបានជ្រើសរើសប្រយោគដែលមានកម្រិតខុសគ្នានៃភាពស្មុគស្មាញនៃការបកប្រែតាមរចនាប័ទ្ម។ ឃ្លាបញ្ចូលមានដូចខាងក្រោម៖

1. របាយ​ការណ៍​ថ្មី​មួយ​និយាយ​ថា ក្មេង​ជំទង់​សព្វ​ថ្ងៃ​មាន​ភាព​អាត្មានិយម​ជាង​កាល​ពី​២០​ឆ្នាំ​មុន។

(របាយការណ៍​ថ្មី​និយាយ​ថា យុវវ័យ​សម័យ​នេះ​មាន​ភាព​អាត្មានិយម​ជាង​កាល​ពី​២០​ឆ្នាំ​មុន)

2. នាងជឿថាវីដេអូហ្គេម និងអ៊ីនធឺណិតគឺជាហេតុផលដ៏ធំបំផុតសម្រាប់ការកើនឡើងនៃភាពអាត្មានិយមនេះ។

(នាងជឿថាវីដេអូហ្គេម និងអ៊ីនធឺណិតគឺជាហេតុផលដ៏ធំបំផុតសម្រាប់ភាពអាត្មានិយមដែលកំពុងកើនឡើងនេះ)

3. ពួកគេចង់ប្រសើរជាងអ្នកដទៃ

(ពួកគេចង់ប្រសើរជាងអ្នកផ្សេងទៀត)

4. នាងបានរកឃើញថាការកើនឡើងដ៏ធំបានចាប់ផ្តើមតាំងពីឆ្នាំ 2000 ដែលជាពេលដែលវីដេអូហ្គេមហឹង្សាបានក្លាយជាការពេញនិយមយ៉ាងខ្លាំង។

(នាងបានរកឃើញកំណើនជាច្រើនដែលចាប់ផ្តើមនៅឆ្នាំ 2000 នៅពេលដែលហ្គេមវីដេអូហឹង្សាបានក្លាយជាការពេញនិយមយ៉ាងខ្លាំង)

បន្ទាប់ពីបកប្រែប្រយោគទាំងនេះនៅលើគេហទំព័រអ្នកបកប្រែតាមអ៊ីនធឺណិត ខ្ញុំទទួលបានលទ្ធផលដូចខាងក្រោម៖

  1. http://translate.eu/

ភាសាវិទ្យាគណនា៖ វិធីសាស្រ្ត ធនធាន កម្មវិធី

សេចក្តីផ្តើម

រយៈពេល ភាសាវិទ្យាគណនា(CL) ក្នុងប៉ុន្មានឆ្នាំថ្មីៗនេះគឺជារឿងធម្មតាកាន់តែខ្លាំងឡើងនៅក្នុងការតភ្ជាប់ជាមួយនឹងការអភិវឌ្ឍន៍ប្រព័ន្ធកម្មវិធីដែលបានអនុវត្តផ្សេងៗ រួមទាំងផលិតផលកម្មវិធីពាណិជ្ជកម្មផងដែរ។ នេះគឺដោយសារតែការរីកចម្រើនយ៉ាងឆាប់រហ័សនៅក្នុងសង្គមនៃព័ត៌មានអត្ថបទ រួមទាំងនៅលើអ៊ីនធឺណិត និងតម្រូវការសម្រាប់ដំណើរការដោយស្វ័យប្រវត្តិនៃអត្ថបទជាភាសាធម្មជាតិ (NL)។ កាលៈទេសៈនេះជំរុញឱ្យមានការវិវឌ្ឍន៍នៃភាសាវិទ្យាក្នុងការគណនាជាវិស័យវិទ្យាសាស្ត្រ និងការអភិវឌ្ឍន៍នៃបច្ចេកវិទ្យាព័ត៌មាន និងភាសាវិទ្យាថ្មី។

នៅក្នុងក្របខណ្ឌនៃភាសាវិទ្យាគណនាដែលមានអាយុកាលជាង 50 ឆ្នាំ (ហើយត្រូវបានគេស្គាល់ផងដែរក្រោមឈ្មោះ ភាសាម៉ាស៊ីន, ដំណើរការពាក្យដោយស្វ័យប្រវត្តិនៅក្នុង NL) វិធីសាស្រ្ត និងគំនិតជោគជ័យជាច្រើនត្រូវបានស្នើឡើង ប៉ុន្តែមិនមែនពួកគេទាំងអស់មិនទាន់រកឃើញការបញ្ចេញមតិរបស់ពួកគេនៅក្នុងផលិតផលកម្មវិធីដែលប្រើក្នុងការអនុវត្តនោះទេ។ គោលដៅរបស់យើងគឺដើម្បីកំណត់លក្ខណៈជាក់លាក់នៃផ្នែកនៃការស្រាវជ្រាវនេះ បង្កើតភារកិច្ចចម្បងរបស់វា បង្ហាញពីទំនាក់ទំនងរបស់វាជាមួយវិទ្យាសាស្ត្រផ្សេងទៀត ផ្តល់ទិដ្ឋភាពសង្ខេបនៃវិធីសាស្រ្ត និងធនធានសំខាន់ៗដែលបានប្រើប្រាស់ និងកំណត់លក្ខណៈដោយសង្ខេបនៃកម្មវិធីដែលមានស្រាប់របស់ CL ។ សម្រាប់អ្នកស្គាល់កាន់តែលម្អិតអំពីបញ្ហាទាំងនេះ សៀវភៅអាចត្រូវបានណែនាំ។

1. ភារកិច្ចនៃភាសាវិទ្យាគណនា

ភាសាវិទ្យា​បាន​កើត​ឡើង​នៅ​ចំណុច​ប្រសព្វ​នៃ​វិទ្យាសាស្ត្រ​ដូច​ជា ភាសាវិទ្យា គណិតវិទ្យា វិទ្យាសាស្ត្រ​កុំព្យូទ័រ (វិទ្យាសាស្ត្រ​កុំព្យូទ័រ) និង​បញ្ញា​សិប្បនិម្មិត។ ប្រភពដើមនៃ CL ត្រឡប់ទៅការស្រាវជ្រាវរបស់អ្នកវិទ្យាសាស្ត្រអាមេរិកដ៏ល្បីល្បាញ N. Chomsky នៅក្នុងវិស័យនៃទម្រង់បែបបទនៃរចនាសម្ព័ន្ធនៃភាសាធម្មជាតិ។ ការអភិវឌ្ឍន៍របស់វាគឺផ្អែកលើលទ្ធផលនៅក្នុងវិស័យភាសាវិទ្យាទូទៅ (ភាសាវិទ្យា) ។ ភាសាវិទ្យាសិក្សាអំពីច្បាប់ទូទៅនៃភាសាធម្មជាតិ - រចនាសម្ព័ន្ធ និងមុខងាររបស់វា ហើយរួមបញ្ចូលផ្នែកដូចខាងក្រោមៈ

Ø សូរស័ព្ទ- សិក្សាសំឡេងនៃការនិយាយនិងច្បាប់សម្រាប់ការបញ្ចូលគ្នារបស់ពួកគេក្នុងការបង្កើតការនិយាយ;

Ø សរីរវិទ្យា- ដោះស្រាយជាមួយនឹងរចនាសម្ព័ន្ធខាងក្នុង និងទម្រង់ខាងក្រៅនៃពាក្យសំដី រួមទាំងផ្នែកនៃការនិយាយ និងប្រភេទរបស់ពួកគេ;

Ø វាក្យសម្ពន្ធ- សិក្សារចនាសម្ព័ន្ធនៃប្រយោគ ច្បាប់នៃភាពត្រូវគ្នា និងលំដាប់នៃពាក្យក្នុងប្រយោគ ក៏ដូចជាលក្ខណៈសម្បត្តិទូទៅរបស់វាជាឯកតានៃភាសា។

Ø សមីការនិងការអនុវត្តជាក់ស្តែង- ផ្នែកដែលទាក់ទងយ៉ាងជិតស្និទ្ធ៖ ន័យធៀបទាក់ទងនឹងអត្ថន័យនៃពាក្យ ប្រយោគ និងឯកតាផ្សេងទៀតនៃការនិយាយ ហើយការអនុវត្តជាក់ស្តែងទាក់ទងនឹងលក្ខណៈពិសេសនៃការបង្ហាញអត្ថន័យនេះទាក់ទងនឹងគោលដៅជាក់លាក់នៃការទំនាក់ទំនង។

Ø វចនានុក្រមពិពណ៌នាអំពីវចនានុក្រមនៃ SL ជាក់លាក់មួយ - ពាក្យនីមួយៗ និងលក្ខណៈសម្បត្តិវេយ្យាករណ៍របស់ពួកគេ ក៏ដូចជាវិធីសាស្រ្តសម្រាប់បង្កើតវចនានុក្រម។

លទ្ធផលរបស់ N. Chomsky ដែលទទួលបាននៅចំនុចប្រសព្វនៃភាសាវិទ្យា និងគណិតវិទ្យា បានដាក់មូលដ្ឋានគ្រឹះសម្រាប់ទ្រឹស្តីនៃភាសាផ្លូវការ និងវេយ្យាករណ៍ (ជារឿយៗគេហៅថា ជំនាន់, ឬ ជំនាន់វេយ្យាករណ៍) ។ ទ្រឹស្តីនេះគឺឥឡូវនេះ ភាសាគណិតវិទ្យានិងត្រូវបានប្រើដើម្បីដំណើរការ NL មិនសូវច្រើនទេ ប៉ុន្តែជាភាសាសិប្បនិម្មិត ជាភាសាសរសេរកម្មវិធីជាចម្បង។ តាមធម្មជាតិ វាគឺជាវិន័យគណិតវិទ្យា។

ភាសាគណិតវិទ្យាក៏រួមបញ្ចូលផងដែរ។ ភាសាវិទ្យាបរិមាណសិក្សាលក្ខណៈប្រេកង់នៃភាសា - ពាក្យ បន្សំរបស់វា សំណង់វាក្យសម្ព័ន្ធ។

CL ក៏ទាក់ទងយ៉ាងជិតស្និទ្ធទៅនឹងវិស័យវិទ្យាសាស្ត្រអន្តរកម្មដូចជាបញ្ញាសិប្បនិម្មិត (AI) ដែលនៅក្នុងនោះគំរូកុំព្យូទ័រនៃមុខងារបញ្ញានីមួយៗត្រូវបានបង្កើតឡើង។ កម្មវិធីមួយក្នុងចំនោមកម្មវិធីធ្វើការដំបូងគេក្នុងវិស័យ AI និង CL គឺជាកម្មវិធីដ៏ល្បីរបស់ T. Winograd ដែលយល់ពីការបញ្ជាទិញដ៏សាមញ្ញបំផុតរបស់មនុស្សក្នុងការផ្លាស់ប្តូរពិភពលោកនៃគូប ដែលបង្កើតនៅលើសំណុំរងមានកំណត់នៃ NL ។ គួរកត់សម្គាល់ថា ទោះបីជាមានការប្រសព្វជាក់ស្តែងនៃការស្រាវជ្រាវនៅក្នុងវិស័យ CL និង AI (ចាប់តាំងពីជំនាញភាសាទាក់ទងនឹងមុខងារបញ្ញា) AI មិនស្រូបយក CL ទាំងអស់ទេព្រោះវាមានមូលដ្ឋានទ្រឹស្តី និងវិធីសាស្រ្តផ្ទាល់ខ្លួន។ ជាទូទៅសម្រាប់វិទ្យាសាស្ត្រទាំងនេះគឺការធ្វើគំរូតាមកុំព្យូទ័រជាវិធីសាស្ត្រចម្បង និងគោលដៅចុងក្រោយនៃការស្រាវជ្រាវ។

ដូច្នេះភារកិច្ចរបស់ CL អាចត្រូវបានបង្កើតជាការបង្កើតកម្មវិធីកុំព្យូទ័រសម្រាប់ដំណើរការដោយស្វ័យប្រវត្តិនៃអត្ថបទនៅក្នុង NL ។ ហើយទោះបីជាដំណើរការត្រូវបានយល់យ៉ាងទូលំទូលាយក៏ដោយក៏ឆ្ងាយពីគ្រប់ប្រភេទនៃដំណើរការអាចត្រូវបានគេហៅថាភាសាហើយដំណើរការដែលត្រូវគ្នាអាចត្រូវបានគេហៅថាភាសា។ ឧបករណ៍ដំណើរការភាសាត្រូវតែប្រើគំរូផ្លូវការមួយ ឬមួយផ្សេងទៀតនៃភាសា (ទោះបីជាវាសាមញ្ញបំផុតក៏ដោយ) ដែលមានន័យថា វាត្រូវតែពឹងផ្អែកលើភាសាតាមមធ្យោបាយមួយ ឬមធ្យោបាយផ្សេងទៀត (នោះគឺអាស្រ័យលើ NL ជាក់លាក់មួយ)។ ដូច្នេះ ជាឧទាហរណ៍ កម្មវិធីនិពន្ធអត្ថបទ Mycrosoft Word អាចត្រូវបានគេហៅថាភាសាវិទ្យា (ប្រសិនបើវាប្រើវចនានុក្រម) ប៉ុន្តែកម្មវិធីនិពន្ធ NotePad មិនមែនទេ។

ភាពស្មុគស្មាញនៃភារកិច្ចរបស់ CL គឺដោយសារតែការពិតដែលថា NL គឺជាប្រព័ន្ធពហុកម្រិតស្មុគ្រស្មាញនៃសញ្ញាដែលកើតឡើងសម្រាប់ការផ្លាស់ប្តូរព័ត៌មានរវាងមនុស្សដែលត្រូវបានបង្កើតឡើងនៅក្នុងដំណើរការនៃសកម្មភាពជាក់ស្តែងរបស់មនុស្សនិងការផ្លាស់ប្តូរជានិច្ចទាក់ទងនឹងសកម្មភាពនេះ។ . ការលំបាកមួយទៀតក្នុងការអភិវឌ្ឍន៍វិធីសាស្រ្ត CL (និងការលំបាកក្នុងការសិក្សា SL ក្នុងក្របខ័ណ្ឌនៃភាសាវិទ្យា) ត្រូវបានផ្សារភ្ជាប់ជាមួយនឹងភាពចម្រុះនៃភាសាធម្មជាតិ ភាពខុសគ្នាយ៉ាងសំខាន់នៅក្នុងវាក្យសព្ទ សរីរវិទ្យា វាក្យសម្ព័ន្ធ ភាសាផ្សេងគ្នាផ្តល់នូវវិធីផ្សេងគ្នានៃការបញ្ចេញមតិ។ អត្ថន័យ​ដូចគ្នា។

2. លក្ខណៈពិសេសនៃប្រព័ន្ធ NL: កម្រិត និងការតភ្ជាប់

វត្ថុនៃដំណើរការភាសាគឺជាអត្ថបទរបស់ NL ។ អត្ថបទត្រូវបានគេយល់ថាជាគំរូនៃការនិយាយ - ផ្ទាល់មាត់ និងជាលាយលក្ខណ៍អក្សរនៃប្រភេទណាមួយ ប៉ុន្តែជាទូទៅ CL ពិចារណាលើអត្ថបទដែលសរសេរ។ អត្ថបទមានវិមាត្រមួយ រចនាសម្ព័ន្ធលីនេអ៊ែរ ហើយក៏មានអត្ថន័យជាក់លាក់មួយ ខណៈពេលដែលភាសាដើរតួជាមធ្យោបាយនៃការបំប្លែងអត្ថន័យដែលបានបញ្ជូនទៅជាអត្ថបទ (ការសំយោគការនិយាយ) និងច្រាសមកវិញ (ការវិភាគការនិយាយ)។ អត្ថបទត្រូវបានផ្សំឡើងដោយឯកតាតូចៗ ហើយមានវិធីជាច្រើនក្នុងការបំបែក (បែងចែក) អត្ថបទទៅជាឯកតានៃកម្រិតផ្សេងៗគ្នា។

អត្ថិភាពនៃកម្រិតខាងក្រោមត្រូវបានទទួលស្គាល់ជាទូទៅ៖

កម្រិតនៃប្រយោគ (សេចក្តីថ្លែងការណ៍) - កម្រិតសំយោគ;

· Lexico-morphologicalភាពដូចគ្នា (ប្រភេទទូទៅបំផុត) កើតឡើងនៅពេលដែលទម្រង់ពាក្យនៃ lexemes ពីរផ្សេងគ្នាស្របគ្នា ឧទាហរណ៍។ - កិរិយាស័ព្ទក្នុងឯកវចនៈបុរស និងនាមក្នុងឯកវចនៈ ករណីតែងតាំង)

· ភាពដូចគ្នាបេះបិទបង្ហាញពីភាពមិនច្បាស់លាស់នៅក្នុងរចនាសម្ព័ន្ធវាក្យសម្ព័ន្ធ ដែលនាំឱ្យមានការបកស្រាយជាច្រើន៖ និស្សិតមកពី Lvov បានទៅ Kiev,ការហោះហើរ យន្តហោះ អាច ក្លាយជា គ្រោះថ្នាក់(ឧទាហរណ៍ដ៏ល្បីល្បាញរបស់ Chomsky) ។ល។

3. គំរូក្នុងភាសាវិទ្យាគណនា

ការអភិវឌ្ឍន៍នៃដំណើរការភាសា (LP) ពាក់ព័ន្ធនឹងការពិពណ៌នាអំពីលក្ខណៈសម្បត្តិភាសានៃអត្ថបទដែលបានដំណើរការនៃ NL ហើយការពិពណ៌នានេះត្រូវបានរៀបចំជា គំរូ ភាសា. ដូចនៅក្នុងការធ្វើគំរូក្នុងគណិតវិទ្យា និងការសរសេរកម្មវិធី គំរូមួយត្រូវបានគេយល់ថាជាប្រព័ន្ធមួយចំនួនដែលឆ្លុះបញ្ចាំងពីលក្ខណៈសម្បត្តិសំខាន់ៗមួយចំនួននៃបាតុភូតដែលកំពុងត្រូវបានយកគំរូតាម (i.e., NL) ហើយដូច្នេះមានភាពស្រដៀងគ្នានៃរចនាសម្ព័ន្ធ ឬមុខងារ។

គំរូនៃភាសាដែលប្រើក្នុង CL ជាធម្មតាត្រូវបានបង្កើតឡើងដោយផ្អែកលើទ្រឹស្ដីដែលបង្កើតឡើងដោយអ្នកភាសាវិទ្យា ដោយសិក្សាអត្ថបទផ្សេងៗ និងផ្អែកលើវិចារណញាណភាសារបស់ពួកគេ (វិចារណញាណ)។ តើម៉ូដែល KL មានលក្ខណៈជាក់លាក់អ្វីខ្លះ? លក្ខណៈពិសេសខាងក្រោមអាចត្រូវបានសម្គាល់:

ទម្រង់បែបបទ និងទីបំផុត ភាពអាចសម្រេចបាននៃក្បួនដោះស្រាយ;

មុខងារ (គោលបំណងនៃគំរូគឺដើម្បីបង្កើតមុខងារនៃភាសាជា "ប្រអប់ខ្មៅ" ដោយមិនបង្កើតគំរូត្រឹមត្រូវសម្រាប់ការសំយោគ និងការវិភាគនៃការនិយាយរបស់មនុស្ស);

ភាពទូទៅនៃគំរូ ពោលគឺវាត្រូវគិតពីសំណុំអត្ថបទធំជាង។

· សុពលភាពសាកល្បង ដែលពាក់ព័ន្ធនឹងការសាកល្បងគំរូលើអត្ថបទផ្សេងៗ។

· ការពឹងផ្អែកលើវចនានុក្រមជាធាតុផ្សំចាំបាច់នៃគំរូ។

ភាពស្មុគ្រស្មាញនៃ SL ការពិពណ៌នា និងដំណើរការរបស់វានាំទៅដល់ការបែងចែកដំណើរការនេះទៅជាដំណាក់កាលដាច់ដោយឡែកដែលត្រូវគ្នាទៅនឹងកម្រិតនៃភាសា។ LPs ទំនើបភាគច្រើនជាប្រភេទម៉ូឌុល ដែលកម្រិតនីមួយៗនៃការវិភាគភាសា ឬសំយោគត្រូវគ្នានឹងផ្នែកដាច់ដោយឡែក។ ម៉ូឌុលដំណើរការ។ ជាពិសេសនៅក្នុងករណីនៃការវិភាគអត្ថបទ ម៉ូឌុល LP នីមួយៗអនុវត្ត៖

Ø ការវិភាគក្រាហ្វិក ពោលគឺការបន្លិចទម្រង់ពាក្យក្នុងអត្ថបទ (ការផ្លាស់ប្តូរពីតួអក្សរទៅពាក្យ);

Ø ការវិភាគ morphological - ការផ្លាស់ប្តូរពីទម្រង់ពាក្យទៅជាពាក្យរបស់ពួកគេ។ លឹមម៉ា(ទម្រង់វចនានុក្រមនៃ lexemes) ឬ មូលដ្ឋាន(ផ្នែកនុយក្លេអ៊ែរនៃពាក្យ, ដក morphemes inflectional);

Ø ការវិភាគសមកាលកម្ម ពោលគឺការកំណត់រចនាសម្ព័ន្ធវេយ្យាករណ៍នៃប្រយោគអត្ថបទ។

Ø ការវិភាគតាមន័យ និងជាក់ស្តែង ដែលកំណត់អត្ថន័យនៃឃ្លា និងប្រតិកម្មដែលត្រូវគ្នានៃប្រព័ន្ធដែល LP ដំណើរការ។

គ្រោងការណ៍ផ្សេងគ្នានៃអន្តរកម្មនៃម៉ូឌុលទាំងនេះគឺអាចធ្វើទៅបាន (ការងារបន្តបន្ទាប់គ្នាឬការវិភាគប៉ារ៉ាឡែល) ទោះជាយ៉ាងណាក៏ដោយកម្រិតបុគ្គល - morphology វាក្យសម្ព័ន្ធនិងអត្ថន័យនៅតែដំណើរការដោយយន្តការផ្សេងៗគ្នា។

ដូច្នេះ LP អាច​ត្រូវ​បាន​គេ​ចាត់​ទុក​ថា​ជា​កម្មវិធី​បំប្លែង​ពហុ​ដំណាក់កាល ដែល​ក្នុង​ករណី​នៃ​ការ​វិភាគ​អត្ថបទ បកប្រែ​ប្រយោគ​នីមួយៗ​របស់​វា​ទៅ​ជា​តំណាង​ផ្ទៃក្នុង​នៃ​អត្ថន័យ​របស់​វា ហើយ​ផ្ទុយ​មក​វិញ​ក្នុង​ករណី​សំយោគ។ គំរូភាសាដែលត្រូវគ្នាអាចត្រូវបានហៅ រចនាសម្ព័ន្ធ.

ទោះបីជាគំរូ CL ពេញលេញតម្រូវឱ្យគិតគូរពីគ្រប់កម្រិតសំខាន់ៗនៃភាសា និងលទ្ធភាពនៃម៉ូឌុលសមស្របក៏ដោយ នៅពេលដោះស្រាយបញ្ហាដែលបានអនុវត្តខ្លះ វាអាចធ្វើទៅបានដោយគ្មានការតំណាងនៃកម្រិតបុគ្គលនៅក្នុង LP ។ ឧទាហរណ៍ នៅក្នុងកម្មវិធី CL ពិសោធន៍ដំបូង អត្ថបទដែលបានដំណើរការជាកម្មសិទ្ធិរបស់ផ្នែកបញ្ហាតូចចង្អៀតខ្លាំង (ជាមួយនឹងសំណុំពាក្យដែលមានកំណត់ និងលំដាប់ពាក្យដ៏តឹងរឹង) ដូច្នេះការទទួលស្គាល់ពាក្យអាចប្រើអក្សរដំបូងរបស់ពួកគេ ដោយលុបចោលដំណាក់កាលនៃការវិភាគ morphological និង syntactic ។ .

ឧទាហរណ៍មួយទៀតនៃគំរូកាត់បន្ថយ ដែលឥឡូវនេះត្រូវបានគេប្រើញឹកញាប់ណាស់ គឺជាគំរូភាសានៃប្រេកង់នៃនិមិត្តសញ្ញា និងបន្សំរបស់វា (bigrams, trigrams ។ល។) នៅក្នុងអត្ថបទនៃ NL ជាក់លាក់មួយ។ បែប គំរូស្ថិតិបង្ហាញព័ត៌មានភាសានៅកម្រិតតួអក្សរ (អក្សរ) នៃអត្ថបទ ហើយវាគ្រប់គ្រាន់ ឧទាហរណ៍ ដើម្បីរកឱ្យឃើញការវាយអក្សរនៅក្នុងអត្ថបទ ឬដើម្បីទទួលស្គាល់ទំនាក់ទំនងភាសារបស់វា។ គំរូស្រដៀងគ្នាដោយផ្អែកលើស្ថិតិនៃពាក្យបុគ្គល និងការកើតឡើងរួមគ្នារបស់ពួកគេនៅក្នុងអត្ថបទ (bigrams, trigrams នៃពាក្យ) ត្រូវបានប្រើឧទាហរណ៍ ដើម្បីដោះស្រាយភាពមិនច្បាស់លាស់នៃពាក្យចម្បល់ ឬកំណត់ផ្នែកនៃការនិយាយនៃពាក្យមួយ (ជាភាសាដូចជាភាសាអង់គ្លេស) .

ចំណាំថាវាអាចទៅរួច គំរូរចនាសម្ព័ន្ធ - ស្ថិតិដែលក្នុងនោះស្ថិតិជាក់លាក់ត្រូវបានយកមកពិចារណានៅពេលបង្ហាញកម្រិតនីមួយៗនៃ NL - ពាក្យ សំណង់វាក្យសម្ព័ន្ធ។ល។

នៅក្នុងប្រភេទម៉ូឌុល LP នៅដំណាក់កាលនីមួយៗនៃការវិភាគអត្ថបទ ឬសំយោគ គំរូសមស្របមួយ (morphology វាក្យសម្ព័ន្ធ។ល។) ត្រូវបានប្រើ។

គំរូ morphological នៃការវិភាគនៃទម្រង់ពាក្យដែលមាននៅក្នុង CL ខុសគ្នាជាចម្បងនៅក្នុងប៉ារ៉ាម៉ែត្រដូចខាងក្រោម:

លទ្ធផលនៃការងារគឺ ឡឺម៉ា ឬដើមជាមួយនឹងសំណុំនៃលក្ខណៈ morphological (ភេទ, ​​ចំនួន, ករណី, ប្រភេទ, មនុស្ស។ ល។ ) នៃទម្រង់ពាក្យដែលបានផ្តល់ឱ្យ;

វិធីសាស្រ្តនៃការវិភាគ - ផ្អែកលើវចនានុក្រមនៃទម្រង់ពាក្យនៃភាសាឬនៅលើវចនានុក្រមនៃមូលដ្ឋានឬវិធីសាស្រ្តមិនមែនវចនានុក្រម;

· លទ្ធភាពនៃការដំណើរការទម្រង់ពាក្យនៃ lexeme ដែលមិនត្រូវបានបញ្ចូលក្នុងវចនានុក្រម។

នៅក្នុងការសំយោគ morphological ទិន្នន័យដំបូងគឺ lexeme និងលក្ខណៈ morphological ជាក់លាក់នៃទម្រង់ពាក្យដែលបានស្នើសុំនៃ lexeme ដែលបានផ្តល់ឱ្យ វាក៏អាចធ្វើទៅបានដើម្បីស្នើសុំការសំយោគនៃទម្រង់ទាំងអស់នៃ lexeme ដែលបានផ្តល់ឱ្យ។ លទ្ធផលនៃការវិភាគ និងការសំយោគ morphological ជាទូទៅគឺមិនច្បាស់លាស់។

ដើម្បីធ្វើគំរូវាក្យសម្ព័ន្ធក្នុងក្របខណ្ឌនៃ CL គំនិត និងវិធីសាស្រ្តផ្សេងៗគ្នាជាច្រើនត្រូវបានស្នើឡើង ដែលខុសគ្នានៅក្នុងវិធីដែលវាក្យសម្ព័ន្ធនៃភាសាត្រូវបានពិពណ៌នា វិធីដែលព័ត៌មាននេះត្រូវបានប្រើក្នុងការវិភាគ ឬការសំយោគប្រយោគ SL និង ក៏ជាវិធីដែលរចនាសម្ព័ន្ធវាក្យសម្ព័ន្ធនៃប្រយោគត្រូវបានបង្ហាញផងដែរ។ វាគឺអាចធ្វើទៅបានតាមលក្ខខណ្ឌក្នុងការដាក់ចេញនូវវិធីសាស្រ្តសំខាន់ៗចំនួនបីក្នុងការបង្កើតគំរូ៖ វិធីសាស្រ្តទូទៅដែលត្រលប់ទៅគំនិតរបស់ Chomsky ដែលជាវិធីសាស្រ្តដែលត្រលប់ទៅគំនិតរបស់ I. Melchuk ហើយត្រូវបានតំណាងដោយ Meaning Text model ផងដែរ។ ជាវិធីសាស្រ្តមួយដែលការប៉ុនប៉ងជាក់លាក់ត្រូវបានធ្វើឡើងដើម្បីយកឈ្នះលើដែនកំណត់នៃវិធីសាស្រ្តពីរដំបូង ជាពិសេសទ្រឹស្តីនៃក្រុមវាក្យសម្ព័ន្ធ។

នៅក្នុងក្របខ័ណ្ឌនៃវិធីសាស្រ្តបង្កើត ការវិភាគវាក្យសម្ព័ន្ធជាធម្មតាត្រូវបានអនុវត្តនៅលើមូលដ្ឋាននៃវេយ្យាករណ៍គ្មានបរិបទផ្លូវការ ដែលពិពណ៌នាអំពីរចនាសម្ព័ន្ធឃ្លានៃប្រយោគ ឬផ្អែកលើផ្នែកបន្ថែមមួយចំនួននៃវេយ្យាករណ៍គ្មានបរិបទ។ វេយ្យាករណ៍ទាំងនេះបន្តពីការបែងចែកលីនេអ៊ែរបន្តបន្ទាប់គ្នានៃប្រយោគទៅជាឃ្លា (សំណង់សមកាលកម្ម ឧទាហរណ៍ ឃ្លានាម) ហើយដូច្នេះឆ្លុះបញ្ចាំងក្នុងពេលដំណាលគ្នាទាំងរចនាសម្ព័ន្ធវាក្យសម្ព័ន្ធ និងលីនេអ៊ែររបស់វា។ រចនាសម្ព័ន្ធសំយោគតាមឋានានុក្រមនៃប្រយោគ NL ដែលទទួលបានជាលទ្ធផលនៃការវិភាគត្រូវបានពិពណ៌នា មែកធាងសមាសធាតុដែលស្លឹករបស់វាមានពាក្យនៃប្រយោគ មែកធាងរងត្រូវគ្នាទៅនឹងសំណង់វាក្យសម្ព័ន្ធ (ឃ្លា) ដែលរួមបញ្ចូលក្នុងប្រយោគ ហើយធ្នូបង្ហាញពីទំនាក់ទំនងសំបុកនៃសំណង់។

វិធីសាស្រ្តដែលកំពុងពិចារណាអាចរួមបញ្ចូលវេយ្យាករណ៍បណ្តាញ ដែលជាឧបករណ៍សម្រាប់ពណ៌នាអំពីប្រព័ន្ធភាសា និងសម្រាប់កំណត់នីតិវិធីសម្រាប់ការវិភាគប្រយោគដោយផ្អែកលើគោលគំនិតនៃ automaton កំណត់ ឧទាហរណ៍ បណ្តាញផ្លាស់ប្តូរបន្ថែម ATN ។

ជាផ្នែកនៃវិធីសាស្រ្តទីពីរ វិធីដែលមើលឃើញ និងសាមញ្ញជាងនេះត្រូវបានប្រើដើម្បីតំណាងឱ្យរចនាសម្ព័ន្ធវាក្យសម្ព័ន្ធនៃប្រយោគ - ដើមឈើអាស្រ័យ. ថ្នាំងនៃមែកធាងមានពាក្យនៃប្រយោគ (ជាធម្មតាកិរិយាស័ព្ទព្យាករណ៍នៅឫស) ហើយធ្នូនីមួយៗនៃមែកធាងដែលភ្ជាប់គូនៃថ្នាំងត្រូវបានបកស្រាយថាជាវាក្យសម្ព័ន្ធ។ អ្នកក្រោមបង្គាប់ ការតភ្ជាប់រវាងពួកវាហើយទិសដៅនៃការតភ្ជាប់ត្រូវគ្នាទៅនឹងទិសដៅនៃធ្នូនេះ។ ចាប់តាំងពីក្នុងករណីនេះតំណភ្ជាប់វាក្យសម្ព័ន្ធនៃពាក្យនិងលំដាប់នៃពាក្យនៅក្នុងប្រយោគត្រូវបានបំបែកបន្ទាប់មកនៅលើមូលដ្ឋាននៃដើមឈើ subordination ខូចនិង មិន​មាន​ការ​ព្យាករសំណង់ដែលកើតឡើងជាញឹកញាប់នៅក្នុងភាសាជាមួយនឹងលំដាប់ពាក្យដោយឥតគិតថ្លៃ។

ដើមឈើសមាសធាតុគឺសមរម្យជាងសម្រាប់ការពិពណ៌នាភាសានៅក្នុងលំដាប់ពាក្យរឹង; តំណាងរបស់ពួកគេនៃសំណង់ដែលខូច និងមិនមានគម្រោងទាមទារការបន្ថែមនៃទម្រង់វេយ្យាករណ៍ដែលបានប្រើ។ ប៉ុន្តែនៅក្នុងក្របខណ្ឌនៃវិធីសាស្រ្តនេះ ការសាងសង់ជាមួយនឹងទំនាក់ទំនងមិនក្រោមបង្គាប់ត្រូវបានពិពណ៌នាច្រើនជាងធម្មជាតិ។ ក្នុងពេលជាមួយគ្នានេះ ការលំបាកទូទៅសម្រាប់វិធីសាស្រ្តទាំងពីរគឺការបង្ហាញសមាជិកភាពដូចគ្នានៃប្រយោគ។

គំរូសមកាលកម្មនៅក្នុងវិធីសាស្រ្តទាំងអស់ព្យាយាមពិចារណាលើការរឹតបន្តឹងដែលដាក់លើការតភ្ជាប់នៃឯកតាភាសានៅក្នុងការនិយាយ ខណៈពេលដែលនៅក្នុងវិធីមួយឬមួយផ្សេងទៀត គំនិតនៃ valence ត្រូវបានប្រើ។ វ៉ាឡេន- នេះគឺជាសមត្ថភាពនៃពាក្យ ឬឯកតានៃភាសាដើម្បីភ្ជាប់ឯកតាផ្សេងទៀតតាមរបៀបវាក្យសម្ព័ន្ធជាក់លាក់មួយ។ តារាសម្តែងគឺ​ជា​ពាក្យ​ឬ​ការ​សាង​សង់​វាក្យសម្ព័ន្ធ​ដែល​បំពេញ​គុណប្រយោជន៍​នេះ។ ឧទាហរណ៍កិរិយាស័ព្ទរុស្ស៊ី ប្រគល់​ជូនមាន valences សំខាន់បី, ដែលអាចត្រូវបានបង្ហាញដោយពាក្យសួរចម្លើយដូចខាងក្រោម: WHO? ទៅអ្នកណា? អ្វី?នៅក្នុងក្របខណ្ឌនៃវិធីសាស្រ្តទូទៅ គុណតម្លៃនៃពាក្យ (ជាដំបូង កិរិយាសព្ទ) ត្រូវបានពិពណ៌នាជាចម្បងនៅក្នុងទម្រង់នៃស៊ុមពិសេស ( ការចាត់ថ្នាក់រង ស៊ុម) និងក្នុងក្របខណ្ឌនៃវិធីសាស្រ្តដើមឈើអាស្រ័យ ដូចជា ម៉ូដែលគ្រប់គ្រង.

គំរូនៃអត្ថន័យនៃភាសាគឺត្រូវបានអភិវឌ្ឍតិចតួចបំផុតនៅក្នុងក្របខ័ណ្ឌនៃ CL ។ សម្រាប់ការវិភាគន័យនៃប្រយោគ អ្វីដែលគេហៅថា វេយ្យាករណ៍ករណី និង ករណី semantic(valency) ដោយផ្អែកលើអត្ថន័យនៃប្រយោគត្រូវបានពិពណ៌នាថាតាមរយៈការភ្ជាប់នៃពាក្យសំខាន់ (កិរិយាសព្ទ) ជាមួយនឹងសកម្មភាព semantic របស់វាពោលគឺតាមរយៈករណី semantic ។ ឧទាហរណ៍កិរិយាស័ព្ទ ប្រគល់​ជូនពិពណ៌នាដោយករណី semantic ការផ្តល់(ភ្នាក់ងារ), អ្នកទទួលនិង ផ្ទេរវត្ថុ.

ដើម្បីតំណាងឱ្យអត្ថន័យនៃអត្ថបទទាំងមូល ទម្រង់សមមូលតក្កវិជ្ជាពីរជាធម្មតាត្រូវបានប្រើ (ទាំងពីរនេះត្រូវបានពិពណ៌នាយ៉ាងលម្អិតនៅក្នុងក្របខ័ណ្ឌនៃ AI)៖

· ទស្សន៍ទាយរូបមន្តគណនាដែលបង្ហាញពីលក្ខណៈសម្បត្តិ រដ្ឋ ដំណើរការ សកម្មភាព និងទំនាក់ទំនង។

· បណ្តាញ Semantic ត្រូវបានដាក់ស្លាកក្រាហ្វដែលចំនុចកំពូលត្រូវគ្នាទៅនឹងគោលគំនិត ហើយចំនុចកំពូលត្រូវគ្នាទៅនឹងទំនាក់ទំនងរវាងពួកវា។

ចំពោះគំរូនៃការអនុវត្តជាក់ស្តែង និងសុន្ទរកថា ដែលអនុញ្ញាតឱ្យដំណើរការមិនត្រឹមតែប្រយោគបុគ្គលប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងអត្ថបទទាំងមូលផងដែរ គំនិតរបស់ វ៉ាន់ឌីក ត្រូវបានប្រើជាចម្បងដើម្បីកសាងវា។ គំរូដ៏កម្រ និងជោគជ័យមួយគឺជាគំរូនៃការសំយោគការពិភាក្សានៃអត្ថបទដែលបានតភ្ជាប់។ គំរូបែបនេះគួរតែយកទៅក្នុងគណនីឯកសារយោង anaphoric និងបាតុភូតកម្រិតនៃសុន្ទរកថាផ្សេងទៀត។

ដោយបញ្ចប់ការកំណត់លក្ខណៈនៃគំរូភាសាក្នុងក្របខណ្ឌនៃ CL អនុញ្ញាតឱ្យយើងរស់នៅបន្ថែមទៀតលើទ្រឹស្តីនៃគំរូភាសា "អត្ថន័យអត្ថបទ" ហើយនៅក្នុងនោះគំនិតដែលមានប្រយោជន៍ជាច្រើនបានលេចឡើងដែលនៅមុនពេលវេលារបស់ពួកគេ ហើយនៅតែពាក់ព័ន្ធ។

អនុលោមតាមទ្រឹស្ដីនេះ NL ត្រូវបានចាត់ទុកថាជាប្រភេទពិសេសនៃកម្មវិធីបំប្លែងដែលអនុវត្តដំណើរការនៃអត្ថន័យដែលបានផ្តល់ឱ្យទៅជាអត្ថបទដែលត្រូវគ្នា និងអត្ថបទដែលបានផ្តល់ឱ្យទៅក្នុងអត្ថន័យដែលត្រូវគ្នា។ អត្ថន័យ​ត្រូវ​បាន​គេ​យល់​ថា​ជា​ការ​បំប្លែង​ដែល​មានន័យ​ដូច​គ្នា​ទាំងអស់​នៃ​អត្ថបទ។ ខ្លឹមសារនៃបំណែកនៃការនិយាយដែលភ្ជាប់គ្នាដោយគ្មានការបែងចែកទៅជាឃ្លា និងទម្រង់ពាក្យត្រូវបានបង្ហាញជាតំណាងន័យពិសេសដែលមានធាតុផ្សំពីរ៖ ក្រាហ្វអត្ថន័យនិងព័ត៌មានអំពី អង្គការទំនាក់ទំនងនៃអត្ថន័យ.

ក្នុងនាមជាលក្ខណៈពិសេសប្លែកនៃទ្រឹស្តីគួរតែត្រូវបានចង្អុលបង្ហាញ:

o ការតំរង់ទិសឆ្ពោះទៅរកការសំយោគអត្ថបទ (សមត្ថភាពក្នុងការបង្កើតអត្ថបទត្រឹមត្រូវត្រូវបានចាត់ទុកថាជាលក្ខណៈវិនិច្ឆ័យចម្បងសម្រាប់សមត្ថភាពភាសា);

o ពហុកម្រិត លក្ខណៈម៉ូឌុលនៃគំរូ និងកម្រិតសំខាន់នៃភាសាត្រូវបានបែងចែកទៅជាកម្រិតផ្ទៃ និងជ្រៅ៖ ពួកវាខុសគ្នា ឧទាហរណ៍។ ជ្រៅ(semanized) និង ផ្ទៃ("សុទ្ធ") វាក្យសម្ព័ន្ធក៏ដូចជាកម្រិតផ្ទៃ-morphological និងជ្រៅ-morphological;

o លក្ខណៈសំខាន់នៃគំរូភាសា; រក្សាទុកព័ត៌មានដែលបង្ហាញនៅកម្រិតនីមួយៗដោយម៉ូឌុលដែលត្រូវគ្នាអនុវត្តការផ្លាស់ប្តូរពីកម្រិតនេះទៅកម្រិតបន្ទាប់។

o មធ្យោបាយពិសេសនៃការពិពណ៌នាវាក្យសម្ព័ន្ធ (ច្បាប់សម្រាប់ការតភ្ជាប់ឯកតា) នៅកម្រិតនីមួយៗ។ ដើម្បីពិពណ៌នាអំពីភាពឆបគ្នា lexical សំណុំមួយត្រូវបានស្នើឡើង មុខងារ lexicalដោយមានជំនួយដែលច្បាប់នៃការបកប្រែវាក្យសម្ព័ន្ធត្រូវបានបង្កើតឡើង។

o ការសង្កត់ធ្ងន់លើវាក្យសព្ទជាជាងវេយ្យាករណ៍; វចនានុក្រមរក្សាទុកព័ត៌មានទាក់ទងនឹងកម្រិតផ្សេងៗនៃភាសា។ ជាពិសេស សម្រាប់ការវិភាគវាក្យសម្ព័ន្ធ គំរូនៃការគ្រប់គ្រងពាក្យត្រូវបានប្រើប្រាស់ដែលពិពណ៌នាអំពីតម្លៃវាក្យសម្ព័ន្ធ និងអត្ថន័យរបស់វា។

ទ្រឹស្តី និងគំរូភាសានេះបានរកឃើញតំណាងរបស់វានៅក្នុងប្រព័ន្ធបកប្រែម៉ាស៊ីន ETAP ។

4. ធនធានភាសាវិទ្យា

ការអភិវឌ្ឍន៍កម្មវិធីដំណើរការភាសាតម្រូវឱ្យមានការបង្ហាញពីព័ត៌មានភាសាត្រឹមត្រូវអំពី NL ដែលបានដំណើរការ។ ព័ត៌មាននេះត្រូវបានបង្ហាញនៅក្នុងវចនានុក្រមកុំព្យូទ័រ និងវេយ្យាករណ៍ផ្សេងៗ។

វចនានុក្រមគឺជាទម្រង់ប្រពៃណីបំផុតនៃការតំណាងនៃព័ត៌មាន lexical; ពួកវាខុសគ្នានៅក្នុងឯកតារបស់ពួកគេ (ជាធម្មតាពាក្យ ឬឃ្លា) រចនាសម្ព័ន្ធ វិសាលភាពនៃវាក្យសព្ទ (វចនានុក្រមនៃពាក្យនៃតំបន់បញ្ហាជាក់លាក់ វចនានុក្រមនៃវាក្យសព្ទទូទៅ។ល។)។ ឯកតាវចនានុក្រមត្រូវបានគេហៅថា ធាតុវចនានុក្រមវាផ្តល់ព័ត៌មានអំពីសញ្ញាសម្ងាត់។ ភាពដូចគ្នានៃ lexical ជាធម្មតាត្រូវបានបង្ហាញនៅក្នុងធាតុវចនានុក្រមផ្សេងៗ។

វចនានុក្រម morphological ដែលប្រើសម្រាប់ការវិភាគ morphological គឺជារឿងធម្មតាបំផុតនៅក្នុង CL ធាតុវចនានុក្រមរបស់ពួកគេមានព័ត៌មាន morphological អំពីពាក្យដែលត្រូវគ្នា - ផ្នែកនៃការនិយាយ ថ្នាក់ inflectional (សម្រាប់ភាសា inflectional) បញ្ជីនៃអត្ថន័យពាក្យ។ល។ អាស្រ័យលើអង្គការនៃ ដំណើរការភាសានៅក្នុងវចនានុក្រមព័ត៌មានវេយ្យាករណ៍ក៏អាចត្រូវបានបន្ថែមផងដែរ ដូចជាគំរូនៃការគ្រប់គ្រងពាក្យ។

មានវចនានុក្រមដែលផ្តល់ព័ត៌មានបន្ថែមអំពីពាក្យ។ ឧទាហរណ៍ គំរូភាសា "អត្ថន័យ-អត្ថបទ" ពឹងផ្អែកយ៉ាងសំខាន់លើ វចនានុក្រមពន្យល់ - បន្សំនៅក្នុងការបញ្ចូលវចនានុក្រមដែលបន្ថែមលើព័ត៌មាន morphological, syntactic និង semantic (syntactic and semantic valencies) ព័ត៌មានអំពីភាពឆបគ្នា lexical នៃពាក្យនេះត្រូវបានបង្ហាញ។

ឧបករណ៍ដំណើរការភាសាមួយចំនួនប្រើ វចនានុក្រមមានន័យដូច. ប្រភេទវចនានុក្រមថ្មីដែលទាក់ទង - វចនានុក្រមពាក្យសំដីឧ. ពាក្យស្រដៀងគ្នាខាងក្រៅដែលមានអត្ថន័យខុសគ្នា។ ជន​ចម្លែកនិង ជនបរទេស, ការកែសម្រួលនិង ឯកសារយោង .

ប្រភេទផ្សេងទៀតនៃធនធាន lexical - មូលដ្ឋានឃ្លាដែលក្នុងនោះឃ្លាធម្មតាបំផុតនៃភាសាជាក់លាក់មួយត្រូវបានជ្រើសរើស។ មូលដ្ឋាននៃឃ្លានៅក្នុងភាសារុស្ស៊ី (ប្រហែលមួយលានឯកតា) គឺជាស្នូលនៃប្រព័ន្ធ CrossLexic ។

ប្រភេទស្មុគស្មាញនៃធនធាន lexical គឺ thesauri និង ontologies. វចនានុក្រម គឺជាវចនានុក្រម semantic ពោលគឺវចនានុក្រមដែលទំនាក់ទំនងអត្ថន័យនៃពាក្យត្រូវបានបង្ហាញ - មានន័យដូចគ្នា ទំនាក់ទំនងប្រភេទភេទ (ជួនកាលគេហៅថាទំនាក់ទំនងខាងលើខាងក្រោម) ផ្នែកទាំងមូល សមាគម។ ការរីករាលដាលនៃសារវចនានុក្រមត្រូវបានផ្សារភ្ជាប់ជាមួយនឹងដំណោះស្រាយនៃបញ្ហាទាញយកព័ត៌មាន។

គំនិតនៃ ontology គឺទាក់ទងយ៉ាងជិតស្និទ្ធទៅនឹងគំនិតនៃកម្រងវេវចនៈ។ Ontology គឺជាសំណុំនៃគោលគំនិត អង្គភាពនៃវិស័យចំណេះដឹងជាក់លាក់មួយ ដែលផ្តោតលើការប្រើប្រាស់ច្រើនសម្រាប់កិច្ចការផ្សេងៗ។ Ontologies អាចត្រូវបានបង្កើតឡើងនៅលើមូលដ្ឋាននៃវាក្យសព្ទដែលមាននៅក្នុងភាសា - ក្នុងករណីនេះពួកគេត្រូវបានគេហៅថា ភាសាវិទ្យានិង។

ភាសាវិទ្យាបែបនេះត្រូវបានគេចាត់ទុកថាជាប្រព័ន្ធ WordNet ដែលជាធនធាន lexical ដ៏ធំមួយដែលពាក្យនៃភាសាអង់គ្លេសត្រូវបានប្រមូល: នាម គុណនាម កិរិយាសព្ទ និងគុណកិរិយា និងការភ្ជាប់អត្ថន័យនៃប្រភេទជាច្រើនត្រូវបានបង្ហាញ។ សម្រាប់ផ្នែកនីមួយៗនៃការនិយាយ ពាក្យត្រូវបានដាក់ជាក្រុមនៃសទិសន័យ ( សំយោគ) រវាងទំនាក់ទំនងនៃអនាមិក សម្មតិនាម (ទំនាក់ទំនងប្រភេទ-ពូជ) មេតូនី (ទំនាក់ទំនងផ្នែកទាំងមូល) ត្រូវបានបង្កើតឡើង។ ធនធានមានប្រហែល 25 ពាន់ពាក្យ ចំនួននៃកម្រិតឋានានុក្រមសម្រាប់ទំនាក់ទំនង genus-species គឺជាមធ្យម 6-7 ជួនកាលឈានដល់ 15 ។ កម្រិតខាងលើនៃឋានានុក្រមបង្កើតបានជា ontology ទូទៅ - ប្រព័ន្ធនៃគំនិតជាមូលដ្ឋានអំពីពិភពលោក។

យោងតាមគ្រោងការណ៍ WordNet ភាសាអង់គ្លេស ធនធាន lexical ស្រដៀងគ្នាសម្រាប់ភាសាអឺរ៉ុបផ្សេងទៀតត្រូវបានបង្កើតឡើង រួបរួមគ្នាក្រោមឈ្មោះទូទៅ EuroWordNet ។

ប្រភេទធនធានភាសាខុសគ្នាទាំងស្រុងគឺ វេយ្យាករណ៍ប្រភេទរបស់វាអាស្រ័យលើគំរូវាក្យសម្ព័ន្ធដែលប្រើក្នុងខួរក្បាល។ នៅក្នុងការប៉ាន់ស្មានដំបូង វេយ្យាករណ៍គឺជាសំណុំនៃច្បាប់ដែលបង្ហាញពីលក្ខណៈសម្បត្តិវាក្យសម្ព័ន្ធទូទៅនៃពាក្យ និងក្រុមនៃពាក្យ។ ចំនួនសរុបនៃច្បាប់វេយ្យាករណ៍ក៏អាស្រ័យលើគំរូវាក្យសម្ព័ន្ធផងដែរ ប្រែប្រួលពីរាប់សិបទៅជាច្រើនរយ។ នៅក្នុងខ្លឹមសារ បញ្ហាបែបនេះបង្ហាញឱ្យឃើញដោយខ្លួនឯងនៅទីនេះថាជាការជាប់ទាក់ទងគ្នានៅក្នុងគំរូភាសានៃវេយ្យាករណ៍ និងវាក្យសព្ទ៖ ព័ត៌មានបន្ថែមត្រូវបានបង្ហាញនៅក្នុងវចនានុក្រម វេយ្យាករណ៍អាចខ្លីជាង និងផ្ទុយមកវិញ។

គួរកត់សំគាល់ថា ការបង្កើតវចនានុក្រមកុំព្យូទ័រ វេយ្យាករណ៍ និងវេយ្យាករណ៍ គឺជាការងារដ៏សំបូរបែប និងប្រើប្រាស់ពេលវេលា ជួនកាលថែមទាំងប្រើប្រាស់ពេលវេលាច្រើនជាងការបង្កើតគំរូភាសា និងដំណើរការដែលត្រូវគ្នា។ ដូច្នេះ កិច្ចការ​ក្រោម​បង្គាប់​មួយ​របស់ CL គឺ​ស្វ័យប្រវត្តិកម្ម​នៃ​ការ​កសាង​ធនធាន​ភាសា។

វចនានុក្រមកុំព្យូទ័រជារឿយៗត្រូវបានបង្កើតឡើងដោយការបំប្លែងវចនានុក្រមអត្ថបទធម្មតា ប៉ុន្តែជារឿយៗវាទាមទារការងារស្មុគស្មាញ និងយកចិត្តទុកដាក់បន្ថែមទៀតដើម្បីស្ថាបនាវា។ ជាធម្មតាវាកើតឡើងនៅពេលបង្កើតវចនានុក្រម និងវចនានុក្រមសម្រាប់ការអភិវឌ្ឍវិស័យវិទ្យាសាស្ត្រយ៉ាងឆាប់រហ័ស - ជីវវិទ្យាម៉ូលេគុល វិទ្យាសាស្ត្រកុំព្យូទ័រ។ល។ សម្ភារៈប្រភពសម្រាប់ការទាញយកព័ត៌មានភាសាចាំបាច់អាចជា ការប្រមូលនិង សាជីវកម្មនៃអត្ថបទ.

បណ្តុំនៃអត្ថបទ គឺជាបណ្តុំនៃអត្ថបទដែលប្រមូលបានតាមគោលការណ៍ជាក់លាក់នៃភាពជាតំណាង (តាមប្រភេទ ភាពជាអ្នកនិពន្ធ។ , ការសង្កត់សំឡេង, វាក្យសម្ព័ន្ធ។

Labeled corpora ត្រូវបានបង្កើតឡើងដោយអ្នកភាសាវិទ្យា ហើយត្រូវបានប្រើប្រាស់ទាំងសម្រាប់ការស្រាវជ្រាវភាសា និងសម្រាប់ការលៃតម្រូវ (ការបណ្តុះបណ្តាល) គំរូ និងដំណើរការដែលប្រើក្នុង CL ដោយប្រើវិធីសាស្ត្រគណិតវិទ្យាដ៏ល្បីនៃការរៀនម៉ាស៊ីន។ ដូច្នេះ ការរៀនម៉ាស៊ីនត្រូវបានប្រើដើម្បីរៀបចំវិធីសាស្រ្តសម្រាប់ដោះស្រាយភាពមិនច្បាស់នៃ lexical ទទួលស្គាល់ផ្នែកនៃការនិយាយ និងការដោះស្រាយសេចក្តីយោង anaphoric ។

ដោយសារ corpora និងការប្រមូលអត្ថបទតែងតែមានកម្រិតនៅក្នុងលក្ខខណ្ឌនៃបាតុភូតភាសាដែលតំណាងនៅក្នុងពួកគេ (និង corpora លើសពីនេះទៀតត្រូវបានបង្កើតឡើងក្នុងរយៈពេលយូរ) ថ្មីៗនេះអត្ថបទតាមអ៊ីនធឺណិតត្រូវបានចាត់ទុកថាជាធនធានភាសាពេញលេញបន្ថែមទៀត។ ដោយមិនសង្ស័យ អ៊ិនធឺណិតគឺជាប្រភពតំណាងច្រើនបំផុតនៃគំរូសុន្ទរកថាទំនើប ប៉ុន្តែការប្រើប្រាស់របស់វាជាសារពាង្គកាយទាមទារឱ្យមានការអភិវឌ្ឍន៍បច្ចេកវិទ្យាពិសេស។

5. កម្មវិធីភាសាវិទ្យា

វិស័យនៃកម្មវិធីភាសាវិទ្យាកំពុងពង្រីកឥតឈប់ឈរ ដូច្នេះយើងនឹងកំណត់លក្ខណៈនៅទីនេះនូវបញ្ហាអនុវត្តដែលល្បីបំផុតដែលត្រូវបានដោះស្រាយដោយឧបករណ៍របស់វា។

ម៉ាស៊ីនបកប្រែ- កម្មវិធីដំបូងបំផុតរបស់ CL ដែលតំបន់នេះកើតឡើង និងអភិវឌ្ឍ។ កម្មវិធីបកប្រែដំបូងត្រូវបានបង្កើតឡើងជាង 50 ឆ្នាំមុន ហើយត្រូវបានផ្អែកលើយុទ្ធសាស្ត្របកប្រែពាក្យសាមញ្ញបំផុត។ ទោះជាយ៉ាងណាក៏ដោយ វាត្រូវបានគេដឹងយ៉ាងឆាប់រហ័សថាការបកប្រែដោយម៉ាស៊ីនទាមទារនូវគំរូភាសាពេញលេញដែលគិតគូរពីគ្រប់កម្រិតនៃភាសា រហូតដល់ន័យន័យធៀប និងការអនុវត្តជាក់ស្តែង ដែលរារាំងការអភិវឌ្ឍន៍នៃទិសដៅនេះម្តងហើយម្តងទៀត។ គំរូពេញលេញមួយត្រូវបានប្រើប្រាស់នៅក្នុងប្រព័ន្ធក្នុងស្រុក ETAP ដែលបកប្រែអត្ថបទវិទ្យាសាស្ត្រពីភាសាបារាំងទៅជាភាសារុស្សី។

ទោះជាយ៉ាងណាក៏ដោយ សូមចំណាំថានៅក្នុងករណីនៃការបកប្រែទៅជាភាសាដែលពាក់ព័ន្ធ ឧទាហរណ៍ នៅពេលបកប្រែពីភាសាអេស្ប៉ាញទៅព័រទុយហ្គាល់ ឬពីរុស្ស៊ីទៅអ៊ុយក្រែន (ដែលមានច្រើនដូចគ្នានៅក្នុងវាក្យសម្ព័ន្ធ និងសរីរវិទ្យា) ខួរក្បាលអាចត្រូវបានអនុវត្តដោយផ្អែកលើការធ្វើឱ្យសាមញ្ញ។ ជាឧទាហរណ៍ គំរូ ដោយផ្អែកលើយុទ្ធសាស្ត្រដូចគ្នាទាំងអស់នៃការបកប្រែពាក្យសម្រាប់ពាក្យ។

បច្ចុប្បន្ននេះ មានប្រព័ន្ធបកប្រែកុំព្យូទ័រជាច្រើនប្រភេទ (មានគុណភាពខុសៗគ្នា) ចាប់ពីគម្រោងស្រាវជ្រាវអន្តរជាតិធំៗ រហូតដល់អ្នកបកប្រែស្វ័យប្រវត្តិពាណិជ្ជកម្ម។ ចំណាប់អារម្មណ៍សំខាន់គឺគម្រោងនៃការបកប្រែពហុភាសា ដោយប្រើភាសាកម្រិតមធ្យម ដែលអត្ថន័យនៃឃ្លាដែលបានបកប្រែត្រូវបានអ៊ិនកូដ។ ទិសដៅទំនើបមួយទៀតគឺការបកប្រែតាមស្ថិតិ ដោយផ្អែកលើស្ថិតិនៃការបកប្រែពាក្យ និងឃ្លា (ជាឧទាហរណ៍ គំនិតទាំងនេះត្រូវបានអនុវត្តនៅក្នុងអ្នកបកប្រែម៉ាស៊ីនស្វែងរក Google)។

ប៉ុន្តែទោះបីជាមានការអភិវឌ្ឍន៍ជាច្រើនទស្សវត្សនៃតំបន់នេះក៏ដោយ ជាទូទៅ ភារកិច្ចនៃការបកប្រែដោយម៉ាស៊ីនគឺនៅឆ្ងាយពីការដោះស្រាយទាំងស្រុង។

កម្មវិធី​ចាស់​មួយ​ទៀត​នៃ​ភាសា​កុំព្យូទ័រ​គឺ​ ការ​ទាញ​យក​ព័ត៌មាននិងកិច្ចការពាក់ព័ន្ធនៃការធ្វើលិបិក្រម សង្ខេប ចាត់ថ្នាក់ និងចាត់ថ្នាក់ឯកសារ។

ការស្វែងរកអត្ថបទពេញលេញនៃឯកសារនៅក្នុងមូលដ្ឋានទិន្នន័យធំនៃឯកសារ (ជាចម្បងវិទ្យាសាស្រ្ត បច្ចេកទេស អាជីវកម្ម) ជាធម្មតាត្រូវបានអនុវត្តនៅលើមូលដ្ឋាននៃរបស់ពួកគេ។ ស្វែងរករូបភាពដែលត្រូវបានយល់ថាជាសំណុំ ពាក្យគន្លឹះ- ពាក្យដែលឆ្លុះបញ្ចាំងពីប្រធានបទសំខាន់នៃឯកសារ។ ដំបូងឡើយ មានតែពាក្យបុគ្គលរបស់ SL ប៉ុណ្ណោះដែលត្រូវបានចាត់ទុកថាជាពាក្យគន្លឹះ ហើយការស្វែងរកត្រូវបានអនុវត្តដោយមិនគិតពីការយល់ឃើញរបស់ពួកគេ ដែលវាមិនសំខាន់សម្រាប់ភាសាដែលខ្សោយដូចជាភាសាអង់គ្លេស។ សម្រាប់ភាសាដែលបំភាន់ជាឧទាហរណ៍ សម្រាប់ភាសារុស្សី ចាំបាច់ត្រូវប្រើគំរូ morphological ដែលគិតគូរពី inflection ។

សំណើស្វែងរកក៏ត្រូវបានបង្ហាញជាសំណុំនៃពាក្យដែលសមរម្យ (ពាក់ព័ន្ធ) ឯកសារត្រូវបានកំណត់ដោយផ្អែកលើភាពស្រដៀងគ្នានៃសំណើ និងរូបភាពស្វែងរកឯកសារ។ ការបង្កើតរូបភាពស្វែងរកឯកសារពាក់ព័ន្ធនឹង ការធ្វើលិបិក្រមអត្ថបទរបស់វា ឧ. បន្លិចពាក្យគន្លឹះនៅក្នុងវា។ ដោយសារជាញឹកញាប់ប្រធានបទ និងខ្លឹមសារនៃឯកសារត្រូវបានបង្ហាញយ៉ាងត្រឹមត្រូវជាងមិនមែនដោយពាក្យនីមួយៗទេ ប៉ុន្តែដោយឃ្លា ឃ្លាចាប់ផ្តើមត្រូវបានចាត់ទុកថាជាពាក្យគន្លឹះ។ នេះធ្វើឱ្យមានភាពស្មុគស្មាញយ៉ាងខ្លាំងដល់នីតិវិធីសម្រាប់ការធ្វើលិបិក្រមឯកសារ ព្រោះវាចាំបាច់ក្នុងការប្រើបន្សំផ្សេងៗនៃលក្ខណៈវិនិច្ឆ័យស្ថិតិ និងភាសាដើម្បីជ្រើសរើសឃ្លាដែលមានអត្ថន័យនៅក្នុងអត្ថបទ។

តាមពិត ការទាញយកព័ត៌មានភាគច្រើនប្រើ លំនាំវ៉ិចទ័រអត្ថបទ(ជួនកាលគេហៅថា កាបូប នៃ ពាក្យ- ថង់នៃពាក្យ) ដែលឯកសារត្រូវបានតំណាងដោយវ៉ិចទ័រ (សំណុំ) នៃពាក្យគន្លឹះរបស់វា។ ម៉ាស៊ីនស្វែងរកតាមអ៊ីនធឺណិតទំនើបក៏ប្រើគំរូនេះផងដែរ ដោយធ្វើលិបិក្រមអត្ថបទដោយពាក្យដែលប្រើក្នុងពួកវា (ក្នុងពេលជាមួយគ្នានេះ ពួកគេប្រើនីតិវិធីចំណាត់ថ្នាក់ដ៏ស្មុគ្រស្មាញដើម្បីបញ្ជូនឯកសារពាក់ព័ន្ធ)។

គំរូអត្ថបទដែលបានបញ្ជាក់ (ជាមួយនឹងភាពស្មុគស្មាញមួយចំនួន) ក៏ត្រូវបានប្រើនៅក្នុងបញ្ហាពាក់ព័ន្ធនៃការទាញយកព័ត៌មានដែលបានពិចារណាខាងក្រោម។

អត្ថបទអរូបី- កាត់បន្ថយបរិមាណរបស់វា និងទទួលបានសេចក្តីសង្ខេបរបស់វា - អរូបី (ខ្លឹមសារកិច្ចសន្យា) ដែលធ្វើឱ្យវាកាន់តែលឿនក្នុងការស្វែងរកនៅក្នុងការប្រមូលឯកសារ។ អរូបីទូទៅក៏អាចត្រូវបានគូរឡើងសម្រាប់ឯកសារមួយចំនួនដែលទាក់ទងនឹងប្រធានបទ។

វិធីសាស្រ្តសំខាន់នៃការសង្ខេបដោយស្វ័យប្រវត្តិនៅតែជាការជ្រើសរើសប្រយោគសំខាន់ៗនៃអត្ថបទអរូបី ដែលពាក្យគន្លឹះនៃអត្ថបទជាធម្មតាត្រូវបានគណនាជាមុន ហើយមេគុណនៃសារៈសំខាន់នៃប្រយោគនៃអត្ថបទត្រូវបានគណនា។ ជម្រើសនៃប្រយោគដែលមានអត្ថន័យមានភាពស្មុគស្មាញដោយតំណភ្ជាប់ anaphoric នៃប្រយោគ ការបំបែកដែលមិនចង់បាន - ដើម្បីដោះស្រាយបញ្ហានេះ យុទ្ធសាស្រ្តជាក់លាក់សម្រាប់ការជ្រើសរើសប្រយោគកំពុងត្រូវបានបង្កើតឡើង។

ភារកិច្ចជិតនឹងការយោង - ចំណារពន្យល់អត្ថបទនៃឯកសារ ឧ. ចងក្រងចំណារពន្យល់របស់វា។ នៅក្នុងទម្រង់សាមញ្ញបំផុតរបស់វា អរូបីគឺជាបញ្ជីនៃប្រធានបទសំខាន់នៃអត្ថបទ ដែលនីតិវិធីធ្វើលិបិក្រមអាចត្រូវបានប្រើដើម្បីបន្លិច។

នៅពេលបង្កើតការប្រមូលឯកសារធំ ៗ ភារកិច្ចគឺពាក់ព័ន្ធ ការចាត់ថ្នាក់និង ការដាក់ជាក្រុមអត្ថបទដើម្បីបង្កើតថ្នាក់នៃឯកសារដែលទាក់ទងនឹងប្រធានបទ។ ការចាត់ថ្នាក់មានន័យថាការចាត់ថ្នាក់ឯកសារនីមួយៗទៅថ្នាក់ជាក់លាក់មួយជាមួយនឹងប៉ារ៉ាម៉ែត្រដែលគេស្គាល់ជាមុន ហើយការចង្កោមមានន័យថាការបែងចែកសំណុំឯកសារទៅជាចង្កោម ពោលគឺ សំណុំរងនៃឯកសារដែលទាក់ទងនឹងប្រធានបទ។ ដើម្បីដោះស្រាយបញ្ហាទាំងនេះ វិធីសាស្ត្ររៀនម៉ាស៊ីនត្រូវបានប្រើប្រាស់ ហើយដូច្នេះកិច្ចការដែលបានអនុវត្តទាំងនេះត្រូវបានគេហៅថា Text Mining និងជាកម្មសិទ្ធិរបស់ទិសដៅវិទ្យាសាស្ត្រដែលគេស្គាល់ថាជា Data Mining ឬការជីកយកទិន្នន័យ។

ជិតស្និទ្ធនឹងបញ្ហាចំណាត់ថ្នាក់ ការគណនាអត្ថបទ - ការចាត់តាំងរបស់វាចំពោះប្រធានបទប្រធានបទដែលគេស្គាល់ពីមុនមួយ (ជាធម្មតាចំណងជើងបង្កើតជាមែកធាងឋានានុក្រមនៃប្រធានបទ)។

បញ្ហានៃការចាត់ថ្នាក់គឺកាន់តែរីករាលដាល វាត្រូវបានដោះស្រាយ ជាឧទាហរណ៍ នៅពេលទទួលស្គាល់សារឥតបានការ ហើយកម្មវិធីថ្មីមួយគឺការចាត់ថ្នាក់នៃសារ SMS នៅក្នុងឧបករណ៍ចល័ត។ ទិសដៅថ្មី និងពាក់ព័ន្ធនៃការស្រាវជ្រាវសម្រាប់ភារកិច្ចទូទៅនៃការទាញយកព័ត៌មានគឺការស្វែងរកឯកសារពហុភាសា។

កិច្ចការថ្មីមួយទៀតទាក់ទងនឹងការទាញយកព័ត៌មានគឺ ការបង្កើតចម្លើយចំពោះសំណួរ(សំណួរចម្លើយ) ។ កិច្ចការនេះត្រូវបានដោះស្រាយដោយការកំណត់ប្រភេទនៃសំណួរ ស្វែងរកអត្ថបទដែលមានសក្តានុពលមានចម្លើយចំពោះសំណួរនេះ និងស្រង់ចម្លើយចេញពីអត្ថបទទាំងនេះ។

ទិសដៅអនុវត្តខុសគ្នាទាំងស្រុង ដែលកំពុងអភិវឌ្ឍ ទោះបីជាយឺត ប៉ុន្តែជាលំដាប់ ស្វ័យប្រវត្តិកម្មនៃការរៀបចំ និងការកែសម្រួលអត្ថបទនៅលើ EY ។ កម្មវិធីមួយក្នុងចំណោមកម្មវិធីដំបូងគេក្នុងទិសដៅនេះគឺកម្មវិធីសម្រាប់ស្វែងរកការដាក់សហសញ្ញាពាក្យដោយស្វ័យប្រវត្តិ និងកម្មវិធីសម្រាប់ការពិនិត្យអក្ខរាវិរុទ្ធ (អក្ខរាវិរុទ្ធ ឬកម្មវិធីកែស្វ័យប្រវត្តិ)។ ទោះបីជាមានភាពសាមញ្ញជាក់ស្តែងនៃបញ្ហាដាក់សហសញ្ញាក៏ដោយ ដំណោះស្រាយត្រឹមត្រូវរបស់វាសម្រាប់ NLs ជាច្រើន (ឧទាហរណ៍ ភាសាអង់គ្លេស) ទាមទារចំណេះដឹងអំពីរចនាសម្ព័ន្ធ morphemic នៃពាក្យនៃភាសាដែលត្រូវគ្នា ដូច្នេះហើយវចនានុក្រមដែលត្រូវគ្នា។

ការពិនិត្យអក្ខរាវិរុទ្ធត្រូវបានអនុវត្តជាយូរមកហើយនៅក្នុងប្រព័ន្ធពាណិជ្ជកម្មហើយពឹងផ្អែកលើវាក្យសព្ទសមស្របនិងគំរូ morphology ។ គំរូវាក្យសម្ព័ន្ធមិនពេញលេញក៏ត្រូវបានប្រើប្រាស់ផងដែរ ដោយឈរលើមូលដ្ឋានដែលជាញឹកញាប់កំហុសវាក្យសម្ព័ន្ធទាំងអស់ (ឧទាហរណ៍ កំហុសកិច្ចព្រមព្រៀងពាក្យ) ត្រូវបានបង្ហាញ។ ក្នុងពេលជាមួយគ្នានេះ ការរកឃើញកំហុសស្មុគ្រស្មាញជាងនេះ ជាឧទាហរណ៍ ការប្រើប្រាស់ធ្នាក់ខុស មិនទាន់ត្រូវបានអនុវត្តនៅក្នុងកម្មវិធីកែស្វ័យប្រវត្តិនៅឡើយទេ។ កំហុស lexical ជាច្រើនក៏មិនត្រូវបានរកឃើញដែរ ជាពិសេសកំហុសដែលបណ្តាលមកពីការវាយអក្សរ ឬការប្រើប្រាស់ពាក្យស្រដៀងគ្នាខុស (ឧទាហរណ៍ ទម្ងន់ជំនួសឱ្យទម្ងន់) ។ នៅក្នុងការសិក្សាទំនើបនៃ CL វិធីសាស្រ្តត្រូវបានស្នើឡើងសម្រាប់ការរកឃើញដោយស្វ័យប្រវត្តិ និងការកែកំហុសបែបនេះ ក៏ដូចជាប្រភេទមួយចំនួនផ្សេងទៀតនៃកំហុសរចនាប័ទ្ម។ វិធីសាស្រ្តទាំងនេះប្រើស្ថិតិលើការកើតឡើងនៃពាក្យ និងឃ្លា។

ភារកិច្ចដែលបានអនុវត្តជិតនឹងការគាំទ្រដល់ការរៀបចំអត្ថបទគឺ ការបង្រៀនភាសាធម្មជាតិក្នុងក្របខ័ណ្ឌនៃទិសដៅនេះ ប្រព័ន្ធកុំព្យូទ័រសម្រាប់ការបង្រៀនភាសា - អង់គ្លេស រុស្សី ជាដើមត្រូវបានបង្កើតឡើងជាញឹកញាប់ (ប្រព័ន្ធស្រដៀងគ្នាអាចរកបាននៅលើអ៊ីនធឺណិត)។ ជាធម្មតា ប្រព័ន្ធទាំងនេះគាំទ្រដល់ការសិក្សាអំពីទិដ្ឋភាពមួយចំនួននៃភាសា (morphology, វាក្យសព្ទ, វាក្យសម្ព័ន្ធ) និងផ្អែកលើគំរូសមស្រប ឧទាហរណ៍ គំរូ morphology ។

ចំពោះការសិក្សាវាក្យសព្ទ អាណាឡូកអេឡិចត្រូនិចនៃវចនានុក្រមអត្ថបទក៏ត្រូវបានប្រើសម្រាប់រឿងនេះដែរ (ដែលតាមពិតមិនមានគំរូភាសាទេ)។ ទោះជាយ៉ាងណាក៏ដោយ វចនានុក្រមកុំព្យូទ័រពហុមុខងារក៏កំពុងត្រូវបានបង្កើតឡើងផងដែរ ដែលមិនមានអត្ថបទ analogues ហើយមានគោលបំណងសម្រាប់អ្នកប្រើប្រាស់យ៉ាងទូលំទូលាយ - ឧទាហរណ៍ វចនានុក្រមនៃឃ្លារុស្ស៊ី Crosslexic ។ ប្រព័ន្ធនេះគ្របដណ្ដប់លើវាក្យសព្ទច្រើនប្រភេទ - ពាក្យ និងបន្សំពាក្យដែលអាចទទួលយកបាន ហើយថែមទាំងផ្តល់ព័ត៌មានអំពីគំរូនៃការគ្រប់គ្រងពាក្យ សទិសន័យ សទិសន័យ និងភាពជាប់ទាក់ទងគ្នានៃពាក្យផ្សេងទៀត ដែលមានប្រយោជន៍យ៉ាងច្បាស់មិនត្រឹមតែសម្រាប់អ្នកដែលសិក្សាភាសារុស្សីប៉ុណ្ណោះទេ ប៉ុន្តែសម្រាប់ អ្នកនិយាយដើម។

តំបន់កម្មវិធីបន្ទាប់ដែលមានតម្លៃនិយាយគឺ ជំនាន់ស្វ័យប្រវត្តិអត្ថបទនៅលើ EY ។ ជាគោលការណ៍ កិច្ចការនេះអាចត្រូវបានចាត់ទុកថាជាកិច្ចការរងនៃកិច្ចការបកប្រែម៉ាស៊ីនដែលបានពិចារណារួចហើយខាងលើ ទោះជាយ៉ាងណាក៏ដោយ ក្នុងក្របខ័ណ្ឌនៃទិសដៅមានកិច្ចការជាក់លាក់មួយចំនួន។ ភារកិច្ចបែបនេះគឺជាការបង្កើតពហុភាសា ពោលគឺការសាងសង់ដោយស្វ័យប្រវត្តិជាភាសាជាច្រើននៃឯកសារពិសេស - រូបមន្តប៉ាតង់ សេចក្តីណែនាំប្រតិបត្តិការសម្រាប់ផលិតផលបច្ចេកទេស ឬប្រព័ន្ធសូហ្វវែរ ដោយផ្អែកលើការបញ្ជាក់របស់ពួកគេជាភាសាផ្លូវការ។ គំរូភាសាលម្អិតត្រូវបានប្រើដើម្បីដោះស្រាយបញ្ហានេះ។

កិច្ចការដែលពាក់ព័ន្ធកាន់តែខ្លាំងឡើង ដែលជារឿយៗគេហៅថា Text Mining គឺ ការដកស្រង់ព័ត៌មានពីអត្ថបទ ឬការដកស្រង់ព័ត៌មាន ដែលត្រូវបានទាមទារនៅពេលដោះស្រាយបញ្ហានៃការវិភាគសេដ្ឋកិច្ច និងឧស្សាហកម្ម។ ដើម្បីធ្វើដូចនេះវត្ថុជាក់លាក់ត្រូវបានកំណត់នៅក្នុងការធ្វើតេស្ត NL - អង្គភាពដែលមានឈ្មោះ (ឈ្មោះបុគ្គលិកលក្ខណៈឈ្មោះភូមិសាស្ត្រ) ទំនាក់ទំនងនិងព្រឹត្តិការណ៍ដែលទាក់ទងនឹងពួកគេ។ តាមក្បួន នេះត្រូវបានអនុវត្តដោយឈរលើមូលដ្ឋាននៃការវិភាគផ្នែកនៃអត្ថបទ ដែលអនុញ្ញាតឱ្យដំណើរការព័ត៌មានព័ត៌មានពីភ្នាក់ងារព័ត៌មាន។ ដោយសារកិច្ចការនេះមានភាពស្មុគ្រស្មាញមិនត្រឹមតែទ្រឹស្តីប៉ុណ្ណោះទេ ថែមទាំងផ្នែកបច្ចេកវិទ្យាផងដែរ ការបង្កើតប្រព័ន្ធដ៏មានអត្ថន័យសម្រាប់ការទាញយកព័ត៌មានពីអត្ថបទគឺអាចធ្វើទៅបានក្នុងក្របខ័ណ្ឌនៃក្រុមហ៊ុនពាណិជ្ជកម្ម។

ទិសដៅនៃការជីកយករ៉ែអត្ថបទក៏រួមបញ្ចូលផងដែរនូវកិច្ចការពាក់ព័ន្ធចំនួនពីរផ្សេងទៀត - ការជ្រើសរើសមតិ (ការជីកយករ៉ែ) និងការវាយតម្លៃនៃសំនៀងនៃអត្ថបទ (ការវិភាគអារម្មណ៍) ដែលទាក់ទាញចំណាប់អារម្មណ៍របស់អ្នកស្រាវជ្រាវដែលកើនឡើង។ កិច្ចការដំបូងស្វែងរក (នៅក្នុងប្លុក វេទិកា ហាងលក់តាមអ៊ីនធឺណិត។ កិច្ចការទីពីរគឺនៅជិតកិច្ចការបុរាណនៃការវិភាគខ្លឹមសារនៃអត្ថបទនៃការទំនាក់ទំនងដ៏ធំ វាវាយតម្លៃសម្លេងទូទៅនៃសេចក្តីថ្លែងការណ៍។

កម្មវិធីមួយទៀតដែលគួរនិយាយគឺ − ការគាំទ្រការសន្ទនាជាមួយអ្នកប្រើប្រាស់នៅលើ NL ក្នុងក្របខ័ណ្ឌនៃប្រព័ន្ធកម្មវិធីព័ត៌មានណាមួយ។ ភាគច្រើន បញ្ហានេះត្រូវបានដោះស្រាយសម្រាប់មូលដ្ឋានទិន្នន័យឯកទេស - ក្នុងករណីនេះ ភាសាសំណួរមានកម្រិត (lexically និង grammatically) ដែលអនុញ្ញាតឱ្យប្រើគំរូភាសាសាមញ្ញ។ សំណើទៅមូលដ្ឋានដែលបង្កើតជា NL ត្រូវបានបកប្រែទៅជាភាសាផ្លូវការ បន្ទាប់ពីនោះការស្វែងរកព័ត៌មានចាំបាច់ត្រូវបានអនុវត្ត ហើយឃ្លាឆ្លើយតបដែលត្រូវគ្នាត្រូវបានបង្កើតឡើង។

ជាចុងក្រោយនៅក្នុងបញ្ជីកម្មវិធី CL របស់យើង (ប៉ុន្តែមិនមានសារៈសំខាន់ទេ) យើងបង្ហាញ ការទទួលស្គាល់ការនិយាយ និងការសំយោគ. កំហុសក្នុងការទទួលស្គាល់ដែលជៀសមិនរួចនៅក្នុងកិច្ចការទាំងនេះត្រូវបានកែដំរូវដោយវិធីសាស្រ្តស្វ័យប្រវត្តិដោយផ្អែកលើវចនានុក្រម និងចំណេះដឹងភាសាអំពី morphology ។ ការរៀនម៉ាស៊ីនក៏នឹងត្រូវបានអនុវត្តនៅក្នុងតំបន់នេះផងដែរ។

សេចក្តីសន្និដ្ឋាន

ភាសាកុំព្យូទ័របង្ហាញពីលទ្ធផលជាក់ស្តែងនៅក្នុងកម្មវិធីផ្សេងៗសម្រាប់ដំណើរការអត្ថបទដោយស្វ័យប្រវត្តិនៅក្នុង NL ។ ការអភិវឌ្ឍន៍បន្ថែមទៀតរបស់វាអាស្រ័យទាំងការលេចឡើងនៃកម្មវិធីថ្មី និងការអភិវឌ្ឍន៍ឯករាជ្យនៃគំរូភាសាផ្សេងៗ ដែលបញ្ហាជាច្រើនមិនទាន់ត្រូវបានដោះស្រាយនៅឡើយ។ ការអភិវឌ្ឍន៍បំផុតគឺគំរូនៃការវិភាគ morphological និងសំយោគ។ គំរូវាក្យសម្ព័ន្ធមិនទាន់ត្រូវបាននាំយកទៅកម្រិតនៃម៉ូឌុលដែលមានស្ថេរភាព និងប្រសិទ្ធភាពនៅឡើយទេ ទោះបីជាមានទម្រង់បែបបទ និងវិធីសាស្រ្តដែលបានស្នើឡើងមួយចំនួនធំក៏ដោយ។ សូម្បីតែមិនសូវបានសិក្សា និងធ្វើជាផ្លូវការគឺជាគំរូនៃកម្រិតនៃន័យវិទ្យា និងការអនុវត្តជាក់ស្តែង ទោះបីជាដំណើរការដោយស្វ័យប្រវត្តិនៃសុន្ទរកថាត្រូវបានទាមទាររួចហើយនៅក្នុងកម្មវិធីមួយចំនួនក៏ដោយ។ ចំណាំថាឧបករណ៍ដែលមានស្រាប់នៃភាសាវិទ្យាដែលប្រើរួចជាស្រេច ការប្រើប្រាស់ម៉ាស៊ីនរៀន និងអត្ថបទសាជីវកម្ម អាចជំរុញដំណោះស្រាយនៃបញ្ហាទាំងនេះយ៉ាងសំខាន់។

អក្សរសិល្ប៍

1. Baeza-Yates, R. និង Ribeiro-Neto, B. Modern Information Retrieval, Adison Wesley, ឆ្នាំ 1999។

2. Bateman, J., Zock M. ជំនាន់ភាសាធម្មជាតិ។ នៅក្នុង៖ សៀវភៅដៃ Oxford of Computational Linguistics ។ Mitkov R. (ed ។ ) ។ សារព័ត៌មានសាកលវិទ្យាល័យ Oxford, 2003, ទំព័រ 304 ។

3. Biber, D., Conrad S., និង Reppen D. Corpus Linguistics ។ ការស៊ើបអង្កេតរចនាសម្ព័ន្ធភាសា និងការប្រើប្រាស់។ Cambridge University Press, Cambridge, 1998 ។

4. Bolshakov, I. A., Gelbukh putational ភាសាវិទ្យា។ គំរូ ធនធាន កម្មវិធី។ ម៉ិកស៊ិក IPN ឆ្នាំ ២០០៤។

5. Brown P., Pietra S., Mercer R., Pietra V. The Mathematics of Statistical Machine Translation. // ភាសាវិទ្យាគណនា, វ៉ុល។ ១៩(២)៖ ២៦៣-៣

6. Carroll J R. Parsing ។ នៅក្នុង៖ សៀវភៅដៃ Oxford of Computational Linguistics ។ Mitkov R. (ed ។ ) ។ សារព័ត៌មានសាកលវិទ្យាល័យ Oxford, 2003, ទំព័រ។ ២៣៣-២៤៨ ។

7. Chomsky, N. រចនាសម្ព័ន្ធសំយោគ។ ទីក្រុងឡាអេ: Mouton, 1957 ។

8. Grishman R. ការទាញយកព័ត៌មាន។ នៅក្នុង៖ សៀវភៅដៃ Oxford of Computational Linguistics ។ Mitkov R. (ed ។ ) ។ សារព័ត៌មានសាកលវិទ្យាល័យ Oxford, 2003, ទំព័រ។ ៥៤៥-៥៥៩។

9. Harabagiu, S., Moldovan D. ការឆ្លើយសំណួរ។ នៅក្នុង៖ សៀវភៅដៃ Oxford of Computational Linguistics ។ Mitkov R. (ed ។ ) ។ សារព័ត៌មានសាកលវិទ្យាល័យ Oxford, 2003, ទំព័រ។ ៥៦០-៥៨២។

10. Hearst, M.A. ការរកឃើញដោយស្វ័យប្រវត្តិនៃទំនាក់ទំនង WordNet ។ នៅក្នុង: Fellbaum, C. (ed.) WordNet: មូលដ្ឋានទិន្នន័យ Electronic Lexical ។ MIT Press, Cambridge, 1998, p.131-151 ។

11. Hirst, G. Ontology and the Lexicon ។ In.: សៀវភៅណែនាំស្តីពី Ontologies in Niformation Systems ។ ទីក្រុងប៊ែកឡាំង, Springer, 2003 ។

12. Jacquemin C., Bourigault D. Term extraction and automatic indexing // Mitkov R. (ed.): សៀវភៅដៃនៃភាសាវិទ្យាគណនា។ សារព័ត៌មានសាកលវិទ្យាល័យ Oxford, 2003. ទំ. ៥៩៩-៦១៥។

13. Kilgarriff, A., G. Grefenstette ។ សេចក្តីណែនាំអំពីបញ្ហាពិសេសនៅលើបណ្តាញជាភាសាភាសាវិទ្យា, V. 29, លេខ។ 3, 2003, ទំ។ ៣៣៣-៣៤៧។

14. Manning, Ch ។ D., H. Schütze ។ មូលដ្ឋានគ្រឹះនៃដំណើរការភាសាធម្មជាតិស្ថិតិ។ សារព័ត៌មាន MIT ឆ្នាំ 1999 ។

15. Matsumoto Y. Lexical Knowledge Acquisition ។ នៅក្នុង៖ សៀវភៅដៃ Oxford of Computational Linguistics ។ Mitkov R. (ed ។ ) ។ សារព័ត៌មានសាកលវិទ្យាល័យ Oxford, 2003, ទំព័រ។ ៣៩៥-៤១៣។

16. សៀវភៅដៃ Oxford ស្តីពីភាសាវិទ្យាគណនា។ R. Mitkov ( Ed ។ ) ។ សារព័ត៌មានសាកលវិទ្យាល័យ Oxford, 2005 ។

17. Oakes, M., Paice C. D. ការទាញយកពាក្យសម្រាប់ការអរូបីដោយស្វ័យប្រវត្តិ។ ភាពជឿនលឿនថ្មីៗនៅក្នុងពាក្យកុំព្យូទ័រ។ D. Bourigault, C. Jacquemin និង M. L” Homme (Eds), John Benjamins Publishing Company, Amsterdam, 2001, p.353-370 ។

18. Pedersen, T. មែកធាងនៃការសម្រេចចិត្តរបស់ bigrams គឺជាការទស្សន៍ទាយត្រឹមត្រូវនៃអារម្មណ៍នៃពាក្យ។ ប្រូក កិច្ចប្រជុំប្រចាំឆ្នាំលើកទី 2 នៃ NAC ACL, Pittsburgh, PA, 2001, ទំ។ ៧៩-៨៦។

19. Samuelsson C. វិធីសាស្រ្តស្ថិតិ។ នៅក្នុង៖ សៀវភៅដៃ Oxford of Computational Linguistics ។ Mitkov R. (ed ។ ) ។ សារព័ត៌មានសាកលវិទ្យាល័យ Oxford, 2003, ទំព័រ។ ៣៥៨-៣៧៥។

20. Salton, G. ដំណើរការអត្ថបទដោយស្វ័យប្រវត្តិ៖ ការផ្លាស់ប្តូរ ការវិភាគ និងការទាញយកព័ត៌មានដោយកុំព្យូទ័រ។ ការអាន, MA: Addison-Wesley, 1988 ។

21. Somers, H. ការបកប្រែម៉ាស៊ីន៖ ការអភិវឌ្ឍន៍ចុងក្រោយ។ នៅក្នុង៖ សៀវភៅដៃ Oxford of Computational Linguistics ។ Mitkov R. (ed ។ ) ។ សារព័ត៌មានសាកលវិទ្យាល័យ Oxford, 2003, ទំព័រ។ ៥១២-៥២៨។

22. Strzalkowski, T. (ed.) ការទាញយកព័ត៌មានភាសាធម្មជាតិ។ Kluwer, 19 ទំ។

23. Woods W. A. ​​Transition Network Grammers for Natural language Analysis/ Communications of the ACM, V. 13, 1970, No. 10, p. ៥៩១-៦០៦។

24. Word Net: មូលដ្ឋានទិន្នន័យ Electronic Lexical ។ / Christian Fellbaum ។ Cambridge, MIT Press, 1998 ។

25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. ការណែនាំអំពីការប្រមូលផ្តុំដោយស្វ័យប្រវត្តិក្នុងការសរសេរការសិក្សា // Proceedings of the ACL 2010 Conference Short Papers, 2010។

26. និងផ្សេងៗទៀត ការគាំទ្រផ្នែកភាសានៃប្រព័ន្ធ ETAP-2 ។ ទីក្រុងមូស្គូ៖ ណៅកា ឆ្នាំ ១៩៨៩។

27. ល. បច្ចេកវិជ្ជាវិភាគទិន្នន័យ៖ ការជីកយករ៉ែទិន្នន័យ, ការជីកយករ៉ែដោយមើលឃើញ, ការជីកយករ៉ែអត្ថបទ, OLAP - 2nd ed ។ - សាំងពេទឺប៊ឺគៈ BHV-Petersburg, 2008 ។

28. Bolshakov, វាក្យសព្ទ - វចនានុក្រមអេឡិចត្រូនិចដ៏ធំមួយនៃបន្សំនិងទំនាក់ទំនងន័យនៃពាក្យរុស្ស៊ី។ // ស. ភាសាវិទ្យា និងបញ្ញា។ បច្ចេកវិទ្យា៖ ដំណើរការនៃ int ។ Conf. "ការសន្ទនាឆ្នាំ ២០០៩" ។ លេខ៖ RGGU, 2009, ទំព័រ 45-50 ។

29. Bolshakova E. I., ការរកឃើញ Bolshakov និងការកែតម្រូវដោយស្វ័យប្រវត្តិនៃ malapropisms របស់រុស្ស៊ី // NTI ។ ស៊ែរ 2, លេខ 5, 2007, ទំព័រ 27-40 ។

30. Wang, Kinch V. យុទ្ធសាស្រ្តសម្រាប់ការយល់ដឹងអំពីអត្ថបទដែលជាប់ទាក់ទងគ្នា។// ថ្មីនៅក្នុងភាសាបរទេស។ កិច្ចការ។ XXIII– M., វឌ្ឍនភាព, ឆ្នាំ ១៩៨៨, ទំព័រ។ ១៥៣-២១១។

31. Vasiliev V.G., Krivenko M. P. វិធីសាស្រ្តនៃការដំណើរការអត្ថបទដោយស្វ័យប្រវត្តិ។ - អិមៈ IPI RAN ឆ្នាំ ២០០៨។

32. Vinograd T. កម្មវិធីដែលយល់ភាសាធម្មជាតិ - M., world, 1976 ។

33. រចនាសម្ព័ន្ធរលូននៃភាសាធម្មជាតិនៅក្នុងប្រព័ន្ធទំនាក់ទំនងស្វ័យប្រវត្តិ។ - M. , Nauka, 1985 ។

34. Gusev, V.D., វចនានុក្រម Salomatina នៃ paronyms: កំណែ 2. // NTI, Ser ។ 2, លេខ 7, 2001, ទំ។ ២៦-៣៣។

35. Zakharov - space as a language corpus // Computational Linguistics and Intelligent Technologies: Proceedings of Int. កិច្ចសន្ទនាសន្និសិទ '2005 / Ed ។ , - M.: Nauka, 2005, ទំ។ ១៦៦-១៧១។

36. Kasevich នៃភាសាវិទ្យាទូទៅ។ - M. , Nauka, 1977 ។

37. ការយល់ដឹង Leontief នៃអត្ថបទ: ប្រព័ន្ធ, គំរូ, ធនធាន: សៀវភៅសិក្សា - M.: Academy, 2006 ។

38. វចនានុក្រមសព្វវចនាធិប្បាយភាសាវិទ្យា / Ed ។ V. N. Yartseva, Moscow: សព្វវចនាធិប្បាយសូវៀត ឆ្នាំ ១៩៩០ ទំព័រ ៦៨៥ ទំ។

39., Saliy សម្រាប់ការបង្កើតលិបិក្រមដោយស្វ័យប្រវត្តិនិងប្រភេទ: ការអភិវឌ្ឍន៍រចនាសម្ព័ន្ធការថែទាំ។ // NTI, សឺ។ 2, លេខ 1, 1996 ។

40. Luger J. Artificial Intelligence: យុទ្ធសាស្រ្ត និងវិធីសាស្រ្តក្នុងការដោះស្រាយបញ្ហាស្មុគស្មាញ។ M. , 2005 ។

41. McQueen K. យុទ្ធសាស្រ្តពិភាក្សាសម្រាប់ការសំយោគអត្ថបទជាភាសាធម្មជាតិ // ថ្មីនៅក្នុងភាសាបរទេស។ កិច្ចការ។ XXIV ។ M.: Progress, 1989, ទំព័រ 311-356 ។

42. ទ្រឹស្តី Melchuk នៃគំរូភាសា "អត្ថន័យ "អត្ថបទ" ។ - M. , Nauka, 1974 ។

43. ស្ថាប័នជាតិនៃភាសារុស្ស៊ី។ http://*****

44. Khoroshevsky VF OntosMiner: គ្រួសារនៃប្រព័ន្ធសម្រាប់ការទាញយកព័ត៌មានពីការប្រមូលឯកសារច្រើនភាសា // សន្និសីទជាតិលើកទីប្រាំបួនស្តីពីបញ្ញាសិប្បនិម្មិតដោយមានការចូលរួមពីអន្តរជាតិ KII-2004 ។ T. 2. - M.: Fizmatlit, 2004, ទំព័រ 573-581 ។

កម្មវិធីភាសាវិទ្យាស្ថិតិ

ប្រវត្តិនៃការអភិវឌ្ឍន៍ភាសាវិទ្យា

ដំណើរការនៃការបង្កើត និងការបង្កើតភាសាវិទ្យាទំនើបជាវិទ្យាសាស្ត្រនៃភាសាធម្មជាតិ គឺជាការអភិវឌ្ឍន៍ប្រវត្តិសាស្ត្រដ៏យូរលង់នៃចំណេះដឹងភាសា។ ចំនេះដឹងភាសាវិទ្យាគឺផ្អែកលើធាតុនានា ការបង្កើតដែលបានកើតឡើងនៅក្នុងដំណើរការនៃសកម្មភាព ដែលភ្ជាប់ដោយ inextricably ជាមួយនឹងការអភិវឌ្ឍនៃរចនាសម្ព័ន្ធនៃការនិយាយផ្ទាល់មាត់ ការកើត ការអភិវឌ្ឍបន្ថែមទៀត និងការកែលម្អការសរសេរ ការរៀនសរសេរ ក៏ដូចជាការបកស្រាយ។ និងការឌិកូដអត្ថបទ។

ភាសាធម្មជាតិជាវត្ថុនៃភាសាវិទ្យាកាន់កាប់កន្លែងកណ្តាលនៅក្នុងវិទ្យាសាស្ត្រនេះ។ នៅក្នុងដំណើរការនៃការអភិវឌ្ឍភាសា គំនិតអំពីវាក៏បានផ្លាស់ប្តូរផងដែរ។ ប្រសិនបើមុននេះមិនមានសារៈសំខាន់ពិសេសណាមួយត្រូវបានភ្ជាប់ទៅនឹងអង្គការផ្ទៃក្នុងនៃភាសាទេហើយវាត្រូវបានគេពិចារណាជាដំបូងនៅក្នុងបរិបទនៃទំនាក់ទំនងរបស់វាជាមួយពិភពខាងក្រៅបន្ទាប់មកចាប់ផ្តើមពីចុងបញ្ចប់នៃសតវត្សទី 19 - ការចាប់ផ្តើមនៃសតវត្សទី 20 ។ តួនាទីពិសេសមួយត្រូវបានផ្តល់ទៅឱ្យរចនាសម្ព័ន្ធផ្លូវការផ្ទៃក្នុងនៃភាសា។ វាគឺជាអំឡុងពេលនេះ ដែលភាសាស្វីសដ៏ល្បីល្បាញ Ferdinand de Saussure បានបង្កើតមូលដ្ឋានគ្រឹះនៃវិទ្យាសាស្រ្តដូចជា semiology និង រចនាសម្ព័ន្ធភាសាវិទ្យា ហើយត្រូវបានរៀបរាប់លម្អិតនៅក្នុងសៀវភៅរបស់គាត់ A Course in General Linguistics (1916)។

អ្នកវិទ្យាសាស្ត្រជាម្ចាស់គំនិតនៃការពិចារណាភាសាជាយន្តការតែមួយ ប្រព័ន្ធអាំងតេក្រាលនៃសញ្ញា ដែលធ្វើឱ្យវាអាចពិពណ៌នាភាសាតាមគណិតវិទ្យា។ Saussure គឺជាមនុស្សដំបូងគេដែលស្នើរវិធីសាស្រ្តរចនាសម្ព័ន្ធចំពោះភាសា ពោលគឺការពិពណ៌នាភាសាដោយសិក្សាពីទំនាក់ទំនងរវាងឯកតារបស់វា។ ដោយឯកតាឬ "សញ្ញា" គាត់យល់ពាក្យដែលរួមបញ្ចូលគ្នាទាំងអត្ថន័យនិងសំឡេង។ គំនិតដែលស្នើឡើងដោយអ្នកវិទ្យាសាស្ត្រជនជាតិស្វីសគឺផ្អែកលើទ្រឹស្តីភាសាជាប្រព័ន្ធសញ្ញា ដែលមានបីផ្នែក៖ ភាសា (មកពីភាសាបារាំង) ការនិយាយ (ពីភាសាបារាំង) និងសកម្មភាពនិយាយ (ពីភាសាបារាំង)។

អ្នកវិទ្យាសាស្ត្រខ្លួនឯងបានកំណត់វិទ្យាសាស្ត្រដែលគាត់បានបង្កើតគឺ semiology ថាជា "វិទ្យាសាស្ត្រដែលសិក្សាពីជីវិតនៃសញ្ញានៅក្នុងក្របខ័ណ្ឌនៃជីវិតនៃសង្គម" ។ ដោយសារភាសាគឺជាប្រព័ន្ធសញ្ញាមួយ ក្នុងការស្វែងរកចម្លើយចំពោះសំណួរថាតើកន្លែងណាដែលភាសាវិទ្យាកាន់កាប់ក្នុងចំណោមវិទ្យាសាស្ត្រដទៃទៀតនោះ Saussure បានអះអាងថាភាសាវិទ្យាគឺជាផ្នែកមួយនៃ semiology ។ វាត្រូវបានគេទទួលយកជាទូទៅថាវាគឺជាអ្នកទស្សនវិទូជនជាតិស្វីសដែលបានដាក់មូលដ្ឋានគ្រឹះទ្រឹស្តីនៃទិសដៅថ្មីមួយនៅក្នុងភាសាវិទ្យាដោយក្លាយជាស្ថាបនិកដែលជា "បិតា" នៃភាសាវិទ្យាទំនើប។

គំនិតដែលបានដាក់ចេញដោយ F. de Saussure ត្រូវបានអភិវឌ្ឍបន្ថែមទៀតនៅក្នុងស្នាដៃរបស់អ្នកវិទ្យាសាស្ត្រឆ្នើមជាច្រើន៖ នៅប្រទេសដាណឺម៉ាក - L. Elmslev នៅសាធារណរដ្ឋឆេក - N. Trubetskoy នៅសហរដ្ឋអាមេរិក - L. Bloomfield, Z. Harris, N. ឆោមស្គី។ សម្រាប់ប្រទេសរបស់យើងនៅទីនេះ ភាសារចនាសម្ព័ន្ធបានចាប់ផ្តើមការអភិវឌ្ឍរបស់ខ្លួននៅប្រហែលដូចគ្នានៃពេលវេលាដូចនៅលោកខាងលិច - នៅវេននៃសតវត្សទី 19-20 ។ - នៅក្នុងស្នាដៃរបស់ F. Fortunatov និង I. Baudouin de Courtenay ។ វាគួរតែត្រូវបានកត់សម្គាល់ថា I. Baudouin de Courtenay បានធ្វើការយ៉ាងជិតស្និទ្ធជាមួយ F. de Saussure ។ ប្រសិនបើ Saussure បានដាក់មូលដ្ឋានគ្រឹះទ្រឹស្តីនៃភាសារចនាសម្ព័ន្ធនោះ Baudouin de Courtenay អាចត្រូវបានចាត់ទុកថាជាអ្នកដែលបានដាក់មូលដ្ឋានគ្រឹះសម្រាប់ការអនុវត្តជាក់ស្តែងនៃវិធីសាស្រ្តដែលបានស្នើឡើងដោយអ្នកវិទ្យាសាស្ត្រស្វីស។ វាគឺជាគាត់ដែលបានកំណត់ភាសាវិទ្យាថាជាវិទ្យាសាស្ត្រដែលប្រើវិធីសាស្ត្រស្ថិតិ និងភាពអាស្រ័យមុខងារ ហើយបានបំបែកវាចេញពី philology ។ បទពិសោធន៍ដំបូងនៃការអនុវត្តវិធីសាស្រ្តគណិតវិទ្យាក្នុងភាសាវិទ្យាគឺសូរវិទ្យា - វិទ្យាសាស្រ្តនៃរចនាសម្ព័ន្ធនៃសំឡេងនៃភាសាមួយ។

វាគួរតែត្រូវបានកត់សម្គាល់ថា postulates បានដាក់ចេញដោយ F. de Saussure អាចត្រូវបានឆ្លុះបញ្ចាំងនៅក្នុងបញ្ហានៃភាសាវិទ្យាដែលពាក់ព័ន្ធនៅពាក់កណ្តាលសតវត្សទី 20 ។ វាគឺជាអំឡុងពេលនេះដែលនិន្នាការច្បាស់លាស់ឆ្ពោះទៅរកការបំប្លែងគណិតវិទ្យានៃវិទ្យាសាស្ត្រភាសាត្រូវបានគូសបញ្ជាក់។ ជាក់ស្តែងនៅក្នុងបណ្តាប្រទេសធំៗទាំងអស់ ការអភិវឌ្ឍន៍យ៉ាងឆាប់រហ័សនៃវិទ្យាសាស្ត្រ និងបច្ចេកវិទ្យាកុំព្យូទ័រចាប់ផ្តើម ដែលវាទាមទារឱ្យមានមូលដ្ឋានគ្រឹះភាសាថ្មីកាន់តែច្រើនឡើង។ លទ្ធផលនៃការទាំងអស់នេះគឺការបញ្ចូលគ្នាយ៉ាងឆាប់រហ័សនៃពិតប្រាកដ និងមនុស្សសាស្ត្រ ក៏ដូចជាអន្តរកម្មសកម្មនៃគណិតវិទ្យា និងភាសាវិទ្យា ដែលបានរកឃើញការអនុវត្តជាក់ស្តែងក្នុងការដោះស្រាយបញ្ហាវិទ្យាសាស្ត្របន្ទាន់។

នៅទសវត្សរ៍ឆ្នាំ 1950 នៅចំនុចប្រសព្វនៃវិទ្យាសាស្ត្រដូចជា គណិតវិទ្យា ភាសាវិទ្យា វិទ្យាសាស្ត្រកុំព្យូទ័រ និងបញ្ញាសិប្បនិមិត្ត ទិសដៅថ្មីនៃវិទ្យាសាស្រ្តបានកើតឡើង - ភាសាវិទ្យាគណនា (ត្រូវបានគេស្គាល់ផងដែរថាជាភាសាម៉ាស៊ីន ឬដំណើរការដោយស្វ័យប្រវត្តិនៃអត្ថបទជាភាសាធម្មជាតិ)។ ដំណាក់កាលសំខាន់ៗក្នុងការអភិវឌ្ឍន៍ទិសដៅនេះបានកើតឡើងប្រឆាំងនឹងផ្ទៃខាងក្រោយនៃការវិវត្តន៍នៃវិធីសាស្ត្របញ្ញាសិប្បនិមិត្ត។ កម្លាំងរុញច្រានដ៏មានអានុភាពដល់ការអភិវឌ្ឍន៍ភាសាវិទ្យាគឺការបង្កើតកុំព្យូទ័រដំបូង។ ទោះជាយ៉ាងណាក៏ដោយ ជាមួយនឹងវត្តមានរបស់កុំព្យូទ័រជំនាន់ថ្មី និងភាសាសរសេរកម្មវិធីក្នុងទសវត្សរ៍ទី 60 ដំណាក់កាលថ្មីជាមូលដ្ឋានក្នុងការអភិវឌ្ឍន៍វិទ្យាសាស្ត្រនេះចាប់ផ្តើម។ វាគួរតែត្រូវបានគេកត់សម្គាល់ផងដែរថាប្រភពដើមនៃភាសាកុំព្យូទ័រត្រឡប់ទៅស្នាដៃរបស់អ្នកភាសាវិទូជនជាតិអាមេរិកដ៏ល្បីល្បាញ N. Chomsky ក្នុងវិស័យរៀបចំរចនាសម្ព័ន្ធភាសាជាផ្លូវការ។ លទ្ធផលនៃការស្រាវជ្រាវរបស់គាត់ដែលទទួលបាននៅចំនុចប្រសព្វនៃភាសាវិទ្យា និងគណិតវិទ្យា បានបង្កើតជាមូលដ្ឋានសម្រាប់ការអភិវឌ្ឍន៍ទ្រឹស្តីនៃភាសាផ្លូវការ និងវេយ្យាករណ៍ (វេយ្យាករណ៍ជំនាន់ឬជំនាន់) ដែលត្រូវបានគេប្រើយ៉ាងទូលំទូលាយដើម្បីពិពណ៌នាទាំងភាសាធម្មជាតិ និងសិប្បនិម្មិត។ ជាពិសេសភាសាសរសេរកម្មវិធី។ ដើម្បីឱ្យកាន់តែច្បាស់លាស់ ទ្រឹស្ដីនេះពិតជាវិន័យគណិតវិទ្យា។ វាអាចត្រូវបានចាត់ទុកថាជាភាសាដំបូងគេមួយក្នុងទិសដៅនៃភាសាវិទ្យាអនុវត្តជាភាសាគណិតវិទ្យា។

ការពិសោធន៍ដំបូង និងការវិវឌ្ឍន៍ដំបូងក្នុងភាសាវិទ្យាទាក់ទងនឹងការបង្កើតប្រព័ន្ធបកប្រែម៉ាស៊ីន ក៏ដូចជាប្រព័ន្ធដែលក្លែងធ្វើសមត្ថភាពភាសារបស់មនុស្ស។ នៅចុងទស្សវត្សរ៍ទី 80 ជាមួយនឹងការមកដល់ និងការអភិវឌ្ឍន៍យ៉ាងសកម្មនៃអ៊ីនធឺណិត មានការរីកចម្រើនយ៉ាងឆាប់រហ័សនៅក្នុងបរិមាណនៃព័ត៌មានអត្ថបទដែលមានក្នុងទម្រង់អេឡិចត្រូនិក។ នេះបាននាំឱ្យការពិតដែលថាបច្ចេកវិទ្យាទាញយកព័ត៌មានបានផ្លាស់ប្តូរទៅដំណាក់កាលថ្មីប្រកបដោយគុណភាពនៃការអភិវឌ្ឍន៍របស់ពួកគេ។ មានតម្រូវការសម្រាប់ដំណើរការអត្ថបទដោយស្វ័យប្រវត្តិជាភាសាធម្មជាតិ កិច្ចការ និងបច្ចេកវិទ្យាថ្មីទាំងស្រុងបានបង្ហាញខ្លួន។ អ្នកវិទ្យាសាស្ត្រត្រូវប្រឈមមុខនឹងបញ្ហាដូចជាការដំណើរការយ៉ាងលឿននៃស្ទ្រីមដ៏ធំនៃទិន្នន័យដែលគ្មានរចនាសម្ព័ន្ធ។ ដើម្បីស្វែងរកដំណោះស្រាយចំពោះបញ្ហានេះ សារៈសំខាន់ដ៏អស្ចារ្យត្រូវបានផ្តល់ដល់ការអភិវឌ្ឍន៍ និងការអនុវត្តវិធីសាស្រ្តស្ថិតិក្នុងវិស័យដំណើរការពាក្យដោយស្វ័យប្រវត្តិ។ វាគឺដោយមានជំនួយរបស់ពួកគេ ដែលវាអាចទៅរួចក្នុងការដោះស្រាយបញ្ហាដូចជាការបែងចែកអត្ថបទទៅជាចង្កោមដែលរួបរួមដោយប្រធានបទទូទៅ ការរំលេចបំណែកមួយចំនួននៅក្នុងអត្ថបទ។ល។ លើសពីនេះទៀត ការប្រើប្រាស់វិធីសាស្រ្តនៃស្ថិតិគណិតវិទ្យា និងការរៀនម៉ាស៊ីនបានធ្វើឱ្យវាអាចដោះស្រាយបញ្ហានៃការទទួលស្គាល់ការនិយាយ និងការបង្កើតម៉ាស៊ីនស្វែងរក។

អ្នកវិទ្យាសាស្ត្រមិនបានឈប់នៅលទ្ធផលដែលសម្រេចបានទេ៖ ពួកគេបានបន្តកំណត់ខ្លួនឯងនូវគោលដៅ និងគោលបំណងថ្មី ដើម្បីបង្កើតបច្ចេកទេស និងវិធីសាស្រ្តស្រាវជ្រាវថ្មីៗ។ ទាំងអស់នេះនាំឱ្យការពិតដែលថាភាសាវិទ្យាបានចាប់ផ្តើមដើរតួជាវិទ្យាសាស្ត្រអនុវត្តដោយរួមបញ្ចូលគ្នានូវវិទ្យាសាស្ត្រមួយចំនួនទៀតដែលជាតួនាទីឈានមុខគេក្នុងចំណោមគណិតវិទ្យាជាមួយនឹងភាពខុសគ្នានៃវិធីសាស្រ្តបរិមាណនិងសមត្ថភាពក្នុងការប្រើប្រាស់វាសម្រាប់ការយល់ដឹងកាន់តែស៊ីជម្រៅអំពីបាតុភូត។ កំពុងសិក្សា។ ដូច្នេះ​ហើយ​បាន​ចាប់​ផ្តើ​ម​ការ​បង្កើត​និង​ការ​អភិវឌ្ឍ​នៃ​ភាសា​គណិតវិទ្យា​របស់​ខ្លួន​។ នៅពេលនេះនេះគឺជាវិទ្យាសាស្ត្រ "វ័យក្មេង" ជាង (វាមានអាយុកាលប្រហែលហាសិបឆ្នាំ) ទោះជាយ៉ាងណាក៏ដោយទោះបីជា "វ័យក្មេង" ក៏ដោយវាគឺជាវិស័យចំណេះដឹងវិទ្យាសាស្ត្រដែលបានបង្កើតឡើងរួចហើយជាមួយនឹងសមិទ្ធិផលជោគជ័យជាច្រើន។

ពាក្យ "ភាសាវិទ្យាគណនា" ជាធម្មតាសំដៅលើផ្នែកដ៏ធំទូលាយនៃការប្រើប្រាស់ឧបករណ៍កុំព្យូទ័រ-កម្មវិធី បច្ចេកវិទ្យាកុំព្យូទ័រសម្រាប់រៀបចំ និងដំណើរការទិន្នន័យ-ដើម្បីធ្វើជាគំរូដល់ដំណើរការនៃភាសាក្នុងលក្ខខណ្ឌជាក់លាក់ ស្ថានភាព បញ្ហា ក៏ដូចជាវិសាលភាព។ នៃគំរូភាសាកុំព្យូទ័រ។ តែនៅក្នុងភាសាវិទ្យា ប៉ុន្តែក៏មាននៅក្នុងមុខវិជ្ជាដែលពាក់ព័ន្ធផងដែរ។ តាមពិតទៅ មានតែនៅក្នុងករណីចុងក្រោយនេះទេ ដែលយើងកំពុងនិយាយអំពីភាសាវិទ្យាដែលបានអនុវត្តក្នុងន័យដ៏តឹងរឹង ចាប់តាំងពីការធ្វើគំរូភាសាកុំព្យូទ័រក៏អាចចាត់ទុកថាជាវិស័យនៃការអនុវត្តទ្រឹស្តីកម្មវិធី (វិទ្យាសាស្ត្រកុំព្យូទ័រ) ក្នុងវិស័យភាសាវិទ្យា។ ទោះជាយ៉ាងណាក៏ដោយ ការអនុវត្តទូទៅគឺដូចជា វិស័យភាសាវិទ្យាគណនាគ្របដណ្តប់ស្ទើរតែទាំងអស់ដែលទាក់ទងនឹងការប្រើប្រាស់កុំព្យូទ័រនៅក្នុងភាសាវិទ្យា៖ "ពាក្យ "ភាសាវិទ្យាគណនា" កំណត់ទិសដៅទូទៅឆ្ពោះទៅរកការប្រើប្រាស់កុំព្យូទ័រដើម្បីដោះស្រាយបញ្ហាវិទ្យាសាស្ត្រ និងការអនុវត្តផ្សេងៗ។ ទាក់ទងនឹងភាសា ដោយមិនកំណត់មធ្យោបាយណាមួយក្នុងការដោះស្រាយបញ្ហាទាំងនេះ។

ទិដ្ឋភាពស្ថាប័ននៃភាសាវិទ្យាគណនា. ក្នុងនាមជាទិសដៅវិទ្យាសាស្ត្រពិសេស ភាសាគណនាបានលេចចេញជារូបរាងនៅក្នុងទសវត្សរ៍ទី 60 ។ លំហូរនៃការបោះពុម្ពផ្សាយនៅក្នុងតំបន់នេះគឺខ្ពស់ណាស់។ បន្ថែមពីលើការប្រមូលតាមប្រធានបទ ទិនានុប្បវត្តិភាសាវិទ្យាគណនាត្រូវបានបោះពុម្ពជារៀងរាល់ត្រីមាសនៅសហរដ្ឋអាមេរិក។ ការងាររៀបចំ និងវិទ្យាសាស្ត្រដ៏ធំមួយត្រូវបានអនុវត្តដោយសមាគមសម្រាប់ភាសាវិទ្យាគណនា ដែលមានរចនាសម្ព័ន្ធក្នុងតំបន់ជុំវិញពិភពលោក (ជាពិសេសសាខាអឺរ៉ុប)។ រៀងរាល់ពីរឆ្នាំម្តង មានសន្និសីទអន្តរជាតិស្តីពីភាសាវិទ្យាគណនា - KOLING។ បញ្ហាពាក់ព័ន្ធក៏ត្រូវបានតំណាងយ៉ាងទូលំទូលាយនៅក្នុងសន្និសីទអន្តរជាតិស្តីពីបញ្ញាសិប្បនិមិត្តនៅកម្រិតផ្សេងៗ។

កញ្ចប់ឧបករណ៍ការយល់ដឹងនៃភាសាវិទ្យាគណនា

ភាសាគណនាជាវិន័យអនុវត្តពិសេសត្រូវបានសម្គាល់ជាចម្បងដោយឧបករណ៍របស់វា ពោលគឺការប្រើប្រាស់ឧបករណ៍កុំព្យូទ័រសម្រាប់ដំណើរការទិន្នន័យភាសា។ ដោយសារកម្មវិធីកុំព្យូទ័រដែលយកគំរូតាមទិដ្ឋភាពមួយចំនួននៃមុខងារនៃភាសាអាចប្រើឧបករណ៍សរសេរកម្មវិធីផ្សេងៗ វាហាក់បីដូចជាមិនចាំបាច់និយាយអំពីភាសាមេតាធម្មតានោះទេ។ ទោះយ៉ាងណាក៏ដោយវាមិនមែនទេ។ មានគោលការណ៍ទូទៅនៃការបង្កើតគំរូកុំព្យូទ័រនៃការគិត ដែលត្រូវបានអនុវត្តនៅក្នុងគំរូកុំព្យូទ័រណាមួយ។ ភាសានេះត្រូវបានផ្អែកលើទ្រឹស្ដីនៃចំណេះដឹងដែលត្រូវបានបង្កើតឡើងនៅក្នុងបញ្ញាសិប្បនិម្មិត និងបង្កើតបានជាសាខាដ៏សំខាន់នៃវិទ្យាសាស្ត្រការយល់ដឹង។

ទ្រឹស្ដីចំបងនៃទ្រឹស្ដីចំនេះដឹងចែងថា ការគិតគឺជាដំណើរការកែច្នៃ និងបង្កើតចំណេះដឹង។ "ចំណេះដឹង" ឬ "ចំណេះដឹង" ត្រូវបានគេចាត់ទុកថាជាប្រភេទដែលមិនបានកំណត់។ ប្រព័ន្ធនៃការយល់ដឹងរបស់មនុស្សដើរតួជា "ឧបករណ៍ដំណើរការ" ដែលដំណើរការចំណេះដឹង។ នៅក្នុង epistemology និងវិទ្យាសាស្ត្រការយល់ដឹង ចំណេះដឹងពីរប្រភេទសំខាន់ៗត្រូវបានសម្គាល់ - ប្រកាស ("ដឹងអ្វី") និងនីតិវិធី ("ដឹងពីរបៀប"2)) ។ ចំណេះដឹងអំពីសេចក្តីប្រកាសជាធម្មតាត្រូវបានបង្ហាញជាសំណុំនៃសំណើ សេចក្តីថ្លែងការណ៍អំពីអ្វីមួយ។ ឧទាហរណ៍ធម្មតានៃចំណេះដឹងប្រកាសគឺជាការបកស្រាយពាក្យនៅក្នុងវចនានុក្រមពន្យល់ធម្មតា។ ឧទហរណ៍ ពែងមួយ] - "ធុងផឹករាងមូលតូចមួយ ជាធម្មតាមានចំណុចទាញ ធ្វើពីប៉សឺឡែន ហ្វាយៀន។ល។"។ ចំនេះដឹងនៃសេចក្តីប្រកាសផ្តល់ប្រាក់កម្ចីដល់នីតិវិធីផ្ទៀងផ្ទាត់ក្នុងន័យ "ពិត-មិនពិត" ។ ចំណេះដឹងអំពីនីតិវិធីត្រូវបានបង្ហាញជាលំដាប់ (បញ្ជី) នៃប្រតិបត្តិការ សកម្មភាពដែលត្រូវអនុវត្ត។ នេះគឺជាការណែនាំទូទៅមួយចំនួនអំពីសកម្មភាពក្នុងស្ថានភាពជាក់លាក់មួយ។ ឧទាហរណ៍ធម្មតានៃចំណេះដឹងអំពីនីតិវិធីគឺជាការណែនាំសម្រាប់ការប្រើប្រាស់ឧបករណ៍ប្រើប្រាស់ក្នុងផ្ទះ។

មិនដូចចំណេះដឹងផ្នែកប្រកាសទេ ចំណេះដឹងអំពីនីតិវិធីមិនអាចផ្ទៀងផ្ទាត់ថាពិតឬមិនពិតទេ។ ពួកគេអាចត្រូវបានវាយតម្លៃតែដោយជោគជ័យឬបរាជ័យនៃក្បួនដោះស្រាយ។

គោលគំនិតភាគច្រើននៃកញ្ចប់ឧបករណ៍នៃការយល់ដឹងនៃភាសាវិទ្យាគឺដូចគ្នាបេះបិទ៖ ពួកគេកំណត់ក្នុងពេលដំណាលគ្នានូវធាតុពិតមួយចំនួននៃប្រព័ន្ធការយល់ដឹងរបស់មនុស្ស និងវិធីតំណាងឱ្យអង្គភាពទាំងនេះនៅក្នុងភាសាលោហៈមួយចំនួន។ ម្យ៉ាង​ទៀត ធាតុ​នៃ​ភាសា​លោហធាតុ​មាន​ទិដ្ឋភាព​ខាង​វិញ្ញាណ និង​ជា​ឧបករណ៍។ Ontologically, ការបែងចែកនៃចំណេះដឹងប្រកាសនិងនីតិវិធីត្រូវគ្នាទៅនឹងប្រភេទផ្សេងគ្នានៃចំណេះដឹងនៃប្រព័ន្ធការយល់ដឹងរបស់មនុស្ស។ ដូច្នេះ ចំណេះដឹងអំពីវត្ថុជាក់លាក់ វត្ថុនៃការពិត គឺជាការប្រកាសជាចម្បង ហើយសមត្ថភាពមុខងាររបស់មនុស្សក្នុងការដើរ រត់ បើកឡាន ត្រូវបានដឹងនៅក្នុងប្រព័ន្ធនៃការយល់ដឹងថាជាចំណេះដឹងតាមនីតិវិធី។ តាមឧបករណ៍ ចំណេះដឹង (ទាំងនីតិវិធី ontologically និង declarative) អាចត្រូវបានតំណាងជាសំណុំនៃការពិពណ៌នា ការពិពណ៌នា និងជាក្បួនដោះស្រាយ ការណែនាំមួយ។ ម្យ៉ាងវិញទៀត ចំណេះដឹងដែលប្រកាសដោយ ontologically អំពីវត្ថុនៃការពិត "តារាង" អាចត្រូវបានតំណាងតាមនីតិវិធីជាសំណុំនៃការណែនាំ ក្បួនដោះស្រាយសម្រាប់ការបង្កើតរបស់វា ការជួបប្រជុំគ្នា (= ទិដ្ឋភាពច្នៃប្រឌិតនៃចំណេះដឹងនីតិវិធី) ឬជាក្បួនដោះស្រាយសម្រាប់ការប្រើប្រាស់ធម្មតារបស់វា (= មុខងារ ទិដ្ឋភាពនៃចំណេះដឹងអំពីនីតិវិធី) ។ ក្នុងករណីទី 1 នេះអាចជាការណែនាំសម្រាប់ជាងឈើថ្មីថ្មោងហើយទីពីរការពិពណ៌នាអំពីលទ្ធភាពនៃតុការិយាល័យ។ ការសន្ទនាក៏ជាការពិតផងដែរ៖ ចំណេះដឹងអំពីនីតិវិធី ontologically អាចត្រូវបានតំណាងដោយប្រកាស។

វាទាមទារឱ្យមានការពិភាក្សាដាច់ដោយឡែកមួយថាតើចំណេះដឹងដែលប្រកាសអំពី ontologically អាចត្រូវបានតំណាងថាជានីតិវិធី, និងនីតិវិធី ontologically ណាមួយ - ជាការប្រកាស។ អ្នកស្រាវជ្រាវយល់ស្របថា ជាគោលការណ៍ ចំណេះដឹងដែលអាចប្រកាសណាមួយអាចត្រូវបានតំណាងតាមនីតិវិធី ទោះបីជានេះអាចប្រែទៅជាគ្មានសេដ្ឋកិច្ចសម្រាប់ប្រព័ន្ធការយល់ដឹងក៏ដោយ។ ការបញ្ច្រាសគឺស្ទើរតែមិនពិត។ ការពិតគឺថា ចំណេះដឹងផ្នែកប្រកាសគឺមានភាពច្បាស់លាស់ជាងនេះ វាងាយស្រួលសម្រាប់មនុស្សម្នាក់ក្នុងការយល់ជាងចំណេះដឹងតាមនីតិវិធី។ ផ្ទុយ​ទៅ​នឹង​ចំណេះ​ដឹង​ដែល​បាន​ប្រកាស ចំណេះ​ដឹង​អំពី​នីតិវិធី​គឺ​មាន​ន័យ​លើស​លុប។ ដូច្នេះ​សមត្ថភាព​ភាសា​ជា​ចំណេះដឹង​ផ្នែក​នីតិវិធី​ត្រូវបាន​លាក់កំបាំង​ពី​មនុស្ស​ម្នាក់​គឺ​គាត់​មិនបាន​ដឹង​នោះទេ។ ការប៉ុនប៉ងដើម្បីពន្យល់ពីយន្តការនៃមុខងារភាសានាំឱ្យខូចមុខងារ។ ជាឧទាហរណ៍ អ្នកឯកទេសក្នុងវិស័យ lexical semantics ដឹងជាឧទាហរណ៍ថា ការវិចារណកថារយៈពេលវែងដែលចាំបាច់ដើម្បីសិក្សាផែនការខ្លឹមសារនៃពាក្យ នាំឱ្យការពិតដែលថាអ្នកស្រាវជ្រាវបាត់បង់សមត្ថភាពក្នុងការបែងចែករវាងការប្រើប្រាស់ត្រឹមត្រូវ និងមិនត្រឹមត្រូវនៃពាក្យដែលបានវិភាគ។ ឧទាហរណ៍ផ្សេងទៀតអាចត្រូវបានដកស្រង់។ វាត្រូវបានគេដឹងថាតាមទស្សនៈនៃមេកានិចរាងកាយរបស់មនុស្សគឺជាប្រព័ន្ធស្មុគស្មាញនៃប៉ោលអន្តរកម្មពីរ។

នៅក្នុងទ្រឹស្ដីចំណេះដឹង រចនាសម្ព័ន្ធចំណេះដឹងផ្សេងៗត្រូវបានប្រើដើម្បីសិក្សា និងតំណាងឱ្យចំណេះដឹង - ស៊ុម សេណារីយ៉ូ ផែនការ។ យោងតាមលោក M. Minsky "ស៊ុមគឺជារចនាសម្ព័ន្ធទិន្នន័យដែលបានរចនាឡើងដើម្បីតំណាងឱ្យស្ថានភាពស្តេរ៉េអូ" [Minsky 1978, p.254] ។ លម្អិតបន្ថែមទៀត យើងអាចនិយាយបានថា ស៊ុមគឺជារចនាសម្ព័ន្ធគំនិតសម្រាប់តំណាងប្រកាសនៃចំនេះដឹងអំពីស្ថានភាពបង្រួបបង្រួមតាមរូបធាតុដែលមានលក្ខណៈអក្សរសាស្ត្រដែលមានរន្ធដោតភ្ជាប់គ្នាដោយទំនាក់ទំនងតាមន័យជាក់លាក់មួយចំនួន។ សម្រាប់​គោលបំណង​នៃ​ការ​បង្ហាញ ស៊ុម​មួយ​ត្រូវ​បាន​តំណាង​ជា​ញឹកញាប់​ជា​តារាង ដែល​ជា​ជួរ​ដេក​ដែល​បង្កើត​ជា​រន្ធ។ រន្ធដោតនីមួយៗមានឈ្មោះ និងខ្លឹមសាររបស់វា (សូមមើលតារាងទី 1)។

តារាងទី 1

បំណែកនៃស៊ុម "តារាង" នៅក្នុងទិដ្ឋភាពតារាង

អាស្រ័យលើភារកិច្ចជាក់លាក់ រចនាសម្ព័ន្ធស៊ុមអាចស្មុគស្មាញជាង។ ស៊ុមអាចរួមបញ្ចូលស៊ុមរងដែលបានដាក់ និងឯកសារយោងទៅស៊ុមផ្សេងទៀត។

ជំនួសឱ្យតារាង ទម្រង់បទបង្ហាញនៃការព្យាករណ៍ត្រូវបានប្រើជាញឹកញាប់។ ក្នុង​ករណី​នេះ ស៊ុម​គឺ​ជា​ទម្រង់​នៃ​ការព្យាករណ៍ ឬ​មុខងារ​ជាមួយ​អាគុយម៉ង់។ មានវិធីផ្សេងទៀតដើម្បីតំណាងឱ្យស៊ុមមួយ។ ឧទាហរណ៍ វាអាចត្រូវបានតំណាងជា tuple នៃទម្រង់ខាងក្រោម៖ ((ឈ្មោះស៊ុម) (ឈ្មោះរន្ធ)) (តម្លៃរន្ធ,), ..., (ឈ្មោះរន្ធដោត n) (តម្លៃរន្ធ n)) ។

ជាធម្មតា ស៊ុមនៅក្នុងភាសាតំណាងចំណេះដឹងមានទម្រង់នេះ។

ដូចជាប្រភេទការយល់ដឹងផ្សេងទៀតនៃភាសាវិទ្យាគណនា គំនិតនៃស៊ុមគឺដូចគ្នាបេះបិទ។ Ontologically វាគឺជាផ្នែកមួយនៃប្រព័ន្ធនៃការយល់ដឹងរបស់មនុស្ស ហើយក្នុងន័យនេះ ស៊ុមអាចត្រូវបានប្រៀបធៀបជាមួយនឹងគោលគំនិតដូចជា gestalt, prototype, stereotype, scheme ។ នៅក្នុងចិត្តវិទ្យានៃការយល់ដឹង ប្រភេទទាំងនេះត្រូវបានពិចារណាយ៉ាងជាក់លាក់ពីទស្សនៈ ontological ។ ដូច្នេះ D. Norman បែងចែកវិធីសំខាន់ពីរនៃអត្ថិភាព និងការរៀបចំចំណេះដឹងនៅក្នុងប្រព័ន្ធការយល់ដឹងរបស់មនុស្ស - បណ្តាញ semantic និងគ្រោងការណ៍។ "គ្រោងការណ៍" គាត់សរសេរថា "ត្រូវបានរៀបចំជាកញ្ចប់នៃចំណេះដឹងដែលបានប្រមូលផ្តុំដើម្បីតំណាងឱ្យឯកតានៃចំណេះដឹងដាច់ដោយឡែកពីគ្នា។ គ្រោងការណ៍របស់ខ្ញុំសម្រាប់ Sam អាចមានព័ត៌មានដែលពិពណ៌នាអំពីលក្ខណៈរូបវន្ត សកម្មភាពរបស់គាត់ និងបុគ្គលិកលក្ខណៈ។ គ្រោងការណ៍នេះទាក់ទងនឹងគ្រោងការណ៍ផ្សេងទៀត ដែលពិពណ៌នាអំពីទិដ្ឋភាពផ្សេងទៀតរបស់វា” [Norman 1998, p. 359]។ ប្រសិនបើយើងយកផ្នែកខាងឧបករណ៍នៃប្រភេទស៊ុម នោះនេះគឺជារចនាសម្ព័ន្ធសម្រាប់តំណាងប្រកាសនៃចំណេះដឹង។ នៅក្នុងប្រព័ន្ធ AI បច្ចុប្បន្ន ស៊ុមអាចបង្កើតរចនាសម្ព័ន្ធចំណេះដឹងដ៏ស្មុគស្មាញ។ ប្រព័ន្ធស៊ុមអនុញ្ញាតឱ្យមានឋានានុក្រម - ស៊ុមមួយអាចជាផ្នែកមួយនៃស៊ុមមួយផ្សេងទៀត។

នៅក្នុងលក្ខខណ្ឌនៃខ្លឹមសារ គំនិតនៃស៊ុមគឺមានភាពជិតស្និទ្ធនឹងប្រភេទនៃការបកស្រាយ។ ជាការពិតណាស់ រន្ធដោតគឺជា analogue នៃ valence ការបំពេញរន្ធដោតគឺជា analogue នៃ actant មួយ។ ភាពខុសគ្នាចំបងរវាងពួកគេគឺថាការបកស្រាយមានព័ត៌មានពាក់ព័ន្ធតែផ្នែកភាសាអំពីផែនការនៃខ្លឹមសារនៃពាក្យប៉ុណ្ណោះ ហើយស៊ុមទីមួយគឺមិនចាំបាច់ភ្ជាប់ទៅនឹងពាក្យនោះទេ ហើយទីពីររួមបញ្ចូលព័ត៌មានទាំងអស់ដែលទាក់ទងនឹងបញ្ហាដែលបានផ្តល់ឱ្យ។ ស្ថានភាព រួមទាំងភាសាក្រៅភាសា (ចំណេះដឹងអំពីពិភពលោក) ៣).

សេណារីយ៉ូ គឺជាក្របខណ្ឌគោលគំនិតសម្រាប់តំណាងនីតិវិធីនៃចំណេះដឹងអំពីស្ថានភាព ឬអាកប្បកិរិយាដែលបានកំណត់ទុកជាមុន។ ធាតុស្គ្រីបគឺជាជំហាននៃក្បួនដោះស្រាយ ឬការណែនាំ។ ជាធម្មតាមនុស្សនិយាយអំពី "សេណារីយ៉ូភោជនីយដ្ឋាន", "សេណារីយ៉ូការទិញ" ជាដើម។

ស៊ុមនេះក៏ត្រូវបានប្រើប្រាស់ដើមដំបូងសម្រាប់ការធ្វើបទបង្ហាញអំពីនីតិវិធី (សូមមើលពាក្យ "ស៊ុមនីតិវិធី") ប៉ុន្តែពាក្យ "សេណារីយ៉ូ" ឥឡូវនេះត្រូវបានប្រើប្រាស់ជាទូទៅក្នុងន័យនេះ។ សេណារីយ៉ូអាចត្រូវបានតំណាងមិនត្រឹមតែជាក្បួនដោះស្រាយប៉ុណ្ណោះទេប៉ុន្តែក៏ជាបណ្តាញផងដែរ ចំនុចកំពូលដែលត្រូវគ្នាទៅនឹងស្ថានភាពជាក់លាក់ ហើយអ័ក្សត្រូវគ្នាទៅនឹងការតភ្ជាប់រវាងស្ថានភាព។ រួមជាមួយនឹងគំនិតនៃស្គ្រីប អ្នកស្រាវជ្រាវខ្លះប្រើប្រភេទស្គ្រីបសម្រាប់ធ្វើគំរូកុំព្យូទ័រនៃភាពវៃឆ្លាត។ យោងទៅតាមលោក R. Schenk ស្គ្រីបមួយត្រូវបានទទួលយកជាទូទៅមួយចំនួន លំដាប់ដែលល្បីនៃទំនាក់ទំនងបុព្វហេតុ។ ឧទាហរណ៍៖ ស្វែងយល់ពីការសន្ទនា

នៅតាមផ្លូវវាចាក់ដូចធុង។

អ្នកនៅតែត្រូវទៅហាង: មិនមានអ្វីនៅក្នុងផ្ទះទេ - កាលពីម្សិលមិញភ្ញៀវបានបោសអ្វីៗទាំងអស់។

គឺផ្អែកលើការភ្ជាប់ពាក្យមិនច្បាស់លាស់ដូចជា "ប្រសិនបើភ្លៀង វាមិនគួរឱ្យចង់ទៅខាងក្រៅទេ ព្រោះអ្នកអាចឈឺ" ។ ការតភ្ជាប់ទាំងនេះបង្កើតជាស្គ្រីប ដែលត្រូវបានប្រើដោយអ្នកនិយាយដើមកំណើត ដើម្បីយល់ពីអាកប្បកិរិយាពាក្យសំដី និងមិនមែនពាក្យសម្ដីរបស់គ្នាទៅវិញទៅមក។

ជាលទ្ធផលនៃការអនុវត្តសេណារីយ៉ូទៅនឹងស្ថានភាពបញ្ហាជាក់លាក់មួយ ក ផែនការ) ផែនការមួយត្រូវបានប្រើដើម្បីតំណាងឱ្យចំណេះដឹងអំពីសកម្មភាពដែលអាចនាំទៅដល់គោលដៅជាក់លាក់មួយ។ ផែនការមួយទាក់ទងនឹងគោលដៅទៅនឹងលំដាប់នៃសកម្មភាព។

ក្នុងករណីទូទៅ ផែនការរួមបញ្ចូលនូវលំដាប់នៃនីតិវិធីដែលផ្ទេរស្ថានភាពដំបូងនៃប្រព័ន្ធទៅដំណាក់កាលចុងក្រោយ ហើយនាំទៅដល់ការសម្រេចបាននូវគោលដៅរង និងគោលដៅជាក់លាក់មួយ។ នៅក្នុងប្រព័ន្ធ AI ផែនការកើតឡើងជាលទ្ធផលនៃសកម្មភាពធ្វើផែនការ ឬផែនការនៃម៉ូឌុលដែលត្រូវគ្នា - ម៉ូឌុលធ្វើផែនការ។ ដំណើរការធ្វើផែនការអាចផ្អែកលើការសម្របខ្លួននៃទិន្នន័យពីសេណារីយ៉ូមួយ ឬច្រើន ដែលដំណើរការដោយនីតិវិធីសាកល្បង ដើម្បីដោះស្រាយស្ថានភាពបញ្ហា។ ការប្រតិបត្តិនៃផែនការនេះត្រូវបានអនុវត្តដោយម៉ូឌុលប្រតិបត្តិដែលគ្រប់គ្រងនីតិវិធីនៃការយល់ដឹង និងសកម្មភាពរាងកាយរបស់ប្រព័ន្ធ។ នៅក្នុងករណីបឋម ផែនការនៅក្នុងប្រព័ន្ធឆ្លាតវៃ គឺជាលំដាប់សាមញ្ញនៃប្រតិបត្តិការ។ នៅក្នុងកំណែស្មុគ្រស្មាញកាន់តែច្រើន ផែនការត្រូវបានភ្ជាប់ជាមួយប្រធានបទជាក់លាក់ ធនធាន សមត្ថភាព គោលដៅរបស់វា ជាមួយនឹងព័ត៌មានលំអិតអំពីស្ថានភាពបញ្ហា។ល។ ការលេចចេញនៃផែនការកើតឡើងនៅក្នុងដំណើរការនៃការទំនាក់ទំនងរវាងគំរូនៃពិភពលោក ដែលផ្នែកមួយត្រូវបានបង្កើតឡើងដោយសេណារីយ៉ូ ម៉ូឌុលផែនការ និងម៉ូឌុលប្រតិបត្តិ។

មិនដូចសេណារីយ៉ូទេ ផែនការមួយត្រូវបានផ្សារភ្ជាប់ជាមួយនឹងស្ថានភាពជាក់លាក់មួយ អ្នកសំដែងជាក់លាក់ និងបន្តគោលដៅជាក់លាក់មួយ។ ជម្រើសនៃផែនការត្រូវបានគ្រប់គ្រងដោយធនធានរបស់អ្នកម៉ៅការ។ លទ្ធភាពនៃផែនការគឺជាលក្ខខណ្ឌកាតព្វកិច្ចសម្រាប់ជំនាន់របស់វានៅក្នុងប្រព័ន្ធយល់ដឹង ហើយលក្ខណៈនៃលទ្ធភាពគឺមិនអាចអនុវត្តបានចំពោះសេណារីយ៉ូមួយ។

គំនិតសំខាន់មួយទៀតគឺគំរូនៃពិភពលោក។ គំរូនៃពិភពលោកត្រូវបានយល់ជាទូទៅថាជាសំណុំនៃចំណេះដឹងអំពីពិភពលោកដែលបានរៀបចំតាមរបៀបជាក់លាក់មួយ ដោយនៅក្នុងប្រព័ន្ធនៃការយល់ដឹង ឬគំរូកុំព្យូទ័ររបស់វា។ នៅក្នុងន័យទូទៅបន្តិច គំរូនៃពិភពលោកត្រូវបាននិយាយអំពីជាផ្នែកមួយនៃប្រព័ន្ធយល់ដឹងដែលរក្សាទុកចំណេះដឹងអំពីរចនាសម្ព័ន្ធនៃពិភពលោក គំរូរបស់វាជាដើម។ ក្នុងន័យមួយទៀត គំរូនៃពិភពលោកត្រូវបានផ្សារភ្ជាប់ជាមួយនឹងលទ្ធផល។ នៃការយល់ដឹងអំពីអត្ថបទ ឬនិយាយយ៉ាងទូលំទូលាយជាងនេះ។ នៅក្នុងដំណើរការនៃការយល់ដឹងអំពីសុន្ទរកថានោះ គំរូផ្លូវចិត្តរបស់វាត្រូវបានបង្កើតឡើង ដែលជាលទ្ធផលនៃអន្តរកម្មរវាងផែនការនៃខ្លឹមសារនៃអត្ថបទ និងចំណេះដឹងអំពីពិភពលោកដែលមាននៅក្នុងប្រធានបទនេះ [Johnson-Laird 1988, p. 237 et វគ្គ។] ការយល់ដឹងទីមួយ និងទីពីរត្រូវបានបញ្ចូលគ្នាជាញឹកញាប់។ នេះ​ជា​តួយ៉ាង​នៃ​អ្នក​ស្រាវជ្រាវ​ភាសា​ដែល​ធ្វើការ​ក្នុង​ផ្នែក​ភាសាវិទ្យា និង​វិទ្យាសាស្ត្រ​ការយល់ដឹង។

ទាក់ទងយ៉ាងជិតស្និទ្ធទៅនឹងប្រភេទនៃស៊ុមគឺជាគំនិតនៃឈុតមួយ។ ប្រភេទឈុតត្រូវបានប្រើប្រាស់ជាចម្បងនៅក្នុងអក្សរសិល្ប៍ជាការរចនានៃរចនាសម្ព័ន្ធគំនិតសម្រាប់តំណាងប្រកាសនៃស្ថានភាព និងផ្នែករបស់ពួកគេដែលបានធ្វើឱ្យពិតប្រាកដនៅក្នុងសុន្ទរកថាមួយ ហើយត្រូវបានរំលេចដោយមធ្យោបាយភាសា (lexemes, សំណង់វាក្យសម្ព័ន្ធ, ប្រភេទវេយ្យាករណ៍។ល។)។ ដោយត្រូវបានផ្សារភ្ជាប់ជាមួយនឹងទម្រង់ភាសា ឈុតនេះត្រូវបានធ្វើបច្ចុប្បន្នភាពជាញឹកញាប់ដោយពាក្យជាក់លាក់ ឬការបញ្ចេញមតិ។ នៅក្នុងវេយ្យាករណ៍គ្រោង (សូមមើលខាងក្រោម) ឈុតមួយលេចឡើងជាផ្នែកនៃវគ្គ ឬនិទានរឿង។ ឧទាហរណ៍លក្ខណៈនៃឈុតឆាកគឺជាសំណុំនៃគូបដែលប្រព័ន្ធ AI ធ្វើការជាមួយ ឈុតឆាកនៃសកម្មភាពក្នុងរឿង និងអ្នកចូលរួមក្នុងសកម្មភាព។ល។ នៅក្នុងបញ្ញាសិប្បនិមិត្ត ឈុតឆាកត្រូវបានប្រើនៅក្នុងប្រព័ន្ធទទួលស្គាល់រូបភាព ក៏ដូចជានៅក្នុងកម្មវិធីដែលផ្តោតលើការសិក្សា (ការវិភាគ ការពិពណ៌នា) នៃស្ថានភាពបញ្ហា។ គោលគំនិតនៃឈុតមួយបានរីករាលដាលនៅក្នុងទ្រឹស្តីភាសាវិទ្យា ក៏ដូចជាក្នុងតក្កវិជ្ជា ជាពិសេសនៅក្នុងន័យន័យស្ថានការណ៍ ដែលអត្ថន័យនៃឯកតា lexical ត្រូវបានភ្ជាប់ដោយផ្ទាល់ជាមួយឈុត។

ភាសាវិទ្យា​ដែល​ប្រើ​ក្នុង​ការ​គណនា​បាន​អស់​កម្លាំង​ដោយ​ខ្លួន​ឯង​សព្វ​ថ្ងៃ​នេះ។ នេះបង្ហាញដោយផ្ទាល់ដោយបទពិសោធន៍មិនជោគជ័យរបស់អ្នកស្រាវជ្រាវ និងអ្នកបង្កើតផលិតផលព័ត៌មាន "បញ្ញា" ដែលបានធ្វើការអស់រយៈពេលជាងកន្លះសតវត្សមកហើយលើការបង្កើតកម្មវិធីមហិច្ឆតាដូចជាឧទាហរណ៍ ការបកប្រែម៉ាស៊ីនគ្រប់គ្រាន់ ឬការស្វែងរកតាមន័យធៀបសម្រាប់ព័ត៌មាននៅក្នុង អារេនៃឯកសារភាសាធម្មជាតិ។

អនាគតនៃដំណើរការម៉ាស៊ីននៃអត្ថបទភាសាធម្មជាតិ ជាការពិត ត្រូវបានគេមើលឃើញនៅក្នុងការបង្កើត និងការអភិវឌ្ឍនៃបច្ចេកវិទ្យា supralinguistic ដែលមានសមត្ថភាពវិភាគមាតិកាព័ត៌មាននៅកម្រិតនៃការយល់ដឹងតាមន័យនៃបរិបទ ដូចដែលមនុស្សម្នាក់អាចធ្វើបាន។ ទោះជាយ៉ាងណាក៏ដោយ ការបង្កើត "ម៉ាស៊ីនគិត" (Thinking Machine) អស់រយៈពេលជាយូរត្រូវបានរារាំងដោយកត្តាសំខាន់ពីរ - កង្វះវិធីសាស្រ្តចាំបាច់ និងឧបករណ៍ត្រឹមត្រូវសម្រាប់ដោះស្រាយបញ្ហាជាមូលដ្ឋានចំនួនពីរ - នេះគឺជាការស្វែងរក "រូបមន្តនៃអត្ថន័យ" និងការកសាង "គំរូនៃចំនេះដឹងអំពីសកលលោក" នៅក្នុងទម្រង់ដែលអាចចូលប្រើកុំព្យូទ័រផ្លូវការមួយចំនួន ដោយគ្មានការពិត វាមិនអាចទៅរួចទេក្នុងការនិយាយឡើងវិញនូវលក្ខណៈនៃការគិតរបស់មនុស្សនៅកម្រិតកម្មវិធី។

ភាសាវិទូ រួមជាមួយនឹង cybernetics មិនអាចយកឈ្នះលើបញ្ហាទាំងនេះបានទេ ព្រោះថាផ្នែកក្រោយៗទៀតគឺនៅក្រៅព្រំដែននៃឯកទេសមុខវិជ្ជារបស់ពួកគេរួចហើយ ដែលតាមពិតទៅបានពន្យឺតការអភិវឌ្ឍន៍នៃផ្នែកដែលបានស្នើសុំយូរមកហើយនៃដំណើរការអត្ថបទ ដូចជា ដូចជាការបង្កើតប្រព័ន្ធសន្ទនា "ឆ្លាតវៃ" ឬ "ម៉ាស៊ីនស្វែងរកតាមអ៊ីនធឺណិត" ។ ហើយ​ការ​បកប្រែ​ដោយ​ម៉ាស៊ីន​ដូចគ្នា​នៅ​តែ​ទុក​ជា​ការ​ចង់​បាន។

បទពិសោធន៍នៃការអភិវឌ្ឍន៍វឌ្ឍនភាពវិទ្យាសាស្ត្រ និងបច្ចេកវិទ្យាបង្ហាញថា ការទម្លាយលទ្ធផលដែលចង់បាននៅទីបំផុតត្រូវបានទទួល ជាក្បួននៅប្រសព្វនៃវិស័យបច្ចេកវិទ្យា និងមុខវិជ្ជាផ្សេងៗគ្នា។ ជាក់ស្តែង បញ្ហានៃ "ការគិតតាមម៉ាស៊ីន" នឹងត្រូវបានដោះស្រាយយ៉ាងពិតប្រាកដ នៅពេលដែលយើងយល់ច្បាស់អំពីរបៀបដែលមនសិការធម្មជាតិរបស់យើងដំណើរការនៅក្នុងផែនការនីតិវិធី ហើយនៅពេលដែលយើងអាចដឹងបានថា តើនីតិវិធីនៃការគិតទាំងនេះ ដែលបង្ហាញដល់ពួកយើងក្នុងបរិមាណចាំបាច់ និងគ្រប់គ្រាន់នោះនឹង ក្បួនដោះស្រាយកុំព្យូទ័រចុងក្រោយ។

គួរកត់សម្គាល់ថាក្នុងប៉ុន្មានឆ្នាំថ្មីៗនេះ វិន័យវិទ្យាសាស្ត្រថ្មី ("smartbuter") បានចាប់ផ្តើមអភិវឌ្ឍ ដែលទាក់ទងយ៉ាងពិតប្រាកដជាមួយនឹងការពិតដែលថាវាសិក្សាពីលក្ខណៈនីតិវិធីនៃសកម្មភាពផ្លូវចិត្តរបស់មនុស្ស។ យើងអាចនិយាយបានថានៅពេលនេះ យើងមានរបកគំហើញដ៏សំខាន់មួយក្នុងទិសដៅនេះ ហើយយើងស្រម៉ៃយ៉ាងច្បាស់អំពីរបៀបដែលក្បួនដោះស្រាយនៃការគិតរបស់មនុស្សដំណើរការ។ ប្រសិនបើយើងនិយាយអំពីរឿងនេះជាទូទៅនោះ ជាដំបូងគួរកត់សំគាល់ថាមនុស្សម្នាក់មិនគិតក្នុងរូបភាពដូចអ្វីដែលគេគិតនោះទេ ប៉ុន្តែនៅក្នុង "លំនាំនៃឥរិយាបទរូបភាព" (IGO)។ ទីពីរ យើងគិតថា "ontolologically" នោះគឺយើងតែងតែសួរសំណួរ សូម្បីតែដោយមិនកត់សំគាល់វាដោយខ្លួនឯង ហើយស្វែងរកចម្លើយជាអចិន្ត្រៃយ៍ (ដោយស្វ័យប្រវត្តិផងដែរ)។ ជាចុងក្រោយ ការយល់ដឹងដ៏មានអត្ថន័យនៃអ្វីគ្រប់យ៉ាងដែលកើតឡើងជុំវិញបុគ្គល ឬនៅក្នុងគំនិតរបស់គាត់ក្នុងអំឡុងពេលសញ្ជឹងគិតណាមួយត្រូវបានអនុវត្តយ៉ាងជាក់លាក់ដោយមានជំនួយពី "តំណាងគំរូ" ជាក់លាក់នៃសកលលោកជុំវិញនោះ។ វាកើតឡើងដោយការប្រៀបធៀប MPOs ទាំងនោះដែលគាត់ទទួលបាននៅលើមូលដ្ឋានប្រតិបត្តិការជាមួយនឹងគំនិតអំពីសកលលោកដែលបានរក្សាទុកនៅក្នុងការចងចាំរយៈពេលវែងរបស់មនុស្ស។ ពិតប្រាកដណាស់ ត្រីបាឡែនសំខាន់ៗទាំងបីនេះបង្កើតបានជាបច្ចេកវិជ្ជាទាំងមូលនៃការគិតធម្មជាតិ ដែលឥឡូវនេះនៅសល់តែត្រូវបានផ្ទេរទៅជាភាសាដែលអាចយល់បានសម្រាប់អ្នកសរសេរកម្មវិធី និងទទួលបានលទ្ធផលដែលរង់ចាំជាយូរមកហើយ។

នៅពេលដែលមនុស្សយល់ពីសារភាសាធម្មជាតិណាមួយ ពួកគេមិនដែលបង្កើតការឆ្លើយឆ្លងភ្លាមៗនៃការវិនិច្ឆ័យដែលបានបញ្ជាក់ជាមួយនឹងគំនិត និងគំរូអាកប្បកិរិយានៃរូបភាពដែលបានរក្សាទុកក្នុងការចងចាំរបស់ពួកគេ។ រាល់ពេល ពួកគេផ្តល់ឱ្យ MPOs ដែលទទួលបាន (យល់ឃើញ) នូវការឆ្លើយឆ្លង associative-heuristic ដំបូងដែលកើតឡើងនៅក្នុងគំនិតរបស់ពួកគេ ដោយផ្អែកលើភាពជាក់លាក់នៃបទពិសោធន៍ និងចំណេះដឹងរបស់ពួកគេ ហើយមានតែពេលនោះទេ ក្នុងអំឡុងពេលនៃការគិតឡើងវិញនៃអត្ថបទ ពួកគេចាប់ផ្តើម ដើម្បីបញ្ជាក់ និងបញ្ជាក់ព័ត៌មានដែលទទួលបាន។ ម្យ៉ាងវិញទៀត ភាសាវិទ្យាក្នុងការគណនា ព្យាយាមបង្កើតការឆ្លើយឆ្លងគ្នាយ៉ាងពិតប្រាកដរវាងអត្ថន័យនៃពាក្យ ក៏ដូចជាទំនាក់ទំនងទៅវិញទៅមករបស់ពួកគេ ដោយព្យាយាមយកឈ្នះលើបញ្ហានៃភាពមិនច្បាស់លាស់នៃពាក្យសំដីដែលមាននៅក្នុងភាសាណាមួយ ដែលតាមពិតវាមានភាពខុសគ្នាខ្លាំង។ ពីរបៀបដែលការគិតរបស់យើងដំណើរការ។ យ៉ាងណាមិញ មនុស្សម្នាក់សម្រេចបាននូវការយល់ដឹងអំពីការនិយាយ ឬអត្ថបទមិនមែនទាល់តែសោះ ដោយសារតែចំណេះដឹងនៃបន្ទុក morphological នៃពាក្យ ឬការបង្កើតតំណភ្ជាប់វាក្យសម្ព័ន្ធរវាងពាក្យ ហើយមិនមែនដោយសារតែគាត់បានទទួលស្គាល់អត្ថន័យជាក់លាក់ (semantis) នៃពាក្យ ប៉ុន្តែពិតប្រាកដ ដោយ​សារ​តែ​ការ​សន្មត់​រួម​ដំបូង​និង "ការ​រមូរ​ម្តង​ហើយ​ម្តង​ទៀត" ។ នៃបរិបទទាំងមូល" ដើម្បីគូររូបភាពចុងក្រោយនៃការឆ្លើយឆ្លងនៃព័ត៌មានដែលយល់ឃើញទៅមាតិកាខាងក្នុងរបស់វា។