कम्प्यूटेशनल भाषाविज्ञान का इतिहास। कम्प्यूटेशनल भाषाविज्ञान क्या है? कम्प्यूटेशनल भाषाविज्ञान का संज्ञानात्मक टूलकिट

नोवोसेलोवा इरीना

सभी मशीनी अनुवाद सही क्यों नहीं होते? अनुवाद की गुणवत्ता क्या निर्धारित करती है? क्या लेखक के पास मौजूदा कंप्यूटर शब्दकोशों के उपयोग और पूरक के लिए पर्याप्त ज्ञान है? लेखक ने इन सवालों के जवाब अपने काम में देने की कोशिश की। विषय पर रिपोर्ट - संलग्न फाइल में, परियोजना गतिविधियों के उत्पाद - स्कूल पोर्टल पर

डाउनलोड:

पूर्वावलोकन:

खुला

अंतरराष्ट्रीय

अनुसंधान

सम्मेलन

हाई स्कूल के छात्र और छात्र

"शिक्षा। विज्ञान। पेशा"

अनुभाग "विदेशी भाषाविज्ञान"

"कंप्यूटर भाषाविज्ञान"

इरिना नोवोसिओलोवा द्वारा निर्मित

समझौता ज्ञापन व्यायामशाला संख्या 39 "क्लासिक"

10 "बी" वर्ग

वैज्ञानिक पर्यवेक्षक:

चिग्रीनेवा तात्याना दिमित्रिग्ना,

उच्चतम श्रेणी के अंग्रेजी शिक्षक

ओसिपोवा स्वेतलाना लियोनिदोवना,

उच्चतम श्रेणी के कंप्यूटर विज्ञान शिक्षक

Otradny के शहर

2011

  1. आईसीटी . में अंग्रेजी शब्द

वेबसाइट देखें

  1. मेरा प्रयोग

कार्यों में से एक प्रयोग करना है, जिसमें विभिन्न कंप्यूटर भाषाई शब्दकोशों की क्षमताओं की तुलना करना शामिल है, अंग्रेजी से रूसी में अधिक सटीक और अनुमानित अनुवाद के लिए।

निम्नलिखित साइटों का परीक्षण किया गया है:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

प्रयोग की शुद्धता के लिए, मैंने शैलीगत अनुवाद की जटिलता की अलग-अलग डिग्री वाले वाक्यों को चुना। इनपुट वाक्यांश इस प्रकार हैं:

1. एक नई रिपोर्ट कहती है कि आज के किशोर 20 साल पहले की तुलना में अधिक स्वार्थी हैं

(नई रिपोर्ट कहती है कि आज के किशोर 20 साल पहले की तुलना में अधिक स्वार्थी हैं)

2. उनका मानना ​​है कि इस बढ़े हुए स्वार्थ का सबसे बड़ा कारण वीडियो गेम और इंटरनेट हैं।

(उनका मानना ​​है कि इस बढ़ते स्वार्थ का सबसे बड़ा कारण वीडियो गेम और इंटरनेट हैं)

3. वे दूसरों से बेहतर बनना चाहते हैं

(वे बाकियों से बेहतर बनना चाहते हैं)

4. उन्होंने पाया कि वर्ष 2000 से शुरू हुई बड़ी वृद्धि, जो तब हुई जब हिंसक वीडियो गेम वास्तव में लोकप्रिय हो गए।

(2000 में जब हिंसक वीडियो गेम वास्तव में लोकप्रिय हो गए तो उन्होंने बहुत विकास पाया)

इन वाक्यों का ऑनलाइन अनुवादक साइटों पर अनुवाद करने के बाद, मुझे निम्नलिखित परिणाम मिले:

  1. http://translate.eu/

कम्प्यूटेशनल भाषाविज्ञान: तरीके, संसाधन, अनुप्रयोग

परिचय

अवधि अभिकलनात्मक भाषाविज्ञान(सीएल) हाल के वर्षों में वाणिज्यिक सॉफ्टवेयर उत्पादों सहित विभिन्न लागू सॉफ्टवेयर सिस्टम के विकास के संबंध में तेजी से आम है। यह इंटरनेट सहित पाठ्य सूचना के समाज में तेजी से विकास और प्राकृतिक भाषा (एनएल) में ग्रंथों के स्वचालित प्रसंस्करण की आवश्यकता के कारण है। यह परिस्थिति विज्ञान के क्षेत्र के रूप में कम्प्यूटेशनल भाषाविज्ञान के विकास और नई सूचना और भाषाई प्रौद्योगिकियों के विकास को प्रोत्साहित करती है।

कम्प्यूटेशनल भाषाविज्ञान के ढांचे के भीतर, जो 50 से अधिक वर्षों से अस्तित्व में है (और नामों के तहत भी जाना जाता है मशीनी भाषाविज्ञान, NL . में स्वचालित वर्ड प्रोसेसिंग) कई आशाजनक तरीके और विचार प्रस्तावित किए गए हैं, लेकिन उनमें से सभी ने अभी तक व्यवहार में उपयोग किए जाने वाले सॉफ़्टवेयर उत्पादों में अपनी अभिव्यक्ति नहीं पाई है। हमारा लक्ष्य अनुसंधान के इस क्षेत्र की बारीकियों को चिह्नित करना, इसके मुख्य कार्यों को तैयार करना, अन्य विज्ञानों के साथ इसके संबंधों को इंगित करना, उपयोग किए गए मुख्य दृष्टिकोणों और संसाधनों का संक्षिप्त विवरण देना और सीएल के मौजूदा अनुप्रयोगों को संक्षेप में बताना है। इन मुद्दों के बारे में अधिक विस्तृत जानकारी के लिए, पुस्तकों की सिफारिश की जा सकती है।

1. कम्प्यूटेशनल भाषाविज्ञान के कार्य

कम्प्यूटेशनल भाषाविज्ञान भाषाविज्ञान, गणित, कंप्यूटर विज्ञान (कंप्यूटर विज्ञान) और कृत्रिम बुद्धि जैसे विज्ञानों के चौराहे पर उत्पन्न हुआ। सीएल की उत्पत्ति प्राकृतिक भाषा की संरचना की औपचारिकता के क्षेत्र में प्रसिद्ध अमेरिकी वैज्ञानिक एन। चॉम्स्की के शोध पर वापस जाती है; इसका विकास सामान्य भाषाविज्ञान (भाषाविज्ञान) के क्षेत्र में परिणामों पर आधारित है। भाषाविज्ञान प्राकृतिक भाषा के सामान्य नियमों का अध्ययन करता है - इसकी संरचना और कार्यप्रणाली, और इसमें निम्नलिखित क्षेत्र शामिल हैं:

Ø ध्वनि विज्ञान- भाषण की आवाज़ और भाषण के गठन में उनके संयोजन के नियमों का अध्ययन करता है;

Ø आकृति विज्ञान- भाषण के कुछ हिस्सों और उनकी श्रेणियों सहित भाषण के शब्दों की आंतरिक संरचना और बाहरी रूप से संबंधित है;

Ø वाक्य - विन्यास- वाक्यों की संरचना, संगतता के नियमों और वाक्य में शब्दों के क्रम के साथ-साथ भाषा की एक इकाई के रूप में इसके सामान्य गुणों का अध्ययन करता है।

Ø अर्थ विज्ञानऔर व्यावहारिक- निकट से संबंधित क्षेत्र: शब्दार्थ शब्दों, वाक्यों और भाषण की अन्य इकाइयों के अर्थ से संबंधित है, और व्यावहारिकता संचार के विशिष्ट लक्ष्यों के संबंध में इस अर्थ को व्यक्त करने की विशेषताओं से संबंधित है;

Ø कोशरचनाएक विशेष SL के शब्दकोष का वर्णन करता है - इसके अलग-अलग शब्द और उनके व्याकरणिक गुण, साथ ही शब्दकोश बनाने के तरीके।

भाषा विज्ञान और गणित के चौराहे पर प्राप्त एन। चॉम्स्की के परिणामों ने औपचारिक भाषाओं और व्याकरण के सिद्धांत की नींव रखी (जिसे अक्सर कहा जाता है) उत्पादक, या उत्पादकव्याकरणकर्ता)। यह सिद्धांत अब गणितीय भाषाविज्ञानऔर इतना अधिक एनएल नहीं, बल्कि कृत्रिम भाषाओं, मुख्य रूप से प्रोग्रामिंग भाषाओं को संसाधित करने के लिए उपयोग किया जाता है। अपने स्वभाव से, यह काफी गणितीय अनुशासन है।

गणितीय भाषाविज्ञान में भी शामिल हैं मात्रात्मक भाषाविज्ञान, सांख्यिकी के गणितीय तरीकों का उपयोग करते हुए भाषा की आवृत्ति विशेषताओं - शब्दों, उनके संयोजनों, वाक्य-विन्यास निर्माण आदि का अध्ययन करना, इसलिए आप विज्ञान की इस शाखा को सांख्यिकीय भाषाविज्ञान कह सकते हैं।

सीएल कृत्रिम बुद्धि (एआई) जैसे अंतःविषय वैज्ञानिक क्षेत्र से भी निकटता से संबंधित है, जिसके भीतर व्यक्तिगत बौद्धिक कार्यों के कंप्यूटर मॉडल विकसित किए जाते हैं। एआई और सीएल के क्षेत्र में पहले काम करने वाले कार्यक्रमों में से एक टी। विनोग्राड का प्रसिद्ध कार्यक्रम है, जो कि एनएल के सीमित उपसमुच्चय पर तैयार किए गए क्यूब्स की दुनिया को बदलने के लिए किसी व्यक्ति के सरलतम आदेशों को समझता है। यह ध्यान दिया जाना चाहिए कि सीएल और एआई के क्षेत्र में अनुसंधान के स्पष्ट प्रतिच्छेदन के बावजूद (चूंकि भाषा प्रवीणता बौद्धिक कार्यों से संबंधित है), एआई सभी सीएल को अवशोषित नहीं करता है, क्योंकि इसका अपना सैद्धांतिक आधार और कार्यप्रणाली है। इन विज्ञानों के लिए सामान्य है कंप्यूटर मॉडलिंग अनुसंधान की मुख्य विधि और अंतिम लक्ष्य के रूप में।

इस प्रकार, सीएल का कार्य एनएल में ग्रंथों के स्वचालित प्रसंस्करण के लिए कंप्यूटर प्रोग्राम के विकास के रूप में तैयार किया जा सकता है। और यद्यपि प्रसंस्करण को काफी व्यापक रूप से समझा जाता है, सभी प्रकार के प्रसंस्करण को भाषाई कहा जा सकता है, और संबंधित प्रोसेसर को भाषाई कहा जा सकता है। भाषाई प्रोसेसरभाषा के एक या दूसरे औपचारिक मॉडल का उपयोग करना चाहिए (भले ही यह बहुत सरल हो), जिसका अर्थ है कि यह किसी न किसी तरह से भाषा-निर्भर होना चाहिए (अर्थात, एक विशिष्ट एनएल पर निर्भर)। इसलिए, उदाहरण के लिए, टेक्स्ट एडिटर Mycrosoft Word को भाषाई कहा जा सकता है (यदि केवल इसलिए कि यह शब्दकोशों का उपयोग करता है), लेकिन नोटपैड संपादक नहीं है।

सीएल के कार्यों की जटिलता इस तथ्य के कारण है कि एनएल संकेतों की एक जटिल बहु-स्तरीय प्रणाली है जो लोगों के बीच सूचनाओं के आदान-प्रदान के लिए उत्पन्न हुई, मानव व्यावहारिक गतिविधि की प्रक्रिया में विकसित हुई, और इस गतिविधि के संबंध में लगातार बदल रही है। . सीएल विधियों के विकास में एक और कठिनाई (और भाषा विज्ञान के ढांचे के भीतर एसएल का अध्ययन करने की कठिनाई) प्राकृतिक भाषाओं की विविधता से जुड़ी है, उनकी शब्दावली, आकारिकी, वाक्यविन्यास में महत्वपूर्ण अंतर, विभिन्न भाषाएं व्यक्त करने के विभिन्न तरीके प्रदान करती हैं। एक ही अर्थ।

2. एनएल प्रणाली की विशेषताएं: स्तर और कनेक्शन

भाषाई प्रोसेसर की वस्तुएं एनएल के ग्रंथ हैं। ग्रंथों को भाषण के किसी भी नमूने के रूप में समझा जाता है - मौखिक और लिखित, किसी भी शैली का, लेकिन मूल रूप से सीएल लिखित ग्रंथों पर विचार करता है। पाठ में एक आयामी, रैखिक संरचना होती है, और इसका एक निश्चित अर्थ भी होता है, जबकि भाषा संचरित अर्थ को ग्रंथों (भाषण संश्लेषण) और इसके विपरीत (भाषण विश्लेषण) में परिवर्तित करने के साधन के रूप में कार्य करती है। पाठ छोटी इकाइयों से बना है, और पाठ को विभिन्न स्तरों से संबंधित इकाइयों में विभाजित (विभाजित) करने के कई तरीके हैं।

निम्नलिखित स्तरों के अस्तित्व को आम तौर पर मान्यता प्राप्त है:

वाक्यों का स्तर (कथन) - वाक्यात्मक स्तर;

· लेक्सिको-रूपात्मकहोमोनीमी (सबसे आम प्रकार) तब होता है जब दो अलग-अलग लेक्सेम के शब्द रूप मिलते हैं, उदाहरण के लिए, कविता- एकवचन मर्दाना में एक क्रिया और एकवचन, नाममात्र मामले में एक संज्ञा),

· वाक्यात्मक समरूपतावाक्यात्मक संरचना में एक अस्पष्टता को दर्शाता है, जिससे कई व्याख्याएं होती हैं: लवॉव के छात्र कीव गए,फ्लाइंग विमान कर सकते हैं होना खतरनाक(चॉम्स्की का प्रसिद्ध उदाहरण), आदि।

3. कम्प्यूटेशनल भाषाविज्ञान में मॉडलिंग

भाषाई प्रोसेसर (एलपी) के विकास में एनएल के संसाधित पाठ के भाषाई गुणों का विवरण शामिल है, और यह विवरण इस प्रकार व्यवस्थित है आदर्श भाषा: हिन्दी. जैसा कि गणित और प्रोग्रामिंग में मॉडलिंग में, एक मॉडल को कुछ ऐसी प्रणाली के रूप में समझा जाता है जो मॉडलिंग की जा रही घटना के कई आवश्यक गुणों को दर्शाती है (यानी, एनएल) और इसलिए एक संरचनात्मक या कार्यात्मक समानता है।

सीएल में प्रयुक्त भाषा के मॉडल आमतौर पर विभिन्न ग्रंथों का अध्ययन करके और उनके भाषाई अंतर्ज्ञान (आत्मनिरीक्षण) के आधार पर भाषाविदों द्वारा बनाए गए सिद्धांतों के आधार पर बनाए जाते हैं। केएल मॉडल की विशिष्टता क्या है? निम्नलिखित विशेषताओं को प्रतिष्ठित किया जा सकता है:

औपचारिकता और, अंततः, एल्गोरिथमिज़ेबिलिटी;

कार्यात्मकता (मॉडलिंग का उद्देश्य मानव भाषण के संश्लेषण और विश्लेषण के लिए एक सटीक मॉडल के निर्माण के बिना "ब्लैक बॉक्स" के रूप में भाषा के कार्यों को पुन: पेश करना है);

मॉडल की व्यापकता, यानी, यह ग्रंथों के एक बड़े सेट को ध्यान में रखता है;

· प्रायोगिक वैधता, जिसमें विभिन्न ग्रंथों पर मॉडल का परीक्षण करना शामिल है;

· मॉडल के अनिवार्य घटक के रूप में शब्दकोशों पर निर्भरता।

एसएल की जटिलता, इसका विवरण और प्रसंस्करण इस प्रक्रिया के विभाजन को भाषा के स्तरों के अनुरूप अलग-अलग चरणों में ले जाता है। अधिकांश आधुनिक एलपी एक मॉड्यूलर प्रकार के होते हैं, जिसमें भाषाई विश्लेषण या संश्लेषण का प्रत्येक स्तर एक अलग से मेल खाता है। प्रोसेसर मॉड्यूल। विशेष रूप से, पाठ विश्लेषण के मामले में, व्यक्तिगत एलपी मॉड्यूल प्रदर्शन करते हैं:

आलेखीय विश्लेषण, यानी पाठ में शब्द रूपों को उजागर करना (प्रतीकों से शब्दों में संक्रमण);

रूपात्मक विश्लेषण - शब्द रूपों से उनके में संक्रमण लेम्मास(शब्दकोश के शब्दकोष) या मूल बातें(शब्द के परमाणु भाग, माइनस विभक्तिपूर्ण morphemes);

वाक्यात्मक विश्लेषण, यानी, पाठ वाक्यों की व्याकरणिक संरचना की पहचान करना;

अर्थपूर्ण और व्यावहारिक विश्लेषण, जो वाक्यांशों के अर्थ और उस प्रणाली की संबंधित प्रतिक्रिया को निर्धारित करता है जिसके भीतर एलपी काम करता है।

इन मॉड्यूल की बातचीत की विभिन्न योजनाएं संभव हैं (अनुक्रमिक कार्य या समानांतर इंटरलीव्ड विश्लेषण), हालांकि, व्यक्तिगत स्तर - आकृति विज्ञान, वाक्यविन्यास और शब्दार्थ अभी भी विभिन्न तंत्रों द्वारा संसाधित होते हैं।

इस प्रकार, एलपी को एक बहु-चरण कनवर्टर के रूप में माना जा सकता है, जो पाठ विश्लेषण के मामले में, इसके प्रत्येक वाक्य को इसके अर्थ के आंतरिक प्रतिनिधित्व में और संश्लेषण के मामले में इसके विपरीत अनुवाद करता है। संबंधित भाषा मॉडल को कहा जा सकता है संरचनात्मक.

यद्यपि पूर्ण सीएल मॉडल को भाषा के सभी मुख्य स्तरों और उपयुक्त मॉड्यूल की उपलब्धता को ध्यान में रखने की आवश्यकता होती है, कुछ लागू समस्याओं को हल करते समय, एलपी में व्यक्तिगत स्तरों के प्रतिनिधित्व के बिना करना संभव है। उदाहरण के लिए, प्रारंभिक प्रायोगिक सीएल कार्यक्रमों में, संसाधित पाठ बहुत ही संकीर्ण समस्या क्षेत्रों (शब्दों के एक सीमित सेट और एक सख्त शब्द क्रम के साथ) से संबंधित थे, ताकि शब्द पहचान उनके प्रारंभिक अक्षरों का उपयोग कर सके, रूपात्मक और वाक्यात्मक विश्लेषण के चरणों को छोड़ कर।

एक कम किए गए मॉडल का एक और उदाहरण, जो अब अक्सर उपयोग किया जाता है, एक विशिष्ट एनएल के ग्रंथों में प्रतीकों और उनके संयोजनों (बिग्राम, ट्रिग्राम, आदि) की आवृत्ति का भाषा मॉडल है। ऐसा सांख्यिकीय मॉडलपाठ के वर्णों (अक्षरों) के स्तर पर भाषाई जानकारी प्रदर्शित करता है, और यह पर्याप्त है, उदाहरण के लिए, पाठ में टाइपो का पता लगाने के लिए या इसकी भाषाई संबद्धता को पहचानने के लिए। व्यक्तिगत शब्दों के आँकड़ों और ग्रंथों में उनकी संयुक्त घटना (बिग्राम, शब्दों के ट्रिग्राम) के आधार पर एक समान मॉडल का उपयोग किया जाता है, उदाहरण के लिए, शाब्दिक अस्पष्टता को हल करने या किसी शब्द के भाषण के हिस्से को निर्धारित करने के लिए (अंग्रेजी जैसी भाषाओं में) .

ध्यान दें कि यह संभव है संरचनात्मक-सांख्यिकीय मॉडल, जिसमें एनएल के व्यक्तिगत स्तरों को प्रस्तुत करते समय कुछ आंकड़ों को ध्यान में रखा जाता है - शब्द, वाक्य रचना, आदि।

मॉड्यूलर प्रकार एलपी में, पाठ विश्लेषण या संश्लेषण के प्रत्येक चरण में, एक उपयुक्त मॉडल (आकृति विज्ञान, वाक्यविन्यास, आदि) का उपयोग किया जाता है।

सीएल में मौजूद शब्द रूपों के विश्लेषण के रूपात्मक मॉडल मुख्य रूप से निम्नलिखित मापदंडों में भिन्न होते हैं:

कार्य का परिणाम किसी दिए गए शब्द रूप की रूपात्मक विशेषताओं (लिंग, संख्या, मामला, प्रकार, व्यक्ति, आदि) के एक सेट के साथ एक लेम्मा या तना है;

विश्लेषण की विधि - भाषा के शब्द रूपों के शब्दकोश या मूल के शब्दकोश, या गैर-शब्दकोश पद्धति पर आधारित;

शब्दकोश में शामिल नहीं किए गए एक शब्द के शब्द रूप को संसाधित करने की संभावना।

रूपात्मक संश्लेषण में, प्रारंभिक डेटा दिए गए लेक्सेम के अनुरोधित शब्द रूप की लेक्सेम और विशिष्ट रूपात्मक विशेषताएं हैं; दिए गए लेक्सेम के सभी रूपों के संश्लेषण का अनुरोध करना भी संभव है। रूपात्मक विश्लेषण और संश्लेषण दोनों का परिणाम आम तौर पर अस्पष्ट होता है।

सीएल के ढांचे के भीतर सिंटैक्स को मॉडल करने के लिए, बड़ी संख्या में विभिन्न विचारों और विधियों का प्रस्ताव दिया गया है जो भाषा के सिंटैक्स का वर्णन करने के तरीके में भिन्न हैं, जिस तरह से इस जानकारी का उपयोग एसएल वाक्य के विश्लेषण या संश्लेषण में किया जाता है, और जिस तरह से वाक्य की वाक्य रचना प्रस्तुत की जाती है। मॉडल बनाने के लिए तीन मुख्य दृष्टिकोणों को अलग करना सशर्त रूप से संभव है: एक जनरेटिव दृष्टिकोण जो चॉम्स्की के विचारों पर वापस जाता है, एक दृष्टिकोण जो आई। मेलचुक के विचारों पर वापस जाता है और अर्थ टेक्स्ट मॉडल द्वारा भी दर्शाया जाता है, साथ ही एक दृष्टिकोण के रूप में जिसमें पहले दो दृष्टिकोणों की सीमाओं को दूर करने के लिए कुछ प्रयास किए जाते हैं, विशेष रूप से, वाक्यात्मक समूहों का सिद्धांत।

जनरेटिव दृष्टिकोण के ढांचे के भीतर, वाक्यात्मक विश्लेषण आमतौर पर औपचारिक संदर्भ-मुक्त व्याकरण के आधार पर किया जाता है जो वाक्य की वाक्यांश संरचना का वर्णन करता है, या संदर्भ-मुक्त व्याकरण के कुछ विस्तार के आधार पर। ये व्याकरण वाक्य के अनुक्रमिक रैखिक विभाजन से वाक्यांशों (वाक्य रचनात्मक निर्माण, उदाहरण के लिए, संज्ञा वाक्यांश) में आगे बढ़ते हैं और इसलिए इसकी वाक्य रचनात्मक और रैखिक संरचनाओं दोनों को एक साथ प्रतिबिंबित करते हैं। विश्लेषण के परिणामस्वरूप प्राप्त एनएल वाक्य की पदानुक्रमित वाक्य रचना का वर्णन किया गया है घटक वृक्ष, जिनकी पत्तियों में वाक्य के शब्द होते हैं, उपप्रकार वाक्य में शामिल वाक्य-विन्यास (वाक्यांश) के अनुरूप होते हैं, और चाप निर्माणों के घोंसले के शिकार संबंधों को व्यक्त करते हैं।

विचाराधीन दृष्टिकोण में नेटवर्क व्याकरण शामिल हो सकते हैं, जो एक भाषा प्रणाली का वर्णन करने के लिए एक उपकरण हैं और एक परिमित ऑटोमेटन की अवधारणा के आधार पर वाक्यों के विश्लेषण के लिए एक प्रक्रिया निर्धारित करने के लिए, उदाहरण के लिए, एक विस्तारित संक्रमण नेटवर्क एटीएन।

दूसरे दृष्टिकोण के भाग के रूप में, एक वाक्य की वाक्यात्मक संरचना का प्रतिनिधित्व करने के लिए एक अधिक दृश्य और सामान्य तरीके का उपयोग किया जाता है - निर्भरता पेड़. पेड़ के नोड्स में वाक्य के शब्द होते हैं (आमतौर पर जड़ में एक क्रिया-विधेय), और पेड़ के प्रत्येक चाप जो नोड्स की एक जोड़ी को जोड़ता है, को वाक्य-विन्यास के रूप में व्याख्या किया जाता है। अधीनस्थ संबंधउनके बीच, और कनेक्शन की दिशा इस चाप की दिशा से मेल खाती है। चूंकि, इस मामले में, वाक्य में शब्दों के वाक्य-विन्यास और शब्दों के क्रम को अलग किया जाता है, तो, अधीनस्थ पेड़ों के आधार पर, टूटा हुआ और गैर प्रक्षेपीयनिर्माण जो अक्सर मुक्त शब्द क्रम वाली भाषाओं में होते हैं।

कठोर शब्द क्रम में भाषाओं का वर्णन करने के लिए घटक पेड़ अधिक उपयुक्त हैं; टूटे और गैर-प्रोजेक्टिव निर्माणों के उनके प्रतिनिधित्व के लिए उपयोग की जाने वाली व्याकरणिक औपचारिकता के विस्तार की आवश्यकता होती है। लेकिन इस दृष्टिकोण के ढांचे के भीतर, गैर-अधीनस्थ संबंधों वाले निर्माण अधिक स्वाभाविक रूप से वर्णित हैं। साथ ही, दोनों दृष्टिकोणों के लिए एक सामान्य कठिनाई वाक्य के सजातीय सदस्यों की प्रस्तुति है।

सभी दृष्टिकोणों में वाक्यात्मक मॉडल भाषण में भाषा इकाइयों के कनेक्शन पर लगाए गए प्रतिबंधों को ध्यान में रखने की कोशिश करते हैं, जबकि किसी न किसी तरह से वैलेंस की अवधारणा का उपयोग किया जाता है। वैलेंस- यह एक शब्द या भाषा की अन्य इकाई की क्षमता है जो अन्य इकाइयों को एक निश्चित वाक्यात्मक तरीके से जोड़ता है; अभिनयएक शब्द या वाक्य रचना है जो इस संयोजकता को भरती है। उदाहरण के लिए, रूसी क्रिया सौंप दोइसकी तीन मुख्य संयोजकताएँ हैं, जिन्हें निम्नलिखित प्रश्नवाचक शब्दों द्वारा व्यक्त किया जा सकता है: कौन? किसके लिए? क्या?जनरेटिव दृष्टिकोण के ढांचे के भीतर, शब्दों की संयोजकता (सबसे पहले, क्रिया) को मुख्य रूप से विशेष फ्रेम के रूप में वर्णित किया जाता है ( उपवर्गीकरण फ्रेम्स) , और निर्भरता वृक्ष दृष्टिकोण के ढांचे में, जैसा प्रबंधन मॉडल.

भाषा के शब्दार्थ के मॉडल सीएल के ढांचे के भीतर सबसे कम विकसित हैं। वाक्यों के शब्दार्थ विश्लेषण के लिए, तथाकथित केस व्याकरण और शब्दार्थ मामले(वैधता), जिसके आधार पर वाक्य के शब्दार्थ को मुख्य शब्द (क्रिया) के संबंध के माध्यम से उसके शब्दार्थ कृत्यों के माध्यम से वर्णित किया जाता है, अर्थात शब्दार्थ मामलों के माध्यम से। उदाहरण के लिए, क्रिया सौंप दोसिमेंटिक मामलों द्वारा वर्णित दे रही है(प्रतिनिधि), पत्र पानेवालाऔर स्थानांतरण वस्तु.

संपूर्ण पाठ के शब्दार्थ का प्रतिनिधित्व करने के लिए, दो तार्किक रूप से समकक्ष औपचारिकताओं का आमतौर पर उपयोग किया जाता है (दोनों को एआई के ढांचे में विस्तार से वर्णित किया गया है):

गुण, अवस्थाओं, प्रक्रियाओं, क्रियाओं और संबंधों को व्यक्त करने वाले कैलकुलस फ़ार्मुलों की भविष्यवाणी करें;

सिमेंटिक नेटवर्क लेबल वाले ग्राफ़ होते हैं जिनमें कोने अवधारणाओं के अनुरूप होते हैं, और कोने उनके बीच संबंधों के अनुरूप होते हैं।

जहाँ तक व्यावहारिकता और प्रवचन के मॉडल का सवाल है, जो न केवल व्यक्तिगत वाक्यों को संसाधित करने की अनुमति देता है, बल्कि समग्र रूप से पाठ भी, वैन डाइक के विचारों का उपयोग मुख्य रूप से उनके निर्माण के लिए किया जाता है। दुर्लभ और सफल मॉडलों में से एक जुड़े हुए ग्रंथों के विवेचनात्मक संश्लेषण का मॉडल है। इस तरह के मॉडल को एनाफोरिक संदर्भों और अन्य प्रवचन-स्तर की घटनाओं को ध्यान में रखना चाहिए।

सीएल के ढांचे के भीतर भाषा मॉडल के लक्षण वर्णन को समाप्त करते हुए, आइए हम भाषाई मॉडल "अर्थ टेक्स्ट" के सिद्धांत पर थोड़ा और ध्यान दें, और जिसके भीतर कई उपयोगी विचार सामने आए जो अपने समय से आगे थे और अभी भी प्रासंगिक हैं।

इस सिद्धांत के अनुसार, एनएल को एक विशेष प्रकार के कनवर्टर के रूप में माना जाता है जो दिए गए अर्थों के प्रसंस्करण को संबंधित ग्रंथों और दिए गए ग्रंथों को उनके संबंधित अर्थों में संसाधित करता है। अर्थ को पाठ के सभी पर्यायवाची परिवर्तनों के अपरिवर्तनीय के रूप में समझा जाता है। वाक्यांशों और शब्द रूपों में विभाजन के बिना भाषण के जुड़े हुए टुकड़े की सामग्री को दो घटकों से मिलकर एक विशेष अर्थपूर्ण प्रतिनिधित्व के रूप में प्रदर्शित किया जाता है: सिमेंटिक ग्राफऔर के बारे में जानकारी अर्थ का संचार संगठन.

सिद्धांत की विशिष्ट विशेषताओं को इंगित किया जाना चाहिए:

o ग्रंथों के संश्लेषण की ओर उन्मुखीकरण (सही ग्रंथों को उत्पन्न करने की क्षमता को भाषा की क्षमता के लिए मुख्य मानदंड माना जाता है);

o मॉडल की बहु-स्तरीय, मॉड्यूलर प्रकृति और भाषा के मुख्य स्तरों को सतह और गहरे स्तरों में विभाजित किया गया है: वे भिन्न हैं, उदाहरण के लिए, गहरा(शब्दार्थ) और सतह("शुद्ध") वाक्यविन्यास, साथ ही सतह-रूपात्मक और गहरे-रूपात्मक स्तर;

o भाषा मॉडल की अभिन्न प्रकृति; इस स्तर से अगले स्तर पर संक्रमण करने वाले संबंधित मॉड्यूल द्वारा प्रत्येक स्तर पर प्रस्तुत जानकारी को सहेजना;

o प्रत्येक स्तर पर वाक्य रचना (इकाइयों को जोड़ने के नियम) का वर्णन करने के विशेष साधन; शाब्दिक संगतता का वर्णन करने के लिए, एक सेट प्रस्तावित किया गया था शाब्दिक कार्य, जिसकी सहायता से वाक्य-विन्यास के नियम तैयार किए जाते हैं;

o व्याकरण के बजाय शब्दावली पर जोर देना; शब्दकोश भाषा के विभिन्न स्तरों से संबंधित जानकारी संग्रहीत करता है; विशेष रूप से, वाक्यात्मक विश्लेषण के लिए, शब्द प्रबंधन मॉडल का उपयोग किया जाता है जो उनकी वाक्य-विन्यास और अर्थ संबंधी मान्यताओं का वर्णन करते हैं।

इस सिद्धांत और भाषा मॉडल ने ETAP मशीन अनुवाद प्रणाली में अपना अवतार पाया है।

4. भाषाई संसाधन

भाषाई संसाधकों के विकास के लिए संसाधित NL के बारे में भाषाई जानकारी की उपयुक्त प्रस्तुति की आवश्यकता होती है। यह जानकारी विभिन्न कंप्यूटर शब्दकोशों और व्याकरणों में प्रदर्शित होती है।

शब्दकोशोंशाब्दिक जानकारी के प्रतिनिधित्व का सबसे पारंपरिक रूप हैं; वे अपनी इकाइयों (आमतौर पर शब्द या वाक्यांश), संरचना, शब्दावली के दायरे (एक विशिष्ट समस्या क्षेत्र के शब्दों के शब्दकोश, सामान्य शब्दावली के शब्दकोश, आदि) में भिन्न होते हैं। शब्दकोश इकाई को कहा जाता है शब्दकोश प्रविष्टि, यह टोकन के बारे में जानकारी प्रदान करता है। लेक्सिकल समानार्थी शब्द आमतौर पर विभिन्न शब्दकोश प्रविष्टियों में प्रस्तुत किए जाते हैं।

रूपात्मक विश्लेषण के लिए उपयोग किए जाने वाले रूपात्मक शब्दकोश सीएल में सबसे आम हैं, उनकी शब्दकोश प्रविष्टि में संबंधित शब्द के बारे में रूपात्मक जानकारी होती है - भाषण का हिस्सा, विभक्ति वर्ग (विभक्तिपूर्ण भाषाओं के लिए), शब्द अर्थों की एक सूची, आदि। संगठन के आधार पर शब्दकोश में भाषाई संसाधक व्याकरण संबंधी जानकारी को भी जोड़ा जा सकता है, जैसे शब्द नियंत्रण पैटर्न।

ऐसे शब्दकोश हैं जो शब्दों के बारे में अधिक जानकारी प्रदान करते हैं। उदाहरण के लिए, भाषाई मॉडल "अर्थ-पाठ" अनिवार्य रूप से निर्भर करता है व्याख्यात्मक-संयुक्त शब्दकोश, जिसकी शब्दकोश प्रविष्टि में, रूपात्मक, वाक्य-विन्यास और अर्थ संबंधी जानकारी (वाक्यविन्यास और अर्थ संबंधी वैलेंस) के अलावा, इस शब्द की शाब्दिक संगतता के बारे में जानकारी प्रस्तुत की गई है।

कई भाषाई प्रोसेसर उपयोग करते हैं समानार्थी शब्दकोश. एक अपेक्षाकृत नए प्रकार के शब्दकोश - समानार्थी शब्दकोश, यानी बाह्य रूप से समान शब्द जो अर्थ में भिन्न हैं, उदाहरण के लिए, अजनबीऔर विदेशी, संपादनऔर संदर्भ .

एक अन्य प्रकार के शाब्दिक संसाधन - वाक्यांश आधार, जिसमें किसी विशेष भाषा के सबसे विशिष्ट वाक्यांशों का चयन किया जाता है। रूसी भाषा में वाक्यांशों का ऐसा आधार (लगभग एक लाख इकाइयाँ) क्रॉसलेक्सिक प्रणाली का मूल है।

अधिक जटिल प्रकार के शाब्दिक संसाधन हैं थिसॉरी और ऑन्कोलॉजी. थिसॉरस एक सिमेंटिक डिक्शनरी है, यानी एक ऐसा डिक्शनरी जिसमें शब्दों के सिमेंटिक कनेक्शन प्रस्तुत किए जाते हैं - पर्यायवाची, लिंग-प्रजाति संबंध (कभी-कभी ऊपर-नीचे संबंध कहा जाता है), पार्ट-होल, एसोसिएशन। थिसॉरी का प्रसार सूचना पुनर्प्राप्ति समस्याओं के समाधान से जुड़ा है।

ऑन्कोलॉजी की अवधारणा थिसॉरस की अवधारणा से निकटता से संबंधित है। ओन्टोलॉजी अवधारणाओं का एक समूह है, ज्ञान के एक निश्चित क्षेत्र की संस्थाएं, विभिन्न कार्यों के लिए कई उपयोगों पर केंद्रित हैं। भाषा में मौजूद शब्दावली के आधार पर ऑन्कोलॉजी बनाई जा सकती है - इस मामले में उन्हें कहा जाता है भाषाईऔर।

इस तरह की भाषाई ऑन्कोलॉजी को वर्डनेट सिस्टम माना जाता है - एक बड़ा शाब्दिक संसाधन जिसमें अंग्रेजी भाषा के शब्द एकत्र किए जाते हैं: संज्ञा, विशेषण, क्रिया और क्रियाविशेषण, और कई प्रकार के उनके शब्दार्थ संबंध प्रस्तुत किए जाते हैं। भाषण के संकेतित भागों में से प्रत्येक के लिए, शब्दों को समानार्थक शब्दों के समूहों में बांटा गया है ( सिनसेट्स), जिसके बीच एंटोनिमी, हाइपोनीमी (जीनस-प्रजाति संबंध), मेरोनिमी (अंश-संपूर्ण संबंध) के संबंध स्थापित होते हैं। संसाधन में लगभग 25 हजार शब्द हैं, जीनस-प्रजाति संबंध के लिए पदानुक्रम स्तरों की संख्या औसतन 6-7 है, कभी-कभी 15 तक पहुंचती है। पदानुक्रम का ऊपरी स्तर एक सामान्य ऑन्कोलॉजी बनाता है - दुनिया के बारे में बुनियादी अवधारणाओं की एक प्रणाली।

अंग्रेजी वर्डनेट योजना के अनुसार, अन्य यूरोपीय भाषाओं के लिए समान शाब्दिक संसाधनों का निर्माण किया गया था, जो सामान्य नाम यूरोवर्डनेट के तहत एकजुट थे।

एक पूरी तरह से अलग तरह का भाषाई संसाधन है व्याकरण, जिसका प्रकार प्रोसेसर में प्रयुक्त सिंटैक्स मॉडल पर निर्भर करता है। पहले सन्निकटन में, व्याकरण नियमों का एक समूह है जो शब्दों और शब्दों के समूहों के सामान्य वाक्य-विन्यास गुणों को व्यक्त करता है। व्याकरण के नियमों की कुल संख्या भी वाक्य रचना मॉडल पर निर्भर करती है, जो कई दसियों से लेकर कई सैकड़ों तक होती है। संक्षेप में, इस तरह की समस्या यहां भाषा मॉडल में व्याकरण और शब्दावली के बीच संबंध के रूप में प्रकट होती है: शब्दकोश में जितनी अधिक जानकारी प्रस्तुत की जाती है, व्याकरण उतना ही छोटा हो सकता है और इसके विपरीत।

यह ध्यान दिया जाना चाहिए कि कंप्यूटर शब्दकोश, थिसॉरी और व्याकरण का निर्माण एक बड़ा और समय लेने वाला काम है, कभी-कभी भाषाई मॉडल और संबंधित प्रोसेसर के विकास से भी अधिक समय लगता है। इसलिए, सीएल के अधीनस्थ कार्यों में से एक भाषाई संसाधनों के निर्माण का स्वचालन है।

कंप्यूटर शब्दकोश अक्सर साधारण पाठ शब्दकोशों को परिवर्तित करके बनाए जाते हैं, लेकिन अक्सर उन्हें बनाने के लिए बहुत अधिक जटिल और श्रमसाध्य कार्य की आवश्यकता होती है। यह आमतौर पर तब होता है जब तेजी से विकसित हो रहे वैज्ञानिक क्षेत्रों - आणविक जीव विज्ञान, कंप्यूटर विज्ञान, आदि के लिए शब्दकोश और थिसॉरी का निर्माण किया जाता है। आवश्यक भाषाई जानकारी निकालने के लिए स्रोत सामग्री हो सकती है संग्रह और ग्रंथों का संग्रह.

ग्रंथों का एक संग्रह प्रतिनिधित्व के एक निश्चित सिद्धांत (शैली, लेखकत्व, आदि) के अनुसार एकत्र किए गए ग्रंथों का एक संग्रह है, जिसमें सभी ग्रंथों को चिह्नित किया जाता है, अर्थात, उन्हें कुछ भाषाई मार्कअप (एनोटेशन) प्रदान किया जाता है - रूपात्मक , उच्चारण, वाक्य-विन्यास, आदि। वर्तमान में, कम से कम सौ अलग-अलग निगम हैं - विभिन्न एनएल के लिए और विभिन्न चिह्नों के साथ, रूस में सबसे प्रसिद्ध रूसी भाषा का राष्ट्रीय कोष है।

लेबल किए गए कॉर्पोरा भाषाविदों द्वारा बनाए जाते हैं और भाषाई अनुसंधान के लिए और मशीन सीखने के प्रसिद्ध गणितीय तरीकों का उपयोग करके सीएल में उपयोग किए जाने वाले ट्यूनिंग (प्रशिक्षण) मॉडल और प्रोसेसर दोनों के लिए उपयोग किए जाते हैं। इसलिए, मशीन लर्निंग का उपयोग शाब्दिक अस्पष्टता को हल करने, भाषण के कुछ हिस्सों को पहचानने और एनाफोरिक संदर्भों को हल करने के तरीकों को स्थापित करने के लिए किया जाता है।

चूँकि कॉर्पोरा और ग्रंथों का संग्रह हमेशा उनमें प्रतिनिधित्व की जाने वाली भाषाई घटनाओं के संदर्भ में सीमित होता है (और कॉर्पोरा, इसके अलावा, लंबे समय तक बनाए जाते हैं), हाल ही में इंटरनेट ग्रंथों को अधिक संपूर्ण भाषाई संसाधन के रूप में माना जाता है। निस्संदेह, इंटरनेट आधुनिक भाषण नमूनों का सबसे प्रतिनिधि स्रोत है, लेकिन एक कोष के रूप में इसके उपयोग के लिए विशेष प्रौद्योगिकियों के विकास की आवश्यकता होती है।

5. कम्प्यूटेशनल भाषाविज्ञान अनुप्रयोग

कम्प्यूटेशनल भाषाविज्ञान के अनुप्रयोगों के क्षेत्र में लगातार विस्तार हो रहा है, इसलिए हम यहां इसके उपकरणों द्वारा हल की जाने वाली सबसे प्रसिद्ध अनुप्रयुक्त समस्याओं का वर्णन करेंगे।

मशीन अनुवाद- सीएल का सबसे पहला अनुप्रयोग, जिसके साथ यह क्षेत्र स्वयं उत्पन्न और विकसित हुआ। पहला अनुवाद कार्यक्रम 50 साल पहले बनाया गया था और यह सबसे सरल शब्द-दर-शब्द अनुवाद रणनीति पर आधारित था। हालांकि, यह जल्दी से महसूस किया गया कि मशीनी अनुवाद के लिए एक पूर्ण भाषाई मॉडल की आवश्यकता होती है जो भाषा के सभी स्तरों को ध्यान में रखता है, शब्दार्थ और व्यावहारिकता तक, जो बार-बार इस दिशा के विकास में बाधा डालता है। घरेलू प्रणाली ETAP में एक काफी पूर्ण मॉडल का उपयोग किया जाता है, जो वैज्ञानिक ग्रंथों का फ्रेंच से रूसी में अनुवाद करता है।

ध्यान दें, हालांकि, संबंधित भाषा में अनुवाद के मामले में, उदाहरण के लिए, स्पेनिश से पुर्तगाली या रूसी से यूक्रेनी में अनुवाद करते समय (जिसमें वाक्य रचना और आकारिकी में बहुत कुछ है), प्रोसेसर को सरलीकृत के आधार पर लागू किया जा सकता है मॉडल, उदाहरण के लिए, शब्द-दर-शब्द अनुवाद की सभी समान रणनीति पर आधारित।

वर्तमान में, बड़ी अंतरराष्ट्रीय शोध परियोजनाओं से लेकर व्यावसायिक स्वचालित अनुवादकों तक, कंप्यूटर अनुवाद प्रणालियों (अलग-अलग गुणवत्ता की) की एक पूरी श्रृंखला है। एक मध्यवर्ती भाषा का उपयोग करते हुए बहुभाषी अनुवाद की परियोजनाएं महत्वपूर्ण रुचि की हैं जिसमें अनुवादित वाक्यांशों का अर्थ एन्कोड किया गया है। एक और आधुनिक दिशा सांख्यिकीय अनुवाद है, जो शब्दों और वाक्यांशों के अनुवाद के आंकड़ों पर आधारित है (ये विचार, उदाहरण के लिए, Google खोज इंजन अनुवादक में लागू किए गए हैं)।

लेकिन इस पूरे क्षेत्र के कई दशकों के विकास के बावजूद, सामान्य तौर पर, मशीनी अनुवाद का कार्य अभी भी पूरी तरह से हल होने से बहुत दूर है।

कम्प्यूटेशनल भाषाविज्ञान का एक और काफी पुराना अनुप्रयोग है सूचना की पुनर्प्राप्तिऔर दस्तावेजों को अनुक्रमित करने, सारांशित करने, वर्गीकृत करने और वर्गीकृत करने के संबंधित कार्य।

दस्तावेज़ों के बड़े डेटाबेस (मुख्य रूप से वैज्ञानिक, तकनीकी, व्यावसायिक) में दस्तावेज़ों की पूर्ण-पाठ खोज आमतौर पर उनके आधार पर की जाती है छवियों को खोजें, जिसे एक सेट के रूप में समझा जाता है कीवर्ड- ऐसे शब्द जो दस्तावेज़ के मुख्य विषय को दर्शाते हैं। सबसे पहले, केवल SL के अलग-अलग शब्दों को कीवर्ड के रूप में माना जाता था, और खोज उनके विभक्ति को ध्यान में रखे बिना की जाती थी, जो कि अंग्रेजी जैसी कमजोर विभक्ति भाषाओं के लिए गैर-महत्वपूर्ण है। विभक्ति भाषाओं के लिए, उदाहरण के लिए, रूसी के लिए, एक रूपात्मक मॉडल का उपयोग करना आवश्यक था जो विभक्ति को ध्यान में रखता है।

खोज अनुरोध को शब्दों के एक सेट के रूप में भी प्रस्तुत किया गया था, उपयुक्त (प्रासंगिक) दस्तावेजों को अनुरोध की समानता और दस्तावेज़ की खोज छवि के आधार पर निर्धारित किया गया था। किसी दस्तावेज़ की खोज छवि बनाने में शामिल है अनुक्रमणइसका टेक्स्ट, यानी इसमें प्रमुख शब्दों को हाइलाइट करना। चूंकि बहुत बार दस्तावेज़ के विषय और सामग्री को अलग-अलग शब्दों द्वारा नहीं, बल्कि वाक्यांशों द्वारा अधिक सटीक रूप से प्रदर्शित किया जाता है, वाक्यांशों को कीवर्ड के रूप में माना जाने लगा। इसने दस्तावेजों को अनुक्रमित करने की प्रक्रिया को काफी जटिल बना दिया, क्योंकि पाठ में सार्थक वाक्यांशों का चयन करने के लिए सांख्यिकीय और भाषाई मानदंडों के विभिन्न संयोजनों का उपयोग करना आवश्यक था।

वास्तव में, सूचना पुनर्प्राप्ति मुख्य रूप से उपयोग करती है पाठ वेक्टर पैटर्न(कई बार बुलाना थैला का शब्दों- शब्दों का एक बैग), जिसमें दस्तावेज़ को उसके कीवर्ड के वेक्टर (सेट) द्वारा दर्शाया जाता है। आधुनिक इंटरनेट खोज इंजन भी इस मॉडल का उपयोग करते हैं, उनमें प्रयुक्त शब्दों द्वारा ग्रंथों को अनुक्रमित करते हैं (साथ ही, वे प्रासंगिक दस्तावेजों को वापस करने के लिए बहुत परिष्कृत रैंकिंग प्रक्रियाओं का उपयोग करते हैं)।

निर्दिष्ट पाठ मॉडल (कुछ जटिलताओं के साथ) का उपयोग नीचे दी गई सूचना पुनर्प्राप्ति की संबंधित समस्याओं में भी किया जाता है।

सार पाठ- इसकी मात्रा को कम करना और इसका सारांश प्राप्त करना - सार (अनुबंधित सामग्री), जो दस्तावेजों के संग्रह में खोज को तेज करता है। विषय से संबंधित कई दस्तावेजों के लिए एक सामान्य सार भी तैयार किया जा सकता है।

स्वचालित संक्षेपण की मुख्य विधि अभी भी सारगर्भित पाठ के सबसे महत्वपूर्ण वाक्यों का चयन है, जिसके लिए पाठ के खोजशब्दों की गणना आमतौर पर पहले की जाती है और पाठ के वाक्यों के महत्व के गुणांक की गणना की जाती है। वाक्यों के एनाफोरिक लिंक से सार्थक वाक्यों का चुनाव जटिल है, जिसका विराम अवांछनीय है - इस समस्या को हल करने के लिए, वाक्यों के चयन के लिए कुछ रणनीतियाँ विकसित की जा रही हैं।

संदर्भ के करीब एक कार्य - टिप्पणीदस्तावेज़ का पाठ, यानी, इसके एनोटेशन को संकलित करना। अपने सरलतम रूप में, सार पाठ के मुख्य विषयों की एक सूची है, जिसके लिए अनुक्रमण प्रक्रियाओं का उपयोग हाइलाइट करने के लिए किया जा सकता है।

दस्तावेज़ों का बड़ा संग्रह बनाते समय, कार्य प्रासंगिक होते हैं वर्गीकरणऔर क्लस्टरिंगविषय से संबंधित दस्तावेजों की कक्षाएं बनाने के लिए ग्रंथ। वर्गीकरण का अर्थ है प्रत्येक दस्तावेज़ को एक निश्चित वर्ग को पहले से ज्ञात मापदंडों के साथ सौंपना, और क्लस्टरिंग का अर्थ है दस्तावेजों के एक सेट को समूहों में विभाजित करना, अर्थात, विषयगत रूप से संबंधित दस्तावेजों के सबसेट। इन समस्याओं को हल करने के लिए, मशीन लर्निंग विधियों का उपयोग किया जाता है, और इसलिए इन लागू कार्यों को टेक्स्ट माइनिंग कहा जाता है और वैज्ञानिक दिशा से संबंधित होते हैं जिन्हें डेटा माइनिंग या डेटा माइनिंग के रूप में जाना जाता है।

वर्गीकरण समस्या के बहुत करीब रूब्रिकेटिंगपाठ - पहले से ज्ञात विषयगत शीर्षकों में से एक के लिए इसका असाइनमेंट (आमतौर पर शीर्षक विषयों का एक पदानुक्रमित पेड़ बनाते हैं)।

वर्गीकरण की समस्या अधिक व्यापक होती जा रही है, इसे हल किया जाता है, उदाहरण के लिए, स्पैम को पहचानते समय, और अपेक्षाकृत नया एप्लिकेशन मोबाइल उपकरणों में एसएमएस संदेशों का वर्गीकरण है। सूचना पुनर्प्राप्ति के सामान्य कार्य के लिए अनुसंधान का एक नया और प्रासंगिक क्षेत्र बहुभाषी दस्तावेज़ खोज है।

सूचना पुनर्प्राप्ति से संबंधित एक और अपेक्षाकृत नया कार्य है सवालों के जवाब का गठन(प्रश्न उत्तर)। इस कार्य को प्रश्न के प्रकार का निर्धारण करके, उन ग्रंथों की खोज करके हल किया जाता है जिनमें संभावित रूप से इस प्रश्न का उत्तर होता है, और इन ग्रंथों से उत्तर निकालता है।

एक पूरी तरह से अलग लागू दिशा, जो विकसित हो रही है, भले ही धीरे-धीरे, लेकिन लगातार, है तैयारी और संपादन का स्वचालनईवाई पर पाठ। इस दिशा में पहले अनुप्रयोगों में से एक शब्द हाइफ़नेशन का स्वचालित रूप से पता लगाने के लिए कार्यक्रम और वर्तनी पाठ जांच (वर्तनी, या ऑटो-सुधारकर्ता) के लिए कार्यक्रम थे। हाइफ़नेशन समस्या की स्पष्ट सादगी के बावजूद, कई एनएल (उदाहरण के लिए, अंग्रेजी) के लिए इसके सही समाधान के लिए संबंधित भाषा के शब्दों की रूपात्मक संरचना के ज्ञान की आवश्यकता होती है, और इसलिए संबंधित शब्दकोश।

वर्तनी जाँच लंबे समय से वाणिज्यिक प्रणालियों में लागू की गई है और यह एक उपयुक्त शब्दावली और आकारिकी मॉडल पर निर्भर करती है। एक अपूर्ण सिंटैक्स मॉडल का भी उपयोग किया जाता है, जिसके आधार पर अक्सर सभी वाक्यात्मक त्रुटियां (उदाहरण के लिए, शब्द समझौता त्रुटियां) सामने आती हैं। उसी समय, अधिक जटिल त्रुटियों का पता लगाना, उदाहरण के लिए, पूर्वसर्गों का दुरुपयोग, अभी तक ऑटो-करेक्टर्स में लागू नहीं किया गया है। कई शाब्दिक त्रुटियों का भी पता नहीं चलता है, विशेष रूप से, टाइपो या समान शब्दों के दुरुपयोग के परिणामस्वरूप त्रुटियां (उदाहरण के लिए, वजनवजनदार के बजाय)। सीएल के आधुनिक अध्ययनों में, ऐसी त्रुटियों के स्वचालित पता लगाने और सुधार के साथ-साथ कुछ अन्य प्रकार की शैलीगत त्रुटियों के लिए तरीके प्रस्तावित हैं। ये विधियां शब्दों और वाक्यांशों की घटना पर आंकड़ों का उपयोग करती हैं।

ग्रंथों की तैयारी का समर्थन करने के करीब एक लागू कार्य है प्राकृतिक भाषा शिक्षण, इस दिशा के ढांचे के भीतर, भाषाओं को पढ़ाने के लिए कंप्यूटर सिस्टम - अंग्रेजी, रूसी, आदि अक्सर विकसित होते हैं (इसी तरह के सिस्टम इंटरनेट पर पाए जा सकते हैं)। आमतौर पर, ये सिस्टम भाषा के कुछ पहलुओं (आकृति विज्ञान, शब्दावली, वाक्य रचना) के अध्ययन का समर्थन करते हैं और उपयुक्त मॉडल पर आधारित होते हैं, उदाहरण के लिए, एक आकृति विज्ञान मॉडल।

शब्दावली के अध्ययन के लिए, इसके लिए पाठ शब्दकोशों के इलेक्ट्रॉनिक एनालॉग्स का भी उपयोग किया जाता है (जिसमें, वास्तव में, कोई भाषा मॉडल नहीं हैं)। हालाँकि, बहु-कार्यात्मक कंप्यूटर शब्दकोश भी विकसित किए जा रहे हैं जिनमें कोई पाठ एनालॉग नहीं है और इसका उद्देश्य उपयोगकर्ताओं की एक विस्तृत श्रृंखला है - उदाहरण के लिए, रूसी वाक्यांश क्रॉसलेक्सिक का एक शब्दकोश। यह प्रणाली शब्दावली की एक विस्तृत श्रृंखला को कवर करती है - शब्द और उनके स्वीकार्य शब्द संयोजन, और शब्द प्रबंधन मॉडल, समानार्थक शब्द, विलोम और शब्दों के अन्य अर्थ संबंधी सहसंबंधों के बारे में भी जानकारी प्रदान करते हैं, जो न केवल रूसी का अध्ययन करने वालों के लिए, बल्कि उनके लिए भी स्पष्ट रूप से उपयोगी है। देशी वक्ता।

ध्यान देने योग्य अगला आवेदन क्षेत्र है स्वचालित पीढ़ीईवाई पर पाठ। सिद्धांत रूप में, इस कार्य को पहले से ही ऊपर विचार किए गए मशीनी अनुवाद कार्य का एक उप-कार्य माना जा सकता है, हालांकि, दिशा के ढांचे के भीतर, कई विशिष्ट कार्य हैं। ऐसा कार्य बहुभाषी पीढ़ी है, अर्थात विशेष दस्तावेजों की कई भाषाओं में स्वचालित निर्माण - पेटेंट सूत्र, तकनीकी उत्पादों या सॉफ्टवेयर सिस्टम के लिए ऑपरेटिंग निर्देश, एक औपचारिक भाषा में उनके विनिर्देश के आधार पर। इस समस्या को हल करने के लिए काफी विस्तृत भाषा मॉडल का उपयोग किया जाता है।

एक तेजी से प्रासंगिक लागू कार्य, जिसे अक्सर टेक्स्ट माइनिंग कहा जाता है, है जानकारी निकालनाग्रंथों से, या सूचना निष्कर्षण, जो आर्थिक और औद्योगिक विश्लेषण की समस्याओं को हल करते समय आवश्यक है। ऐसा करने के लिए, एनएल परीक्षण में कुछ वस्तुओं की पहचान की जाती है - नामित संस्थाएं (नाम, व्यक्तित्व, भौगोलिक नाम), उनके संबंध और उनसे जुड़ी घटनाएं। एक नियम के रूप में, यह पाठ के आंशिक विश्लेषण के आधार पर लागू किया जाता है, जिससे समाचार एजेंसियों से समाचार फ़ीड के प्रसंस्करण की अनुमति मिलती है। चूंकि कार्य न केवल सैद्धांतिक रूप से, बल्कि तकनीकी रूप से भी काफी जटिल है, इसलिए व्यावसायिक कंपनियों के ढांचे के भीतर ग्रंथों से जानकारी निकालने के लिए सार्थक प्रणालियों का निर्माण संभव है।

टेक्स्ट माइनिंग की दिशा में दो अन्य संबंधित कार्य भी शामिल हैं - राय का चयन (राय माइनिंग) और ग्रंथों की tonality का आकलन (भावना विश्लेषण), शोधकर्ताओं की बढ़ती संख्या का ध्यान आकर्षित करना। उत्पादों और अन्य वस्तुओं के बारे में उपयोगकर्ता की राय के लिए पहला कार्य खोज (ब्लॉग, फ़ोरम, ऑनलाइन स्टोर आदि में) करता है, और इन राय का विश्लेषण करता है। दूसरा कार्य जन संचार के ग्रंथों के सामग्री विश्लेषण के शास्त्रीय कार्य के करीब है, यह बयानों के सामान्य स्वर का मूल्यांकन करता है।

उल्लेख के लायक एक और आवेदन है - संवाद समर्थनकिसी भी सूचना सॉफ्टवेयर सिस्टम के ढांचे के भीतर एनएल पर उपयोगकर्ता के साथ। सबसे अधिक बार, इस समस्या को विशेष डेटाबेस के लिए हल किया गया था - इस मामले में, क्वेरी भाषा काफी सीमित है (व्याकरणिक और व्याकरणिक रूप से), जो सरलीकृत भाषा मॉडल का उपयोग करने की अनुमति देती है। एनएल में तैयार किए गए आधार के अनुरोधों का औपचारिक भाषा में अनुवाद किया जाता है, जिसके बाद आवश्यक जानकारी की खोज की जाती है और संबंधित प्रतिक्रिया वाक्यांश बनाया जाता है।

सीएल अनुप्रयोगों की हमारी सूची में अंतिम के रूप में (लेकिन महत्व में नहीं) हम इंगित करते हैं वाक् पहचान और संश्लेषण. इन कार्यों में अनिवार्य रूप से उत्पन्न होने वाली पहचान त्रुटियों को शब्दकोशों और आकृति विज्ञान के बारे में भाषाई ज्ञान के आधार पर स्वचालित विधियों द्वारा ठीक किया जाता है। इस क्षेत्र में मशीन लर्निंग को भी लागू किया जाएगा।

निष्कर्ष

कम्प्यूटेशनल भाषाविज्ञान एनएल में ग्रंथों के स्वचालित प्रसंस्करण के लिए विभिन्न अनुप्रयोगों में काफी ठोस परिणाम प्रदर्शित करता है। इसका आगे का विकास नए अनुप्रयोगों के उद्भव और विभिन्न भाषा मॉडल के स्वतंत्र विकास दोनों पर निर्भर करता है, जिसमें कई समस्याएं अभी तक हल नहीं हुई हैं। सबसे विकसित रूपात्मक विश्लेषण और संश्लेषण के मॉडल हैं। बड़ी संख्या में प्रस्तावित औपचारिकताओं और विधियों के बावजूद सिंटैक्स मॉडल अभी तक स्थिर और कुशल मॉड्यूल के स्तर पर नहीं लाए गए हैं। यहां तक ​​​​कि कम अध्ययन और औपचारिक रूप से शब्दार्थ और व्यावहारिकता के स्तर के मॉडल हैं, हालांकि कई अनुप्रयोगों में प्रवचन की स्वचालित प्रसंस्करण पहले से ही आवश्यक है। ध्यान दें कि कम्प्यूटेशनल भाषाविज्ञान के पहले से मौजूद उपकरण, मशीन लर्निंग और टेक्स्ट कॉर्पोरा का उपयोग, इन समस्याओं के समाधान को काफी आगे बढ़ा सकते हैं।

साहित्य

1. बेज़ा-येट्स, आर. और रिबेरो-नेटो, बी. आधुनिक सूचना पुनर्प्राप्ति, एडिसन वेस्ले, 1999।

2. बेटमैन, जे., जॉक एम. नेचुरल लैंग्वेज जेनरेशन। में: कम्प्यूटेशनल भाषाविज्ञान की ऑक्सफोर्ड हैंडबुक। मिटकोव आर। (सं।)। ऑक्सफोर्ड यूनिवर्सिटी प्रेस, 2003, पृष्ठ 304।

3. बीबर, डी।, कॉनराड एस।, और रेपेन डी। कॉर्पस भाषाविज्ञान। भाषा संरचना और उपयोग की जांच। कैम्ब्रिज यूनिवर्सिटी प्रेस, कैम्ब्रिज, 1998।

4. बोल्शकोव, आई। ए।, गेलबुख पुटेशनल भाषाविज्ञान। मॉडल, संसाधन, अनुप्रयोग। मेक्सिको, आईपीएन, 2004।

5. ब्राउन पी।, पिएत्रा एस।, मर्सर आर।, पिएत्रा वी। सांख्यिकीय मशीन अनुवाद का गणित। // कम्प्यूटेशनल भाषाविज्ञान, वॉल्यूम। 19(2): 263-3

6. कैरोल जे आर पार्सिंग। में: कम्प्यूटेशनल भाषाविज्ञान की ऑक्सफोर्ड हैंडबुक। मिटकोव आर। (सं।)। ऑक्सफोर्ड यूनिवर्सिटी प्रेस, 2003, पी. 233-248.

7. चॉम्स्की, एन। सिंथेटिक संरचनाएं। द हेग: माउटन, 1957।

8. ग्रिशमैन आर। सूचना निष्कर्षण। में: कम्प्यूटेशनल भाषाविज्ञान की ऑक्सफोर्ड हैंडबुक। मिटकोव आर। (सं।)। ऑक्सफोर्ड यूनिवर्सिटी प्रेस, 2003, पी. 545-559।

9. हरबागिउ, एस., मोल्दोवन डी. प्रश्न उत्तर। में: कम्प्यूटेशनल भाषाविज्ञान की ऑक्सफोर्ड हैंडबुक। मिटकोव आर। (सं।)। ऑक्सफोर्ड यूनिवर्सिटी प्रेस, 2003, पी. 560-582।

10. हर्स्ट, एम.ए. वर्डनेट रिलेशंस की स्वचालित खोज। इन: फेलबौम, सी. (सं.) वर्डनेट: एक इलेक्ट्रॉनिक लेक्सिकल डेटाबेस। एमआईटी प्रेस, कैम्ब्रिज, 1998, पृष्ठ.131-151।

11. हर्स्ट, जी। ओन्टोलॉजी और लेक्सिकन। इन.: हैंडबुक ऑन ओन्टोलॉजीज इन निफॉर्मेशन सिस्टम्स। बर्लिन, स्प्रिंगर, 2003।

12. जैक्वेमिन सी।, बौरीगॉल्ट डी। टर्म निष्कर्षण और स्वचालित अनुक्रमण // मिटकोव आर। (सं।): कम्प्यूटेशनल भाषाविज्ञान की हैंडबुक। ऑक्सफोर्ड यूनिवर्सिटी प्रेस, 2003. पी. 599-615।

13. किल्गारिफ, ए।, जी। ग्रेफेनस्टेट। वेब पर विशेष अंक का परिचयात्मक भाषाविज्ञान के रूप में परिचय, वी. 29, नं। 3, 2003, पी. 333-347।

14. मैनिंग, चौ. डी।, एच। शुट्ज़। सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण की नींव। एमआईटी प्रेस, 1999।

15. मात्सुमोतो वाई। लेक्सिकल नॉलेज एक्विजिशन। में: कम्प्यूटेशनल भाषाविज्ञान की ऑक्सफोर्ड हैंडबुक। मिटकोव आर। (सं।)। ऑक्सफोर्ड यूनिवर्सिटी प्रेस, 2003, पी. 395-413।

16. कम्प्यूटेशनल भाषाविज्ञान पर ऑक्सफोर्ड हैंडबुक। आर। मितकोव (एड।)। ऑक्सफोर्ड यूनिवर्सिटी प्रेस, 2005।

17. ओक्स, एम., पाइस सी.डी. टर्म एक्सट्रैक्शन फॉर ऑटोमैटिक एब्स्ट्रैक्टिंग। कम्प्यूटेशनल शब्दावली में हाल के अग्रिम। डी. बौरीगॉल्ट, सी. जैक्वेमिन और एम. एल "होमे (एड्स), जॉन बेंजामिन पब्लिशिंग कंपनी, एम्सटर्डम, 2001, पृष्ठ.353-370।

18. पेडर्सन, टी। बिग्राम का एक निर्णय वृक्ष शब्द इंद्रियों का सटीक भविष्यवक्ता है। प्रोक। एनएसी एसीएल की दूसरी वार्षिक बैठक, पिट्सबर्ग, पीए, 2001, पी। 79-86.

19. सैमुएलसन सी। सांख्यिकीय तरीके। में: कम्प्यूटेशनल भाषाविज्ञान की ऑक्सफोर्ड हैंडबुक। मिटकोव आर। (सं।)। ऑक्सफोर्ड यूनिवर्सिटी प्रेस, 2003, पी. 358-375।

20. सैल्टन, जी. स्वचालित पाठ प्रसंस्करण: कंप्यूटर द्वारा सूचना का परिवर्तन, विश्लेषण और पुनर्प्राप्ति। रीडिंग, एमए: एडिसन-वेस्ले, 1988।

21. सोमरस, एच। मशीन अनुवाद: नवीनतम विकास। में: कम्प्यूटेशनल भाषाविज्ञान की ऑक्सफोर्ड हैंडबुक। मिटकोव आर। (सं।)। ऑक्सफोर्ड यूनिवर्सिटी प्रेस, 2003, पी. 512-528।

22. स्ट्रज़लकोव्स्की, टी। (सं।) प्राकृतिक भाषा सूचना पुनर्प्राप्ति। क्लूवर, 19पी.

23. वुड्स डब्ल्यू.ए. ट्रांजिशन नेटवर्क ग्रामर फॉर नेचुरल लैंग्वेज एनालिसिस/एसीएम का संचार, वी. 13, 1970, नंबर 10, पी। 591-606।

24. वर्ड नेट: एक इलेक्ट्रॉनिक लेक्सिकल डेटाबेस। /क्रिश्चियन फेलबौम। कैम्ब्रिज, एमआईटी प्रेस, 1998।

25. वू जे।, यू-चिया चांग वाई।, टेरुको मितामुरा टी।, चांग जे। अकादमिक लेखन में स्वचालित कोलोकेशन सुझाव // एसीएल 2010 सम्मेलन की कार्यवाही लघु पत्र, 2010।

26. और अन्य। ETAP-2 प्रणाली का भाषाई समर्थन। मॉस्को: नौका, 1989।

27. आदि। डेटा विश्लेषण प्रौद्योगिकियां: डेटा माइनिंग, विज़ुअल माइनिंग, टेक्स्ट माइनिंग, OLAP - दूसरा संस्करण। - सेंट पीटर्सबर्ग: बीएचवी-पीटर्सबर्ग, 2008।

28. बोल्शकोव, शब्दावली - रूसी शब्दों के संयोजन और शब्दार्थ कनेक्शन का एक बड़ा इलेक्ट्रॉनिक शब्दकोश। // कॉम्प। भाषाविज्ञान और बुद्धि। प्रौद्योगिकियां: इंट की कार्यवाही। सम्मेलन "संवाद 2009"। अंक: आरजीजीयू, 2009, पीपी. 45-50।

29. बोलशकोवा ई। आई।, बोल्शकोव का पता लगाना और रूसी कुप्रथाओं का स्वचालित सुधार // एनटीआई। सेवा 2, नंबर 5, 2007, पीपी 27-40।

30. वांग, किंच वी। एक सुसंगत पाठ को समझने की रणनीति। // विदेशी भाषाविज्ञान में नया। मुद्दा। XXIII- एम।, प्रगति, 1988, पी। 153-211.

31. वासिलिव वी। जी।, क्रिवेंको एम। पी। स्वचालित पाठ प्रसंस्करण के तरीके। - एम .: आईपीआई रैन, 2008।

32. विनोग्राद टी। एक कार्यक्रम जो प्राकृतिक भाषा को समझता है - एम।, दुनिया, 1976।

33. स्वचालित संचार प्रणालियों में प्राकृतिक भाषा की चिकनी संरचना। - एम।, नौका, 1985।

34. गुसेव, वी.डी., सालोमैटिना शब्दकोष का शब्दकोश: संस्करण 2. // एनटीआई, सेर। 2, नंबर 7, 2001, पी। 26-33.

35. ज़खारोव - एक भाषा कोष के रूप में अंतरिक्ष // कम्प्यूटेशनल भाषाविज्ञान और बुद्धिमान प्रौद्योगिकियां: इंट की कार्यवाही। सम्मेलन संवाद '2005 / एड। , - एम।: नौका, 2005, पी। 166-171.

36. सामान्य भाषाविज्ञान के कासेविच। - एम।, नौका, 1977।

37. ग्रंथों की लियोन्टीफ समझ: सिस्टम, मॉडल, संसाधन: पाठ्यपुस्तक - एम .: अकादमी, 2006।

38. भाषाई विश्वकोश शब्दकोश / एड। वी. एन. यार्तसेवा, मॉस्को: सोवियत इनसाइक्लोपीडिया, 1990, 685 पी।

39., स्वचालित अनुक्रमण और वर्गीकरण के लिए साली: विकास, संरचना, रखरखाव। // एनटीआई, सेर। 2, नंबर 1, 1996।

40. लुगर जे। आर्टिफिशियल इंटेलिजेंस: जटिल समस्याओं को हल करने के लिए रणनीतियाँ और तरीके। एम।, 2005।

41. मैक्क्वीन के. प्राकृतिक भाषा में पाठ संश्लेषण के लिए विवेचनात्मक रणनीतियाँ // विदेशी भाषाविज्ञान में नई। मुद्दा। XXIV. एम.: प्रोग्रेस, 1989, पीपी. 311-356।

42. भाषाई मॉडल का मेलचुक सिद्धांत "अर्थ "पाठ"। - एम।, नौका, 1974।

43. रूसी भाषा का राष्ट्रीय कोष। एचटीटीपी://*****

44. खोरोशेव्स्की VF OntosMiner: दस्तावेजों के बहुभाषी संग्रह से जानकारी निकालने के लिए सिस्टम का एक परिवार // अंतर्राष्ट्रीय भागीदारी के साथ आर्टिफिशियल इंटेलिजेंस पर नौवां राष्ट्रीय सम्मेलन KII-2004। टी। 2. - एम।: फ़िज़मैटलिट, 2004, पीपी। 573-581।

भाषाविज्ञान सांख्यिकीय भाषाविज्ञान सॉफ्टवेयर

कम्प्यूटेशनल भाषाविज्ञान के विकास का इतिहास

प्राकृतिक भाषा के विज्ञान के रूप में आधुनिक भाषाविज्ञान के गठन और गठन की प्रक्रिया भाषाई ज्ञान का एक लंबा ऐतिहासिक विकास है। भाषाई ज्ञान उन तत्वों पर आधारित है, जिनका गठन गतिविधि की प्रक्रिया में हुआ, मौखिक भाषण की संरचना के विकास, उद्भव, आगे के विकास और लेखन के सुधार, लिखना सीखना, साथ ही व्याख्या के साथ अटूट रूप से जुड़ा हुआ है। और ग्रंथों का डिकोडिंग।

भाषाविज्ञान की वस्तु के रूप में प्राकृतिक भाषा इस विज्ञान में एक केंद्रीय स्थान रखती है। भाषा के विकास की प्रक्रिया में, इसके बारे में विचार भी बदल गए। यदि पहले भाषा के आंतरिक संगठन को कोई विशेष महत्व नहीं दिया जाता था, और इसे सबसे पहले, बाहरी दुनिया के साथ अपने संबंधों के संदर्भ में माना जाता था, तो, 19 वीं के अंत से शुरू होकर - 20 वीं शताब्दी की शुरुआत , भाषा की आंतरिक औपचारिक संरचना को एक विशेष भूमिका सौंपी जाती है। इस अवधि के दौरान प्रसिद्ध स्विस भाषाविद् फर्डिनेंड डी सौसुरे ने अर्धविज्ञान और संरचनात्मक भाषाविज्ञान जैसे विज्ञानों की नींव विकसित की, और उनकी पुस्तक ए कोर्स इन जनरल लिंग्विस्टिक्स (1 9 16) में विस्तृत किया गया।

वैज्ञानिक के पास भाषा को एक एकल तंत्र, संकेतों की एक अभिन्न प्रणाली के रूप में मानने का विचार है, जो बदले में भाषा का गणितीय रूप से वर्णन करना संभव बनाता है। भाषा के लिए एक संरचनात्मक दृष्टिकोण का प्रस्ताव करने वाले पहले सॉसर थे, अर्थात्, इसकी इकाइयों के बीच संबंधों का अध्ययन करके एक भाषा का विवरण। इकाइयों, या "संकेतों" से, उन्होंने एक ऐसे शब्द को समझा जो अर्थ और ध्वनि दोनों को जोड़ता है। स्विस वैज्ञानिक द्वारा प्रस्तावित अवधारणा संकेतों की एक प्रणाली के रूप में भाषा के सिद्धांत पर आधारित है, जिसमें तीन भाग होते हैं: भाषा (फ्रेंच भाषा से), भाषण (फ्रेंच पैरोल से) और भाषण गतिविधि (फ्रेंच लैंगेज से)।

वैज्ञानिक ने स्वयं अपने द्वारा बनाए गए विज्ञान को अर्धविज्ञान के रूप में परिभाषित किया, "एक ऐसा विज्ञान जो समाज के जीवन के ढांचे के भीतर संकेतों के जीवन का अध्ययन करता है।" चूंकि भाषा एक संकेत प्रणाली है, इस सवाल के जवाब की तलाश में कि अन्य विज्ञानों में भाषाविज्ञान किस स्थान पर है, सॉसर ने तर्क दिया कि भाषाविज्ञान अर्धविज्ञान का हिस्सा है। यह आमतौर पर स्वीकार किया जाता है कि यह स्विस भाषाविद् थे जिन्होंने भाषाविज्ञान में एक नई दिशा की सैद्धांतिक नींव रखी, जो आधुनिक भाषाविज्ञान के "पिता" बन गए।

एफ। डी सौसुरे द्वारा सामने रखी गई अवधारणा को कई उत्कृष्ट वैज्ञानिकों के कार्यों में और विकसित किया गया था: डेनमार्क में - एल। एल्म्सलेव, चेक गणराज्य में - एन। ट्रुबेट्सकोय, यूएसए में - एल। ब्लूमफील्ड, जेड। हैरिस, एन। चॉम्स्की। हमारे देश के लिए, यहाँ संरचनात्मक भाषाविज्ञान ने अपना विकास लगभग उसी समय में शुरू किया था जैसे पश्चिम में - 19 वीं -20 वीं शताब्दी के मोड़ पर। - एफ। फोर्टुनाटोव और आई। बॉडॉइन डी कर्टेने के कार्यों में। यह ध्यान दिया जाना चाहिए कि I. Baudouin de Courtenay ने F. de Saussure के साथ मिलकर काम किया। यदि सौसुरे ने संरचनात्मक भाषाविज्ञान की सैद्धांतिक नींव रखी, तो बॉडॉइन डी कर्टेने को वह व्यक्ति माना जा सकता है जिसने स्विस वैज्ञानिक द्वारा प्रस्तावित विधियों के व्यावहारिक अनुप्रयोग की नींव रखी। यह वह था जिसने भाषाविज्ञान को एक ऐसे विज्ञान के रूप में परिभाषित किया जो सांख्यिकीय विधियों और कार्यात्मक निर्भरता का उपयोग करता है, और इसे भाषाविज्ञान से अलग करता है। भाषाविज्ञान में गणितीय विधियों को लागू करने का पहला अनुभव ध्वनिविज्ञान था - एक भाषा की ध्वनियों की संरचना का विज्ञान।

यह ध्यान दिया जाना चाहिए कि एफ। डी सॉसर द्वारा सामने रखी गई अवधारणाएं भाषाविज्ञान की समस्याओं में परिलक्षित हो सकती हैं जो 20 वीं शताब्दी के मध्य में प्रासंगिक थीं। यह इस अवधि के दौरान है कि भाषा विज्ञान के गणितीकरण की ओर एक स्पष्ट प्रवृत्ति को रेखांकित किया गया है। व्यावहारिक रूप से सभी बड़े देशों में, विज्ञान और कंप्यूटर प्रौद्योगिकी का तेजी से विकास शुरू होता है, जिसके लिए अधिक से अधिक नई भाषाई नींव की आवश्यकता होती है। इस सब का परिणाम सटीक और मानविकी का तेजी से अभिसरण था, साथ ही साथ गणित और भाषा विज्ञान की सक्रिय बातचीत, जिसने तत्काल वैज्ञानिक समस्याओं को हल करने में व्यावहारिक अनुप्रयोग पाया।

1950 के दशक में, गणित, भाषा विज्ञान, कंप्यूटर विज्ञान और कृत्रिम बुद्धिमत्ता जैसे विज्ञानों के चौराहे पर, विज्ञान की एक नई दिशा उत्पन्न हुई - कम्प्यूटेशनल भाषाविज्ञान (जिसे मशीन भाषाविज्ञान या प्राकृतिक भाषा में ग्रंथों के स्वचालित प्रसंस्करण के रूप में भी जाना जाता है)। इस दिशा के विकास में मुख्य चरण कृत्रिम बुद्धिमत्ता विधियों के विकास की पृष्ठभूमि में हुए। कम्प्यूटेशनल भाषाविज्ञान के विकास के लिए एक शक्तिशाली प्रोत्साहन पहले कंप्यूटरों का निर्माण था। हालाँकि, 60 के दशक में कंप्यूटर और प्रोग्रामिंग भाषाओं की एक नई पीढ़ी के आगमन के साथ, इस विज्ञान के विकास में एक मौलिक रूप से नया चरण शुरू होता है। यह भी ध्यान दिया जाना चाहिए कि कम्प्यूटेशनल भाषाविज्ञान की उत्पत्ति भाषा की संरचना को औपचारिक बनाने के क्षेत्र में प्रसिद्ध अमेरिकी भाषाविद् एन। चॉम्स्की के कार्यों पर वापस जाती है। भाषा विज्ञान और गणित के चौराहे पर प्राप्त उनके शोध के परिणामों ने औपचारिक भाषाओं और व्याकरण (जनरेटिव या जनरेटिव व्याकरण) के सिद्धांत के विकास का आधार बनाया, जिसका व्यापक रूप से प्राकृतिक और कृत्रिम दोनों भाषाओं का वर्णन करने के लिए उपयोग किया जाता है, विशेष रूप से प्रोग्रामिंग भाषाओं में। अधिक सटीक होने के लिए, यह सिद्धांत काफी गणितीय अनुशासन है। इसे गणितीय भाषाविज्ञान के रूप में अनुप्रयुक्त भाषाविज्ञान की ऐसी दिशा में पहला माना जा सकता है।

कम्प्यूटेशनल भाषाविज्ञान में पहला प्रयोग और पहला विकास मशीनी अनुवाद प्रणालियों के निर्माण के साथ-साथ मानव भाषा क्षमताओं का अनुकरण करने वाली प्रणालियों से संबंधित है। 80 के दशक के उत्तरार्ध में, इंटरनेट के आगमन और सक्रिय विकास के साथ, इलेक्ट्रॉनिक रूप में उपलब्ध पाठ जानकारी की मात्रा में तेजी से वृद्धि हुई। इससे यह तथ्य सामने आया है कि सूचना पुनर्प्राप्ति प्रौद्योगिकियां अपने विकास के गुणात्मक रूप से नए चरण में चली गई हैं। प्राकृतिक भाषा में ग्रंथों के स्वचालित प्रसंस्करण की आवश्यकता थी, पूरी तरह से नए कार्य और प्रौद्योगिकियां दिखाई दीं। वैज्ञानिकों को इस तरह की समस्या का सामना करना पड़ रहा है जैसे कि असंरचित डेटा की एक विशाल धारा का तेजी से प्रसंस्करण। इस समस्या का समाधान खोजने के लिए, स्वचालित वर्ड प्रोसेसिंग के क्षेत्र में सांख्यिकीय विधियों के विकास और अनुप्रयोग को बहुत महत्व दिया गया है। यह उनकी मदद से संभव हो गया था जैसे कि ग्रंथों को एक सामान्य विषय से एकजुट समूहों में विभाजित करना, पाठ में कुछ अंशों को उजागर करना आदि। इसके अलावा, गणितीय आँकड़ों और मशीन सीखने के तरीकों के उपयोग ने भाषण मान्यता और खोज इंजन के निर्माण की समस्याओं को हल करना संभव बना दिया।

वैज्ञानिक प्राप्त परिणामों पर नहीं रुके: उन्होंने नई तकनीकों और अनुसंधान के तरीकों को विकसित करने के लिए खुद को नए लक्ष्य और उद्देश्य निर्धारित करना जारी रखा। यह सब इस तथ्य को जन्म देता है कि भाषा विज्ञान ने कई अन्य विज्ञानों को मिलाकर एक व्यावहारिक विज्ञान के रूप में कार्य करना शुरू कर दिया, जिनमें से प्रमुख भूमिका गणित की थी, जिसमें इसकी मात्रात्मक विधियों की विविधता और घटना की गहरी समझ के लिए उनका उपयोग करने की क्षमता थी। अध्ययन किया जा रहा। इस प्रकार गणितीय भाषाविज्ञान का गठन और विकास शुरू हुआ। फिलहाल, यह एक "युवा" विज्ञान है (यह लगभग पचास वर्षों से अस्तित्व में है), हालांकि, इसकी "छोटी उम्र" के बावजूद, यह कई सफल उपलब्धियों के साथ वैज्ञानिक ज्ञान का पहले से ही स्थापित क्षेत्र है।

शब्द "कम्प्यूटेशनल भाषाविज्ञान" आमतौर पर कंप्यूटर टूल्स का उपयोग करने के एक विस्तृत क्षेत्र को संदर्भित करता है - प्रोग्राम, डेटा को व्यवस्थित और संसाधित करने के लिए कंप्यूटर प्रौद्योगिकियां - कुछ स्थितियों, स्थितियों, समस्या क्षेत्रों, साथ ही दायरे में किसी भाषा के कामकाज को मॉडल करने के लिए। कंप्यूटर भाषा मॉडल के केवल भाषाविज्ञान में, बल्कि संबंधित विषयों में भी। दरअसल, केवल बाद के मामले में हम सख्त अर्थों में व्यावहारिक भाषाविज्ञान के बारे में बात कर रहे हैं, क्योंकि कंप्यूटर भाषा मॉडलिंग को भाषाविज्ञान के क्षेत्र में प्रोग्रामिंग सिद्धांत (कंप्यूटर विज्ञान) के अनुप्रयोग के क्षेत्र के रूप में भी माना जा सकता है। फिर भी, सामान्य अभ्यास ऐसा है कि कम्प्यूटेशनल भाषाविज्ञान के क्षेत्र में भाषाविज्ञान में कंप्यूटर के उपयोग से संबंधित लगभग सभी चीजें शामिल हैं: "कम्प्यूटेशनल भाषाविज्ञान" शब्द विभिन्न प्रकार की वैज्ञानिक और व्यावहारिक समस्याओं को हल करने के लिए कंप्यूटर के उपयोग की दिशा में एक सामान्य अभिविन्यास निर्धारित करता है। भाषा से संबंधित, इन समस्याओं को हल करने के किसी भी तरीके को सीमित किए बिना।

कम्प्यूटेशनल भाषाविज्ञान का संस्थागत पहलू. एक विशेष वैज्ञानिक दिशा के रूप में, कम्प्यूटेशनल भाषाविज्ञान ने 60 के दशक में आकार लिया। इस क्षेत्र में प्रकाशनों का प्रवाह बहुत अधिक है। विषयगत संग्रह के अलावा, संयुक्त राज्य अमेरिका में कम्प्यूटेशनल भाषाविज्ञान पत्रिका त्रैमासिक प्रकाशित होती है। कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन द्वारा एक बड़ा संगठनात्मक और वैज्ञानिक कार्य किया जाता है, जिसमें दुनिया भर में क्षेत्रीय संरचनाएं हैं (विशेष रूप से, यूरोपीय शाखा)। हर दो साल में कम्प्यूटेशनल भाषाविज्ञान - कोलिंग पर अंतर्राष्ट्रीय सम्मेलन होते हैं। विभिन्न स्तरों पर कृत्रिम बुद्धिमत्ता पर अंतर्राष्ट्रीय सम्मेलनों में प्रासंगिक मुद्दों का भी व्यापक रूप से प्रतिनिधित्व किया जाता है।

कम्प्यूटेशनल भाषाविज्ञान का संज्ञानात्मक टूलकिट

एक विशेष अनुप्रयुक्त अनुशासन के रूप में कम्प्यूटेशनल भाषाविज्ञान मुख्य रूप से इसके उपकरण द्वारा प्रतिष्ठित है - अर्थात, भाषा डेटा को संसाधित करने के लिए कंप्यूटर टूल के उपयोग से। चूंकि कंप्यूटर प्रोग्राम जो किसी भाषा के कामकाज के कुछ पहलुओं को मॉडल करते हैं, वे विभिन्न प्रोग्रामिंग टूल का उपयोग कर सकते हैं, ऐसा लगता है कि एक सामान्य धातुभाषा के बारे में बात करने की कोई आवश्यकता नहीं है। हालाँकि, ऐसा नहीं है। सोच के कंप्यूटर मॉडलिंग के सामान्य सिद्धांत हैं, जो किसी भी तरह किसी भी कंप्यूटर मॉडल में लागू होते हैं। यह भाषा कृत्रिम बुद्धि में विकसित ज्ञान के सिद्धांत पर आधारित है और संज्ञानात्मक विज्ञान की एक महत्वपूर्ण शाखा का निर्माण करती है।

ज्ञान के सिद्धांत की मुख्य थीसिस में कहा गया है कि सोच ज्ञान को संसाधित करने और उत्पन्न करने की एक प्रक्रिया है। "ज्ञान" या "ज्ञान" को एक अपरिभाषित श्रेणी माना जाता है। मानव संज्ञानात्मक प्रणाली एक "प्रोसेसर" के रूप में कार्य करती है जो ज्ञान को संसाधित करती है। ज्ञानमीमांसा और संज्ञानात्मक विज्ञान में, दो मुख्य प्रकार के ज्ञान प्रतिष्ठित हैं - घोषणात्मक ("क्या जानना") और प्रक्रियात्मक ("जानना कैसे"))। घोषणात्मक ज्ञान आमतौर पर प्रस्तावों के एक सेट के रूप में प्रस्तुत किया जाता है, किसी चीज के बारे में बयान। घोषणात्मक ज्ञान का एक विशिष्ट उदाहरण सामान्य व्याख्यात्मक शब्दकोशों में शब्दों की व्याख्या है। उदाहरण के लिए, एक कप] - "एक छोटा गोल पीने का बर्तन, आमतौर पर एक हैंडल के साथ, चीनी मिट्टी के बरतन, फ़ाइनेस, आदि से बना होता है।"। घोषणात्मक ज्ञान "सच्चे-झूठे" के संदर्भ में सत्यापन प्रक्रिया के लिए उधार देता है। प्रक्रियात्मक ज्ञान को संचालन, किए जाने वाले कार्यों के अनुक्रम (सूची) के रूप में प्रस्तुत किया जाता है। यह एक निश्चित स्थिति में कार्यों के बारे में कुछ सामान्य निर्देश है। प्रक्रियात्मक ज्ञान का एक विशिष्ट उदाहरण घरेलू उपकरणों के उपयोग के लिए निर्देश है।

घोषणात्मक ज्ञान के विपरीत, प्रक्रियात्मक ज्ञान को सत्य या असत्य के रूप में सत्यापित नहीं किया जा सकता है। उनका मूल्यांकन केवल एल्गोरिथम की सफलता या विफलता से किया जा सकता है।

कम्प्यूटेशनल भाषाविज्ञान के संज्ञानात्मक टूलकिट की अधिकांश अवधारणाएं समानार्थी हैं: वे एक साथ मानव संज्ञानात्मक प्रणाली की कुछ वास्तविक संस्थाओं और कुछ धातुओं में इन संस्थाओं का प्रतिनिधित्व करने के तरीकों को नामित करते हैं। दूसरे शब्दों में, धातुभाषा के तत्वों का एक औपचारिक और वाद्य पहलू होता है। औपचारिक रूप से, घोषणात्मक और प्रक्रियात्मक ज्ञान का विभाजन मानव संज्ञानात्मक प्रणाली के विभिन्न प्रकार के ज्ञान से मेल खाता है। इसलिए, विशिष्ट वस्तुओं, वास्तविकता की वस्तुओं के बारे में ज्ञान मुख्य रूप से घोषणात्मक है, और किसी व्यक्ति की चलने, दौड़ने, कार चलाने की कार्यात्मक क्षमताओं को संज्ञानात्मक प्रणाली में प्रक्रियात्मक ज्ञान के रूप में महसूस किया जाता है। यंत्रवत्, ज्ञान (ऑटोलॉजिकल रूप से प्रक्रियात्मक और घोषणात्मक दोनों) को विवरण, विवरण और एक एल्गोरिथम के रूप में एक निर्देश के रूप में दर्शाया जा सकता है। दूसरे शब्दों में, वास्तविकता की वस्तु के बारे में औपचारिक रूप से घोषणात्मक ज्ञान "तालिका" को निर्देशों के एक सेट के रूप में प्रक्रियात्मक रूप से दर्शाया जा सकता है, इसके निर्माण के लिए एल्गोरिदम, असेंबली (= प्रक्रियात्मक ज्ञान का रचनात्मक पहलू) या इसके विशिष्ट उपयोग के लिए एल्गोरिदम के रूप में (= कार्यात्मक) प्रक्रियात्मक ज्ञान का पहलू)। पहले मामले में, यह नौसिखिए बढ़ई के लिए एक मार्गदर्शक हो सकता है, और दूसरे में, एक कार्यालय डेस्क की संभावनाओं का विवरण। इसका विलोम भी सत्य है: औपचारिक रूप से प्रक्रियात्मक ज्ञान को घोषणात्मक रूप से दर्शाया जा सकता है।

इसके लिए एक अलग चर्चा की आवश्यकता है कि क्या किसी औपचारिक रूप से घोषणात्मक ज्ञान को प्रक्रियात्मक, और किसी भी औपचारिक रूप से प्रक्रियात्मक - घोषणात्मक के रूप में दर्शाया जा सकता है। शोधकर्ता इस बात से सहमत हैं कि किसी भी घोषणात्मक ज्ञान को सिद्धांत रूप में प्रक्रियात्मक रूप से दर्शाया जा सकता है, हालांकि यह एक संज्ञानात्मक प्रणाली के लिए बहुत ही गैर-आर्थिक हो सकता है। रिवर्स शायद ही सच है। तथ्य यह है कि घोषणात्मक ज्ञान बहुत अधिक स्पष्ट है, प्रक्रियात्मक ज्ञान की तुलना में किसी व्यक्ति को समझना आसान है। घोषणात्मक ज्ञान के विपरीत, प्रक्रियात्मक ज्ञान मुख्य रूप से निहित है। तो, भाषा की क्षमता, प्रक्रियात्मक ज्ञान होने के कारण, एक व्यक्ति से छिपी हुई है, उसके द्वारा महसूस नहीं की जाती है। भाषा के कामकाज के तंत्र की खोज करने का प्रयास शिथिलता की ओर ले जाता है। उदाहरण के लिए, शाब्दिक शब्दार्थ के क्षेत्र के विशेषज्ञ जानते हैं कि शब्द सामग्री योजना का अध्ययन करने के लिए आवश्यक दीर्घकालिक शब्दार्थ आत्मनिरीक्षण इस तथ्य की ओर जाता है कि शोधकर्ता आंशिक रूप से विश्लेषण किए गए शब्द के सही और गलत उपयोग के बीच अंतर करने की क्षमता खो देता है। अन्य उदाहरणों का हवाला दिया जा सकता है। यह ज्ञात है कि यांत्रिकी की दृष्टि से, मानव शरीर दो परस्पर क्रिया करने वाले लोलकों की एक जटिल प्रणाली है।

ज्ञान सिद्धांत में, ज्ञान के अध्ययन और प्रतिनिधित्व के लिए विभिन्न ज्ञान संरचनाओं का उपयोग किया जाता है - फ्रेम, परिदृश्य, योजनाएं। एम. मिन्स्की के अनुसार, "एक फ्रेम एक डेटा संरचना है जिसे एक रूढ़िबद्ध स्थिति का प्रतिनिधित्व करने के लिए डिज़ाइन किया गया है" [मिन्स्की 1978, पृष्ठ 254]। अधिक विस्तार से, हम कह सकते हैं कि फ्रेम एक विशिष्ट रूप से एकीकृत स्थिति के बारे में ज्ञान के घोषणात्मक प्रतिनिधित्व के लिए एक वैचारिक संरचना है जिसमें कुछ शब्दार्थ संबंधों से जुड़े स्लॉट होते हैं। चित्रण के प्रयोजनों के लिए, एक फ्रेम को अक्सर एक तालिका के रूप में दर्शाया जाता है, जिसकी पंक्तियाँ स्लॉट बनाती हैं। प्रत्येक स्लॉट का अपना नाम और सामग्री होती है (तालिका 1 देखें)।

तालिका नंबर एक

तालिका दृश्य में "तालिका" फ़्रेम का टुकड़ा

विशिष्ट कार्य के आधार पर, फ्रेम संरचना अधिक जटिल हो सकती है; एक फ्रेम में नेस्टेड सबफ्रेम और अन्य फ्रेम के संदर्भ शामिल हो सकते हैं।

तालिका के बजाय, प्रस्तुति का एक विधेय रूप अक्सर उपयोग किया जाता है। इस मामले में, फ्रेम एक विधेय या तर्कों के साथ एक फ़ंक्शन के रूप में होता है। एक फ्रेम का प्रतिनिधित्व करने के अन्य तरीके हैं। उदाहरण के लिए, इसे निम्न रूप के टपल के रूप में दर्शाया जा सकता है: ( (फ्रेम नाम) (स्लॉट नाम)) (स्लॉट मान,), ..., (स्लॉट नाम n) (स्लॉट मान n))।

आमतौर पर, ज्ञान प्रतिनिधित्व भाषाओं में फ्रेम का यह रूप होता है।

कम्प्यूटेशनल भाषाविज्ञान की अन्य संज्ञानात्मक श्रेणियों की तरह, एक फ्रेम की अवधारणा समानार्थी है। ऑन्कोलॉजिकल रूप से, यह मानव संज्ञानात्मक प्रणाली का एक हिस्सा है, और इस अर्थ में, फ्रेम की तुलना गेस्टाल्ट, प्रोटोटाइप, स्टीरियोटाइप, स्कीम जैसी अवधारणाओं से की जा सकती है। संज्ञानात्मक मनोविज्ञान में, इन श्रेणियों को एक ऑन्कोलॉजिकल दृष्टिकोण से ठीक माना जाता है। इस प्रकार, डी। नॉर्मन मानव संज्ञानात्मक प्रणाली में ज्ञान के अस्तित्व और संगठन के दो मुख्य तरीकों को अलग करता है - अर्थ नेटवर्क और योजनाएं। "स्कीमा," वे लिखते हैं, "ज्ञान की विशिष्ट, स्व-निहित इकाइयों का प्रतिनिधित्व करने के लिए एकत्रित ज्ञान के संगठित पैकेट हैं। सैम के लिए मेरी स्कीमा में उनकी भौतिक विशेषताओं, उनकी गतिविधियों और व्यक्तित्व लक्षणों का वर्णन करने वाली जानकारी हो सकती है। यह स्कीमा अन्य स्कीमा से संबंधित है जो इसके अन्य पहलुओं का वर्णन करता है" [नॉर्मन 1998, पृ. 359]। यदि हम फ्रेम श्रेणी का सहायक पक्ष लेते हैं, तो यह ज्ञान के घोषणात्मक प्रतिनिधित्व के लिए एक संरचना है। वर्तमान AI सिस्टम में, फ़्रेम जटिल ज्ञान संरचनाएँ बना सकते हैं; फ्रेम सिस्टम पदानुक्रम की अनुमति देता है - एक फ्रेम दूसरे फ्रेम का हिस्सा हो सकता है।

सामग्री के संदर्भ में, फ्रेम की अवधारणा व्याख्या की श्रेणी के बहुत करीब है। दरअसल, एक स्लॉट वैलेंस का एक एनालॉग है, एक स्लॉट को भरना एक एक्टेंट का एक एनालॉग है। उनके बीच मुख्य अंतर यह है कि व्याख्या में शब्द की सामग्री की योजना के बारे में केवल भाषाई रूप से प्रासंगिक जानकारी होती है, और फ्रेम, सबसे पहले, शब्द से जरूरी नहीं है, और दूसरी बात, दी गई समस्या से संबंधित सभी जानकारी शामिल है स्थिति, जिसमें बहिर्भाषिक (दुनिया का ज्ञान) शामिल है 3)।

एक परिदृश्य एक रूढ़िबद्ध स्थिति या व्यवहार के बारे में ज्ञान के प्रक्रियात्मक प्रतिनिधित्व के लिए एक वैचारिक ढांचा है। स्क्रिप्ट तत्व एक एल्गोरिथम या निर्देश के चरण हैं। लोग आमतौर पर "रेस्तरां परिदृश्य", "खरीद परिदृश्य" आदि के बारे में बात करते हैं।

फ़्रेम का उपयोग मूल रूप से प्रक्रियात्मक प्रस्तुति के लिए भी किया जाता था (cf. शब्द "प्रक्रियात्मक फ्रेम"), लेकिन शब्द "परिदृश्य" अब इस अर्थ में अधिक सामान्यतः उपयोग किया जाता है। एक परिदृश्य को न केवल एक एल्गोरिथ्म के रूप में, बल्कि एक नेटवर्क के रूप में भी दर्शाया जा सकता है, जिसके कोने कुछ स्थितियों के अनुरूप होते हैं, और आर्क स्थितियों के बीच कनेक्शन के अनुरूप होते हैं। एक स्क्रिप्ट की अवधारणा के साथ, कुछ शोधकर्ता बुद्धि के कंप्यूटर मॉडलिंग के लिए एक स्क्रिप्ट की श्रेणी का उपयोग करते हैं। आर। शेंक के अनुसार, एक स्क्रिप्ट कुछ आम तौर पर स्वीकृत, कार्य-कारण संबंधों का प्रसिद्ध अनुक्रम है। उदाहरण के लिए, संवाद को समझना

सड़क पर बाल्टी की तरह बरसता है।

आपको अभी भी स्टोर पर जाना है: घर में कुछ भी नहीं है - कल मेहमानों ने सब कुछ साफ कर दिया।

गैर-स्पष्ट शब्दार्थ संबंधों पर आधारित है जैसे "यदि बारिश होती है, तो बाहर जाना अवांछनीय है, क्योंकि आप बीमार हो सकते हैं।" ये कनेक्शन एक स्क्रिप्ट बनाते हैं, जिसका उपयोग देशी वक्ताओं द्वारा एक-दूसरे के मौखिक और गैर-मौखिक व्यवहार को समझने के लिए किया जाता है।

एक विशिष्ट समस्या स्थिति के लिए परिदृश्य को लागू करने के परिणामस्वरूप, a योजना) किसी विशिष्ट लक्ष्य की ओर ले जाने वाले संभावित कार्यों के बारे में ज्ञान का प्रक्रियात्मक रूप से प्रतिनिधित्व करने के लिए एक योजना का उपयोग किया जाता है। एक योजना एक लक्ष्य को क्रियाओं के अनुक्रम से संबंधित करती है।

सामान्य तौर पर, योजना में प्रक्रियाओं का एक क्रम शामिल होता है जो सिस्टम की प्रारंभिक स्थिति को अंतिम स्थिति में स्थानांतरित करता है और एक निश्चित उप-लक्ष्य और लक्ष्य की उपलब्धि की ओर ले जाता है। एआई सिस्टम में, योजना संबंधित मॉड्यूल की योजना या नियोजन गतिविधि के परिणामस्वरूप उत्पन्न होती है - नियोजन मॉड्यूल। नियोजन प्रक्रिया एक समस्या की स्थिति को हल करने के लिए परीक्षण प्रक्रियाओं द्वारा सक्रिय एक या अधिक परिदृश्यों से डेटा के अनुकूलन पर आधारित हो सकती है। योजना का निष्पादन एक कार्यकारी मॉड्यूल द्वारा किया जाता है जो सिस्टम की संज्ञानात्मक प्रक्रियाओं और शारीरिक क्रियाओं को नियंत्रित करता है। प्राथमिक मामले में, एक बुद्धिमान प्रणाली में एक योजना संचालन का एक सरल अनुक्रम है; अधिक जटिल संस्करणों में, योजना एक विशिष्ट विषय, उसके संसाधनों, क्षमताओं, लक्ष्यों, समस्या की स्थिति के बारे में विस्तृत जानकारी आदि से जुड़ी होती है। योजना का उद्भव दुनिया के मॉडल के बीच संचार की प्रक्रिया में होता है, जिसका एक हिस्सा परिदृश्यों, योजना मॉड्यूल और कार्यकारी मॉड्यूल द्वारा बनता है।

एक परिदृश्य के विपरीत, एक योजना एक विशिष्ट स्थिति, एक विशिष्ट कलाकार से जुड़ी होती है, और एक विशिष्ट लक्ष्य का पीछा करती है। योजना का चुनाव ठेकेदार के संसाधनों द्वारा नियंत्रित होता है। एक योजना की व्यवहार्यता एक संज्ञानात्मक प्रणाली में अपनी पीढ़ी के लिए एक अनिवार्य शर्त है, और व्यवहार्यता विशेषता एक परिदृश्य के लिए अनुपयुक्त है।

एक और महत्वपूर्ण अवधारणा दुनिया का मॉडल है। दुनिया के एक मॉडल को आमतौर पर एक निश्चित तरीके से आयोजित दुनिया के बारे में ज्ञान के एक सेट के रूप में समझा जाता है, जो एक संज्ञानात्मक प्रणाली या उसके कंप्यूटर मॉडल में निहित है। कुछ अधिक सामान्य अर्थों में, दुनिया के मॉडल को एक संज्ञानात्मक प्रणाली के हिस्से के रूप में कहा जाता है जो दुनिया की संरचना, उसके पैटर्न आदि के बारे में ज्ञान संग्रहीत करता है। दूसरे अर्थ में, दुनिया का मॉडल परिणामों से जुड़ा होता है। पाठ को समझने या, अधिक व्यापक रूप से, प्रवचन। प्रवचन को समझने की प्रक्रिया में, इसके मानसिक मॉडल का निर्माण किया जाता है, जो पाठ की सामग्री की योजना और इस विषय में निहित दुनिया के बारे में ज्ञान के बीच बातचीत का परिणाम है [जॉनसन-लेयर्ड 1988, पृष्ठ 237 एट सेक।]। पहली और दूसरी समझ अक्सर संयुक्त होती हैं। यह संज्ञानात्मक भाषाविज्ञान और संज्ञानात्मक विज्ञान के भीतर काम करने वाले भाषाई शोधकर्ताओं के लिए विशिष्ट है।

फ्रेम की श्रेणी से निकटता से संबंधित एक दृश्य की अवधारणा है। दृश्य श्रेणी का उपयोग मुख्य रूप से साहित्य में स्थितियों के घोषणात्मक प्रतिनिधित्व के लिए एक वैचारिक संरचना के पदनाम के रूप में किया जाता है और उनके भागों को एक भाषण अधिनियम में वास्तविक रूप दिया जाता है और भाषाई माध्यमों (शब्दावली, वाक्य रचना, व्याकरणिक श्रेणियां, आदि) द्वारा हाइलाइट किया जाता है। भाषाई रूपों से जुड़े होने के कारण, दृश्य को अक्सर एक निश्चित शब्द या अभिव्यक्ति द्वारा अद्यतन किया जाता है। कथानक व्याकरण में (नीचे देखें), एक दृश्य एक प्रकरण या कथा के भाग के रूप में प्रकट होता है। दृश्यों के विशिष्ट उदाहरण क्यूब्स का एक सेट है जिसके साथ एआई सिस्टम काम करता है, कहानी में कार्रवाई का दृश्य और कार्रवाई में भाग लेने वाले आदि। कृत्रिम बुद्धि में, छवि पहचान प्रणाली में दृश्यों का उपयोग किया जाता है, साथ ही साथ समस्या स्थितियों के अध्ययन (विश्लेषण, विवरण) पर केंद्रित कार्यक्रमों में भी उपयोग किया जाता है। एक दृश्य की अवधारणा सैद्धांतिक भाषाविज्ञान के साथ-साथ तर्क में भी व्यापक हो गई है, विशेष रूप से स्थितिजन्य शब्दार्थ में, जिसमें एक शाब्दिक इकाई का अर्थ सीधे दृश्य से जुड़ा होता है।

कम्प्यूटेशनल भाषाविज्ञान आज व्यावहारिक रूप से समाप्त हो गया है। यह "बौद्धिक" सूचना उत्पादों के शोधकर्ताओं और डेवलपर्स के असफल अनुभव से सीधे संकेत मिलता है, जो इस तरह के महत्वाकांक्षी कार्यक्रमों के निर्माण पर आधी सदी से अधिक समय से काम कर रहे हैं, उदाहरण के लिए, सूचना के लिए पर्याप्त मशीन अनुवाद या शब्दार्थ खोज। प्राकृतिक भाषा दस्तावेजों की सरणियाँ।

प्राकृतिक भाषा के पाठों के मशीनी प्रसंस्करण का भविष्य, निश्चित रूप से, एक व्यक्ति की तरह संदर्भ की शब्दार्थ समझ के स्तर पर सूचना की सामग्री का विश्लेषण करने में सक्षम सुपर-भाषाई प्रौद्योगिकियों के निर्माण और विकास में देखा जाता है। हालांकि, लंबे समय तक "थिंकिंग मशीन" (थिंकिंग मशीन) का निर्माण दो मुख्य कारकों से बाधित था - दो मूलभूत समस्याओं को हल करने के लिए आवश्यक कार्यप्रणाली और उचित उपकरणों की कमी - यह "अर्थ का सूत्र" और निर्माण कुछ औपचारिक कंप्यूटर-सुलभ रूप में "ब्रह्मांड के बारे में ज्ञान का मॉडल", जिसके बिना, वास्तव में, कार्यक्रम स्तर पर मानव सोच की प्रकृति को दोहराना असंभव है।

भाषाविद, साइबरनेटिक्स के साथ, इन समस्याओं को दूर करने में सक्षम नहीं हैं, क्योंकि उत्तरार्द्ध पहले से ही उनके विषय विशेषज्ञता की सीमाओं से बाहर है, जो वास्तव में, पाठ प्रसंस्करण के ऐसे लंबे समय से अनुरोधित लागू क्षेत्रों के विकास को काफी धीमा कर देता है, जैसे "स्मार्ट" संवाद प्रणाली या "सिमेंटिक इंटरनेट सर्च इंजन" के निर्माण के रूप में। और वही मशीनी अनुवाद अभी भी वांछित होने के लिए बहुत कुछ छोड़ देता है।

वैज्ञानिक और तकनीकी प्रगति के विकास का अनुभव बताता है कि सफलता वांछित परिणाम अंततः प्राप्त होता है, एक नियम के रूप में, विभिन्न तकनीकी क्षेत्रों और विषय विषयों के जंक्शन पर। जाहिरा तौर पर, "मशीन सोच" की समस्या ठीक उसी समय हल हो जाएगी जब हम समझेंगे कि प्रक्रियात्मक योजना में हमारी प्राकृतिक चेतना कैसे काम करती है, और जब हम मज़बूती से यह पता लगा सकते हैं कि क्या ये सोच प्रक्रिया, हमें आवश्यक और पर्याप्त मात्रा में दिखाई गई है, अंतिम कंप्यूटर एल्गोरिथम।

यह ध्यान दिया जाना चाहिए कि हाल के वर्षों में, एक नया ("स्मार्टबटर") वैज्ञानिक अनुशासन विकसित होना शुरू हो गया है, जो वास्तव में इस तथ्य से संबंधित है कि यह मानव मानसिक गतिविधि की प्रक्रियात्मक प्रकृति का अध्ययन करता है। हम कह सकते हैं कि इस समय हमें इस दिशा में एक महत्वपूर्ण सफलता मिली है और हम पहले से ही स्पष्ट रूप से समझते हैं कि मानव सोच का एल्गोरिथ्म कैसे काम करता है। यदि हम इस बारे में सामान्य रूप से बात करते हैं, तो, सबसे पहले, यह ध्यान दिया जाना चाहिए कि एक व्यक्ति छवियों में नहीं सोचता है, जैसा कि आमतौर पर सोचा जाता है, लेकिन "छवि व्यवहार के पैटर्न" (IGO) में। दूसरे, हम सोचते हैं "ऑटोलॉजिकल रूप से", अर्थात, हम लगातार प्रश्न पूछते हैं, यहां तक ​​​​कि खुद को नोटिस किए बिना, और स्थायी रूप से उनके उत्तर की तलाश करते हैं (स्वचालित रूप से भी)। अंत में, किसी भी चिंतन के दौरान व्यक्ति या उसके दिमाग में होने वाली हर चीज की एक सार्थक समझ आसपास के ब्रह्मांड के एक निश्चित "मॉडल प्रतिनिधित्व" की मदद से की जाती है। यह उन एमपीओ की तुलना करके होता है जो उन्हें मानव दीर्घकालिक स्मृति में संग्रहीत ब्रह्मांड के बारे में विचारों के साथ परिचालन के आधार पर प्राप्त होते हैं। वास्तव में, ये तीन मुख्य व्हेल प्राकृतिक सोच की पूरी तकनीक बनाती हैं, जो अब केवल प्रोग्रामर के लिए समझने योग्य भाषा में स्थानांतरित होने और लंबे समय से प्रतीक्षित परिणाम प्राप्त करने के लिए बनी हुई है।

जब लोग किसी भी प्राकृतिक भाषा संदेश को समझते हैं, तो वे व्यावहारिक रूप से अपनी स्मृति में संग्रहीत छवियों की अवधारणाओं और व्यवहार पैटर्न के साथ घोषित निर्णय के तत्काल पत्राचार को स्थापित नहीं करते हैं। हर बार, वे प्राप्त (कथित) एमपीओ को पहला साहचर्य-अनुमानी पत्राचार देते हैं जो उनके दिमाग में उनके अनुभव और ज्ञान की बारीकियों के आधार पर उठता है, और उसके बाद ही, पाठ के आगे पुनर्विचार के दौरान, वे शुरू करते हैं प्राप्त जानकारी को स्पष्ट और ठोस करने के लिए। दूसरी ओर, कम्प्यूटेशनल भाषाविज्ञान, शब्दों के अर्थों के साथ-साथ उनके पारस्परिक संबंधों के बीच सटीक पत्राचार स्थापित करना चाहता है, किसी भी भाषा में निहित मौखिक उपकरणों की अस्पष्टता की समस्या को दूर करने की कोशिश कर रहा है, जो वास्तव में बहुत अलग है। हमारी सोच कैसे काम करती है। आखिरकार, एक व्यक्ति भाषण या पाठ की समझ को शब्दों के रूपात्मक भार के ज्ञान या शब्दों के बीच वाक्यात्मक संबंधों की स्थापना के कारण प्राप्त नहीं करता है, और इसलिए भी नहीं कि उसने शब्दों के विशिष्ट अर्थ (अर्थ) को पहचाना, लेकिन वास्तव में प्रारंभिक साहचर्य मान्यताओं और बाद में पूरे संदर्भ के "पुनरावृत्त स्क्रॉलिंग" के कारण कथित जानकारी के पत्राचार की आंतरिक सामग्री को अंतिम चित्र बनाने के लिए।