Sejarah Linguistik Komputasi. Apa itu Linguistik Komputasi? Perangkat kognitif linguistik komputasi

Novoselova Irina

Mengapa tidak semua terjemahan mesin sempurna? Apa yang menentukan kualitas terjemahan? Apakah penulis memiliki pengetahuan yang cukup untuk menggunakan dan melengkapi kamus komputer yang ada? Penulis mencoba memberikan jawaban atas pertanyaan-pertanyaan tersebut dalam karyanya. Laporkan topik - dalam file terlampir, produk kegiatan proyek - di portal sekolah

Unduh:

Pratinjau:

membuka

Internasional

riset

konferensi

siswa sekolah menengah dan siswa

"Pendidikan. Ilmu. Profesi"

Bagian "Linguistik Asing"

"Linguistik Komputer"

Dibuat oleh Irina Novosyolova

MOU gimnasium No. 39 "Klasik"

Kelas 10 "B"

Pengawas ilmiah:

Chigrineva Tatyana Dmitrievna,

Guru bahasa Inggris dari kategori tertinggi

Osipova Svetlana Leonidovna,

guru ilmu komputer dari kategori tertinggi

kota Otradny

2011

  1. Kata-kata bahasa Inggris di ICT

Lihat situs webnya

  1. Eksperimen saya

Salah satu tugasnya adalah melakukan percobaan, yang terdiri dari membandingkan kemampuan berbagai kamus linguistik komputer, untuk terjemahan yang lebih akurat dan perkiraan dari bahasa Inggris ke bahasa Rusia.

Situs-situs berikut telah diuji:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

Untuk kemurnian percobaan, saya memilih kalimat dengan berbagai tingkat kompleksitas terjemahan gaya. Frasa masukan adalah sebagai berikut:

1. Sebuah laporan baru mengatakan remaja saat ini lebih egois daripada 20 tahun yang lalu

(Laporan baru mengatakan remaja saat ini lebih egois daripada 20 tahun yang lalu)

2. Dia percaya video game dan internet adalah alasan terbesar untuk meningkatkan keegoisan ini.

(Dia percaya bahwa video game dan internet adalah alasan terbesar untuk tumbuhnya keegoisan ini)

3. Mereka ingin menjadi lebih baik dari yang lain

(Mereka ingin menjadi lebih baik dari yang lain)

4. Dia menemukan peningkatan besar dimulai dari tahun 2000, ketika video game kekerasan menjadi sangat populer.

(Dia menemukan banyak pertumbuhan mulai tahun 2000 ketika video game kekerasan menjadi sangat populer)

Setelah menerjemahkan kalimat-kalimat ini di situs penerjemah online, saya mendapatkan hasil sebagai berikut:

  1. http://translate.eu/

Linguistik Komputasi: Metode, Sumber Daya, Aplikasi

pengantar

Ketentuan linguistik komputasi(CL) dalam beberapa tahun terakhir semakin umum sehubungan dengan pengembangan berbagai sistem perangkat lunak terapan, termasuk produk perangkat lunak komersial. Hal ini disebabkan oleh pesatnya pertumbuhan masyarakat informasi teks, termasuk di Internet, dan kebutuhan untuk pemrosesan teks secara otomatis dalam bahasa alami (NL). Keadaan ini mendorong perkembangan linguistik komputasional sebagai bidang ilmu pengetahuan dan perkembangan teknologi informasi dan linguistik baru.

Dalam kerangka linguistik komputasi, yang telah ada selama lebih dari 50 tahun (dan juga dikenal dengan nama linguistik mesin, pengolah kata otomatis di NL) banyak metode dan ide yang menjanjikan telah diusulkan, tetapi tidak semuanya belum menemukan ekspresinya dalam produk perangkat lunak yang digunakan dalam praktik. Tujuan kami adalah untuk mengkarakterisasi kekhususan bidang penelitian ini, merumuskan tugas utamanya, menunjukkan hubungannya dengan ilmu lain, memberikan gambaran singkat tentang pendekatan utama dan sumber daya yang digunakan, dan secara singkat mengkarakterisasi aplikasi CL yang ada. Untuk kenalan yang lebih rinci dengan masalah ini, buku dapat direkomendasikan.

1. Tugas linguistik komputasi

Linguistik komputasi muncul di persimpangan ilmu-ilmu seperti linguistik, matematika, ilmu komputer (Ilmu Komputer) dan kecerdasan buatan. Asal-usul CL kembali ke penelitian ilmuwan Amerika terkenal N. Chomsky di bidang formalisasi struktur bahasa alami; perkembangannya didasarkan pada hasil-hasil di bidang linguistik umum (linguistik). Linguistik mempelajari hukum umum bahasa alami - struktur dan fungsinya, dan mencakup bidang-bidang berikut:

Ø Fonologi- mempelajari bunyi ujaran dan aturan kombinasinya dalam pembentukan ujaran;

Ø Morfologi- berurusan dengan struktur internal dan bentuk eksternal kata-kata ucapan, termasuk bagian-bagian pidato dan kategorinya;

Ø Sintaksis- mempelajari struktur kalimat, aturan kecocokan dan urutan kata dalam kalimat, serta sifat umumnya sebagai unit bahasa.

Ø Semantikdan pragmatik- bidang yang terkait erat: semantik berkaitan dengan makna kata, kalimat, dan unit ucapan lainnya, dan pragmatik berkaitan dengan fitur pengungkapan makna ini sehubungan dengan tujuan khusus komunikasi;

Ø Leksikografi menjelaskan leksikon SL tertentu - kata-kata individualnya dan sifat tata bahasanya, serta metode untuk membuat kamus.

Hasil N. Chomsky, yang diperoleh di persimpangan linguistik dan matematika, meletakkan dasar bagi teori bahasa dan tata bahasa formal (sering disebut generatif, atau generatif ahli tata bahasa). Teori ini sekarang linguistik matematika dan digunakan untuk memproses tidak begitu banyak NL, tetapi bahasa buatan, terutama bahasa pemrograman. Secara alami, ini adalah disiplin matematika yang cukup.

Linguistik matematika juga termasuk linguistik kuantitatif, mempelajari karakteristik frekuensi bahasa - kata, kombinasinya, konstruksi sintaksis, dll., Saat menggunakan metode statistik matematika, sehingga Anda dapat menyebut cabang ilmu statistik linguistik ini.

CL juga terkait erat dengan bidang ilmiah interdisipliner seperti kecerdasan buatan (AI), di mana model komputer dari fungsi intelektual individu dikembangkan. Salah satu program kerja pertama di bidang AI dan CL adalah program terkenal T. Winograd, yang memahami perintah paling sederhana seseorang untuk mengubah dunia kubus, dirumuskan pada subset terbatas NL. Perlu dicatat bahwa terlepas dari persimpangan penelitian yang jelas di bidang PA dan AI (karena kemahiran bahasa terkait dengan fungsi intelektual), AI tidak menyerap semua PA, karena ia memiliki dasar teoretis dan metodologinya sendiri. Umum untuk ilmu-ilmu ini adalah pemodelan komputer sebagai metode utama dan tujuan akhir penelitian.

Dengan demikian, tugas CL dapat dirumuskan sebagai pengembangan program komputer untuk pemrosesan teks secara otomatis dalam NL. Dan meskipun pemrosesan dipahami secara luas, jauh dari semua jenis pemrosesan dapat disebut linguistik, dan prosesor yang sesuai dapat disebut linguistik. Prosesor Linguistik harus menggunakan satu atau lain model bahasa formal (meskipun sangat sederhana), yang berarti bahwa bahasa itu harus bergantung pada bahasa dalam satu atau lain cara (yaitu, bergantung pada NL tertentu). Jadi, misalnya, editor teks Mycrosoft Word bisa disebut linguistik (jika hanya karena menggunakan kamus), tetapi editor NotePad tidak.

Kompleksitas tugas CL disebabkan oleh fakta bahwa NL adalah sistem tanda multi-level kompleks yang muncul untuk pertukaran informasi antara orang-orang, yang dikembangkan dalam proses aktivitas praktis manusia, dan terus berubah sehubungan dengan aktivitas ini. . Kesulitan lain dalam pengembangan metode CL (dan kesulitan mempelajari SL dalam kerangka linguistik) dikaitkan dengan keragaman bahasa alami, perbedaan yang signifikan dalam kosa kata, morfologi, sintaksis, bahasa yang berbeda memberikan cara yang berbeda untuk mengekspresikan bahasa. arti yang sama.

2. Fitur sistem NL: level dan koneksi

Objek pemroses linguistik adalah teks-teks NL. Teks dipahami sebagai contoh pidato apa pun - lisan dan tulisan, dari genre apa pun, tetapi pada dasarnya CL menganggap teks tertulis. Teks memiliki satu dimensi, struktur linier, dan juga membawa makna tertentu, sedangkan bahasa bertindak sebagai sarana untuk mengubah makna yang ditransmisikan menjadi teks (sintesis pidato) dan sebaliknya (analisis pidato). Teks terdiri dari unit-unit yang lebih kecil, dan ada beberapa cara untuk membagi (membagi) teks menjadi unit-unit yang memiliki tingkat yang berbeda.

Keberadaan level-level berikut secara umum diakui:

Tingkat kalimat (pernyataan) - tingkat sintaksis;

· Leksiko-morfologis homonimi (jenis yang paling umum) terjadi ketika bentuk kata dari dua leksem yang berbeda bertepatan, misalnya, ayat- kata kerja dalam maskulin tunggal dan kata benda dalam kasus tunggal, nominatif),

· Homonimi sintaksis menandakan ambiguitas dalam struktur sintaksis, yang mengarah ke beberapa interpretasi: Siswa dari Lvov pergi ke Kyiv,penerbangan pesawat terbang bisa menjadi berbahaya(contoh terkenal Chomsky), dll.

3. Pemodelan dalam linguistik komputasi

Pengembangan prosesor linguistik (LP) melibatkan deskripsi sifat linguistik dari teks NL yang diproses, dan deskripsi ini disusun sebagai model bahasa. Seperti dalam pemodelan dalam matematika dan pemrograman, model dipahami sebagai beberapa sistem yang mencerminkan sejumlah sifat penting dari fenomena yang dimodelkan (yaitu, NL) dan karena itu memiliki kesamaan struktural atau fungsional.

Model bahasa yang digunakan dalam PA biasanya dibangun atas dasar teori yang dibuat oleh ahli bahasa dengan mempelajari berbagai teks dan berdasarkan intuisi linguistik mereka (introspeksi). Apa kekhususan model KL? Fitur-fitur berikut dapat dibedakan:

Formalitas dan, pada akhirnya, kemampuan algoritme;

Fungsionalitas (tujuan pemodelan adalah untuk mereproduksi fungsi bahasa sebagai "kotak hitam", tanpa membangun model yang akurat untuk sintesis dan analisis ucapan manusia);

Keumuman model, yaitu, memperhitungkan sekumpulan teks yang agak besar;

· Validitas eksperimental, yang melibatkan pengujian model pada teks yang berbeda;

· Ketergantungan pada kamus sebagai komponen wajib model.

Kompleksitas SL, deskripsi dan pemrosesannya mengarah pada pembagian proses ini ke dalam tahap-tahap terpisah yang sesuai dengan tingkat bahasa. Kebanyakan piringan hitam modern adalah tipe modular, di mana setiap tingkat analisis atau sintesis linguistik sesuai dengan yang terpisah. modul prosesor. Secara khusus, dalam kasus analisis teks, modul LP individual melakukan:

Analisis Graphematic, yaitu menyoroti bentuk kata dalam teks (transisi dari simbol ke kata);

Analisis morfologis - transisi dari bentuk kata ke bentuk mereka lemma(bentuk kamus leksem) atau dasar-dasar(bagian inti kata, dikurangi morfem infleksional);

Analisis sintaksis, yaitu mengidentifikasi struktur gramatikal kalimat teks;

Analisis semantik dan pragmatis, yang menentukan makna frasa dan reaksi yang sesuai dari sistem di mana LP bekerja.

Skema interaksi yang berbeda dari modul-modul ini dimungkinkan (pekerjaan berurutan atau analisis interleaved paralel), namun, level individu - morfologi, sintaksis, dan semantik masih diproses oleh mekanisme yang berbeda.

Dengan demikian, LP dapat dianggap sebagai konverter multi-tahap yang, dalam kasus analisis teks, menerjemahkan setiap kalimatnya ke dalam representasi internal maknanya, dan sebaliknya dalam kasus sintesis. Model bahasa yang sesuai dapat disebut struktural.

Meskipun model CL yang lengkap memerlukan mempertimbangkan semua level utama bahasa dan ketersediaan modul yang sesuai, ketika memecahkan beberapa masalah yang diterapkan, dimungkinkan untuk melakukannya tanpa representasi level individu dalam LP. Misalnya, dalam program CL eksperimental awal, teks yang diproses termasuk dalam area masalah yang sangat sempit (dengan kumpulan kata yang terbatas dan urutan kata yang ketat), sehingga pengenalan kata dapat menggunakan huruf awalnya, menghilangkan tahapan analisis morfologis dan sintaksis.

Contoh lain dari model tereduksi, yang sekarang cukup sering digunakan, adalah model bahasa frekuensi simbol dan kombinasinya (bigram, trigram, dll.) dalam teks NL tertentu. Seperti model statistik menampilkan informasi linguistik pada tingkat karakter (huruf) teks, dan itu cukup, misalnya, untuk mendeteksi kesalahan ketik dalam teks atau untuk mengenali afiliasi linguistiknya. Model serupa berdasarkan statistik kata-kata individual dan kemunculannya bersama dalam teks (bigram, trigram kata) digunakan, misalnya, untuk menyelesaikan ambiguitas leksikal atau menentukan bagian kata dari suatu kata (dalam bahasa seperti bahasa Inggris) .

Perhatikan bahwa itu mungkin model struktural-statistik, di mana statistik tertentu diperhitungkan saat menyajikan tingkat individu NL - kata-kata, konstruksi sintaksis, dll.

Dalam LP tipe modular, pada setiap tahap analisis atau sintesis teks, model yang sesuai (morfologi, sintaksis, dll.) digunakan.

Model morfologi analisis bentuk kata yang ada di CL berbeda terutama dalam parameter berikut:

Hasil karya berupa lemma atau batang dengan sekumpulan ciri morfologis (jenis kelamin, jumlah, kasus, tipe, orang, dsb.) dari bentuk kata tertentu;

metode analisis - berdasarkan kamus bentuk kata bahasa atau kamus dasar, atau metode non-kamus;

· kemungkinan pengolahan bentuk kata dari leksem yang tidak termasuk dalam kamus.

Dalam sintesis morfologi, data awal adalah leksem dan karakteristik morfologis spesifik dari bentuk kata yang diminta dari leksem yang diberikan; dimungkinkan juga untuk meminta sintesis semua bentuk leksem yang diberikan. Hasil analisis morfologi dan sintesis umumnya ambigu.

Untuk memodelkan sintaks dalam kerangka CL, sejumlah besar ide dan metode yang berbeda telah diusulkan yang berbeda dalam cara sintaksis bahasa dijelaskan, cara informasi ini digunakan dalam analisis atau sintesis kalimat SL, dan juga cara struktur sintaksis kalimat itu disajikan. Sangat mungkin secara kondisional untuk memilih tiga pendekatan utama untuk membuat model: pendekatan generatif yang kembali ke ide-ide Chomsky, pendekatan yang kembali ke ide-ide I. Melchuk dan diwakili oleh model Teks Arti, juga sebagai pendekatan di mana upaya-upaya tertentu dilakukan untuk mengatasi keterbatasan dari dua pendekatan pertama, khususnya, teori kelompok sintaksis.

Dalam kerangka pendekatan generatif, analisis sintaksis biasanya dilakukan atas dasar tata bahasa bebas konteks formal yang menggambarkan struktur frase kalimat, atau atas dasar beberapa perluasan tata bahasa bebas konteks. Tata bahasa ini melanjutkan dari pembagian linier berurutan dari sebuah kalimat menjadi frasa (konstruksi sintaksis, misalnya, frasa kata benda) dan oleh karena itu mencerminkan secara bersamaan struktur sintaksis dan liniernya. Struktur sintaksis hierarki kalimat NL yang diperoleh sebagai hasil analisis dijelaskan pohon komponen, yang daunnya berisi kata-kata kalimat, subpohon sesuai dengan konstruksi sintaksis (frasa) yang termasuk dalam kalimat, dan busur mengekspresikan hubungan bersarang dari konstruksi.

Pendekatan yang dipertimbangkan dapat mencakup tata bahasa jaringan, yang merupakan perangkat untuk menggambarkan sistem bahasa dan untuk menetapkan prosedur untuk menganalisis kalimat berdasarkan konsep otomat terbatas, misalnya, jaringan transisi yang diperluas ATN .

Sebagai bagian dari pendekatan kedua, cara yang lebih visual dan umum digunakan untuk mewakili struktur sintaksis kalimat - pohon ketergantungan. Node pohon berisi kata-kata kalimat (biasanya predikat kata kerja di akar), dan setiap busur pohon yang menghubungkan sepasang node ditafsirkan sebagai sintaksis. berpangkat lebih rendah koneksi antara mereka, dan arah koneksi sesuai dengan arah busur ini. Karena dalam hal ini hubungan sintaksis kata dan urutan kata dalam kalimat dipisahkan, maka atas dasar pohon subordinasi, putus dan non-proyektif konstruksi yang cukup sering terjadi dalam bahasa dengan urutan kata bebas.

Pohon komponen lebih cocok untuk menggambarkan bahasa dalam urutan kata yang kaku; representasi mereka dari konstruksi yang rusak dan non-proyektif memerlukan perpanjangan formalisme tata bahasa yang digunakan. Namun dalam kerangka pendekatan ini, konstruksi dengan hubungan non-bawahan lebih dideskripsikan secara alami. Pada saat yang sama, kesulitan umum untuk kedua pendekatan adalah penyajian anggota kalimat yang homogen.

Model sintaksis dalam semua pendekatan mencoba mempertimbangkan pembatasan yang dikenakan pada koneksi unit bahasa dalam pidato, sementara dalam satu atau lain cara konsep valensi digunakan. Valensi- ini adalah kemampuan sebuah kata atau unit lain dari suatu bahasa untuk melampirkan unit lain dengan cara sintaksis tertentu; aktan adalah kata atau konstruksi sintaksis yang mengisi valensi ini. Misalnya, kata kerja Rusia serahkan memiliki tiga valensi utama, yang dapat diungkapkan dengan kata-kata interogatif berikut: siapa? kepada siapa? apa? Dalam kerangka pendekatan generatif, valensi kata-kata (pertama-tama, kata kerja) dijelaskan terutama dalam bentuk bingkai khusus ( subkategorisasi bingkai), dan dalam kerangka pendekatan pohon ketergantungan, sebagai model manajemen.

Model semantik bahasa adalah yang paling tidak berkembang dalam kerangka CL. Untuk analisis semantik kalimat, yang disebut tata bahasa kasus dan kasus semantik(valensi), atas dasar itu semantik kalimat digambarkan melalui koneksi kata utama (kata kerja) dengan aktan semantiknya, yaitu melalui kasus semantik. Misalnya, kata kerja serahkan dijelaskan oleh kasus semantik memberi(agen), penerima dan mentransfer objek.

Untuk mewakili semantik seluruh teks, biasanya digunakan dua formalisme yang setara secara logis (keduanya dijelaskan secara rinci dalam kerangka AI):

· Predikat rumus kalkulus mengekspresikan properti, keadaan, proses, tindakan dan hubungan;

· Jaringan semantik diberi label grafik di mana simpul sesuai dengan konsep, dan simpul sesuai dengan hubungan di antara mereka.

Adapun model pragmatik dan wacana, yang memungkinkan pemrosesan tidak hanya kalimat individu, tetapi juga teks secara keseluruhan, ide-ide Van Dyck terutama digunakan untuk membangunnya. Salah satu model yang langka dan berhasil adalah model sintesis diskursif dari teks-teks terhubung. Model seperti itu harus mempertimbangkan referensi anaforis dan fenomena tingkat wacana lainnya.

Sebagai penutup karakterisasi model bahasa dalam kerangka PA, mari kita membahas lebih lanjut teori model linguistik "Teks Makna", dan di dalamnya banyak ide yang bermanfaat muncul yang mendahului zamannya dan masih relevan.

Sesuai dengan teori ini, NL dianggap sebagai jenis konverter khusus yang melakukan pemrosesan makna yang diberikan ke dalam teks yang sesuai dan teks yang diberikan ke dalam makna yang sesuai. Makna dipahami sebagai invarian dari semua transformasi sinonim dari teks. Isi dari fragmen ucapan yang terhubung tanpa pembagian menjadi frasa dan bentuk kata ditampilkan sebagai representasi semantik khusus yang terdiri dari dua komponen: grafik semantik dan informasi tentang organisasi makna yang komunikatif.

Sebagai ciri khas teori harus ditunjukkan:

o orientasi pada sintesis teks (kemampuan menghasilkan teks yang benar dianggap sebagai kriteria utama kompetensi bahasa);

o multi-level, sifat modular model, dan level utama bahasa dibagi menjadi level permukaan dan dalam: mereka berbeda, misalnya, dalam(semanisasi) dan permukaan sintaksis ("murni"), serta tingkat morfologi permukaan dan morfologi dalam;

o sifat integral model bahasa; menyimpan informasi yang disajikan di setiap level oleh modul terkait yang melakukan transisi dari level ini ke level berikutnya;

o sarana khusus untuk menggambarkan sintaksis (aturan untuk menghubungkan unit) di setiap tingkat; untuk menggambarkan kompatibilitas leksikal, satu set diusulkan fungsi leksikal, dengan bantuan yang merumuskan aturan parafrase sintaksis;

o penekanan pada kosakata daripada tata bahasa; kamus menyimpan informasi yang berkaitan dengan tingkat bahasa yang berbeda; khususnya, untuk analisis sintaksis, model manajemen kata digunakan yang menggambarkan valensi sintaksis dan semantiknya.

Teori dan model bahasa ini telah menemukan perwujudannya dalam sistem terjemahan mesin ETAP.

4. Sumber daya linguistik

Pengembangan prosesor linguistik membutuhkan penyajian informasi linguistik yang tepat tentang NL yang diproses. Informasi ini ditampilkan dalam berbagai kamus komputer dan tata bahasa.

kamus adalah bentuk paling tradisional dari representasi informasi leksikal; mereka berbeda dalam unitnya (biasanya kata atau frasa), struktur, cakupan kosakata (kamus istilah dari area masalah tertentu, kamus kosakata umum, dll.). Unit kamus disebut entri kamus, ini memberikan informasi tentang token. Homonim leksikal biasanya disajikan dalam entri kamus yang berbeda.

Kamus morfologi yang digunakan untuk analisis morfologi adalah yang paling umum di CL, entri kamus mereka berisi informasi morfologis tentang kata yang sesuai - bagian dari ucapan, kelas infleksi (untuk bahasa infleksi), daftar arti kata, dll. Tergantung pada organisasi pengolah linguistik dalam kamus informasi tata bahasa juga dapat ditambahkan, seperti pola kontrol kata.

Ada kamus yang memberikan lebih banyak informasi tentang kata-kata. Misalnya, model linguistik "Arti-Teks" pada dasarnya bergantung pada kamus penjelasan-kombinatorial, dalam entri kamus yang, selain informasi morfologis, sintaksis dan semantik (valensi sintaksis dan semantik), disajikan informasi tentang kompatibilitas leksikal kata ini.

Sejumlah prosesor linguistik menggunakan kamus sinonim. Jenis kamus yang relatif baru - kamus paronim, yaitu kata-kata yang secara lahiriah serupa tetapi berbeda maknanya, misalnya, orang asing dan asing, mengedit dan referensi .

Jenis sumber leksikal lainnya - dasar frase, di mana frasa paling khas dari bahasa tertentu dipilih. Basis frasa seperti itu dalam bahasa Rusia (sekitar satu juta unit) adalah inti dari sistem CrossLexic.

Jenis sumber leksikal yang lebih kompleks adalah tesauri dan ontologi. Tesaurus adalah kamus semantik, yaitu kamus di mana hubungan semantik kata disajikan - sinonim, hubungan jenis kelamin (kadang-kadang disebut hubungan di atas-bawah), sebagian-keseluruhan, asosiasi. Penyebaran tesauri dikaitkan dengan solusi masalah temu kembali informasi.

Konsep ontologi erat kaitannya dengan konsep tesaurus. Ontologi adalah seperangkat konsep, entitas dari bidang pengetahuan tertentu, yang berfokus pada penggunaan ganda untuk berbagai tugas. Ontologi dapat dibuat berdasarkan kosakata yang ada dalam bahasa - dalam hal ini disebut linguistik dan.

Ontologi linguistik semacam itu dianggap sebagai sistem WordNet - sumber leksikal besar di mana kata-kata bahasa Inggris dikumpulkan: kata benda, kata sifat, kata kerja dan kata keterangan, dan koneksi semantik mereka dari beberapa jenis disajikan. Untuk setiap bagian pidato yang ditunjukkan, kata-kata dikelompokkan ke dalam kelompok sinonim ( synsets), di mana hubungan antonim, hiponimi (hubungan genus-spesies), meronimi (hubungan sebagian-keseluruhan) ditetapkan. Sumber daya berisi sekitar 25 ribu kata, jumlah tingkat hierarki untuk hubungan genus-spesies rata-rata 6-7, terkadang mencapai 15. Tingkat hierarki atas membentuk ontologi umum - sistem konsep dasar tentang dunia.

Menurut skema WordNet bahasa Inggris, sumber daya leksikal serupa untuk bahasa Eropa lainnya dibangun, disatukan dengan nama umum EuroWordNet.

Jenis sumber linguistik yang sama sekali berbeda adalah Tata bahasa, yang jenisnya bergantung pada model sintaks yang digunakan dalam prosesor. Dalam pendekatan pertama, tata bahasa adalah seperangkat aturan yang mengungkapkan sifat sintaksis umum kata dan kelompok kata. Jumlah total aturan tata bahasa juga tergantung pada model sintaks, bervariasi dari beberapa puluh hingga beberapa ratus. Intinya, masalah seperti itu memanifestasikan dirinya di sini sebagai hubungan antara tata bahasa dan kosa kata dalam model bahasa: semakin banyak informasi yang disajikan dalam kamus, semakin pendek tata bahasanya dan sebaliknya.

Perlu dicatat bahwa pembangunan kamus komputer, tesauri dan tata bahasa adalah pekerjaan yang banyak dan memakan waktu, kadang-kadang bahkan lebih memakan waktu daripada pengembangan model linguistik dan prosesor yang sesuai. Oleh karena itu, salah satu tugas bawahan PA adalah otomatisasi konstruksi sumber daya linguistik.

Kamus komputer sering kali dibentuk dengan mengonversi kamus teks biasa, tetapi seringkali pekerjaan yang jauh lebih rumit dan melelahkan diperlukan untuk membuatnya. Ini biasanya terjadi ketika membangun kamus dan tesauri untuk bidang ilmiah yang berkembang pesat - biologi molekuler, ilmu komputer, dll. Bahan sumber untuk mengekstrak informasi linguistik yang diperlukan dapat berupa koleksi dan kumpulan teks.

Korpus teks adalah kumpulan teks yang dikumpulkan menurut prinsip keterwakilan tertentu (berdasarkan genre, kepengarangan, dll.), di mana semua teks ditandai, yaitu, mereka dilengkapi dengan beberapa markup linguistik (anotasi) - morfologis , aksen, sintaksis, dll. Saat ini, setidaknya ada seratus korpora berbeda - untuk NL yang berbeda dan dengan tanda yang berbeda, di Rusia yang paling terkenal adalah Korpus Nasional Bahasa Rusia.

Korpora berlabel dibuat oleh ahli bahasa dan digunakan baik untuk penelitian linguistik maupun untuk model dan prosesor penyetelan (pelatihan) yang digunakan dalam CL menggunakan metode pembelajaran mesin matematika yang terkenal. Dengan demikian, pembelajaran mesin digunakan untuk menyiapkan metode untuk menyelesaikan ambiguitas leksikal, mengenali bagian ucapan, dan menyelesaikan referensi anaforis.

Karena korpora dan kumpulan teks selalu terbatas dalam hal fenomena linguistik yang diwakili di dalamnya (dan korpora, di samping itu, dibuat untuk waktu yang agak lama), akhir-akhir ini teks Internet semakin dianggap sebagai sumber linguistik yang lebih lengkap. Tidak diragukan lagi, Internet adalah sumber sampel pidato modern yang paling representatif, tetapi penggunaannya sebagai korpus membutuhkan pengembangan teknologi khusus.

5. Aplikasi linguistik komputasional

Bidang aplikasi linguistik komputasi terus berkembang, jadi kami akan mengkarakterisasi di sini masalah terapan paling terkenal yang diselesaikan oleh alatnya.

Terjemahan mesin- aplikasi CL paling awal, yang dengannya area ini sendiri muncul dan berkembang. Program penerjemahan pertama dibangun lebih dari 50 tahun yang lalu dan didasarkan pada strategi penerjemahan kata demi kata yang paling sederhana. Namun, segera disadari bahwa terjemahan mesin membutuhkan model linguistik lengkap yang memperhitungkan semua tingkatan bahasa, hingga semantik dan pragmatik, yang berulang kali menghambat perkembangan arah ini. Model yang cukup lengkap digunakan dalam sistem domestik ETAP, yang menerjemahkan teks-teks ilmiah dari bahasa Prancis ke bahasa Rusia.

Namun, perhatikan bahwa dalam kasus terjemahan ke dalam bahasa terkait, misalnya, ketika menerjemahkan dari Spanyol ke Portugis atau dari Rusia ke Ukraina (yang memiliki banyak kesamaan dalam sintaks dan morfologi), prosesor dapat diimplementasikan berdasarkan yang disederhanakan. model, misalnya, berdasarkan semua strategi terjemahan kata demi kata yang sama.

Saat ini, ada berbagai macam sistem terjemahan komputer (dengan kualitas yang bervariasi), dari proyek penelitian internasional yang besar hingga penerjemah otomatis komersial. Yang menarik adalah proyek terjemahan multibahasa, menggunakan bahasa perantara di mana arti dari frasa yang diterjemahkan dikodekan. Arah modern lainnya adalah terjemahan statistik, berdasarkan statistik terjemahan kata dan frasa (ide-ide ini, misalnya, diimplementasikan dalam penerjemah mesin pencari Google).

Namun terlepas dari beberapa dekade pengembangan seluruh area ini, secara umum, tugas penerjemahan mesin masih sangat jauh dari penyelesaian sepenuhnya.

Aplikasi lain yang cukup lama dari linguistik komputasi adalah pencarian informasi dan tugas terkait untuk mengindeks, meringkas, mengklasifikasikan, dan mengkategorikan dokumen.

Pencarian teks lengkap dokumen dalam database besar dokumen (terutama ilmiah, teknis, bisnis), biasanya dilakukan atas dasar mereka cari gambar, yang dipahami sebagai himpunan kata kunci- kata-kata yang mencerminkan topik utama dokumen. Pada awalnya, hanya kata-kata individual dari SL yang dianggap sebagai kata kunci, dan pencarian dilakukan tanpa memperhitungkan infleksinya, yang tidak kritis untuk bahasa dengan infleksi lemah seperti bahasa Inggris. Untuk bahasa infleksi, misalnya, untuk bahasa Rusia, perlu menggunakan model morfologis yang memperhitungkan infleksi.

Permintaan pencarian juga disajikan sebagai kumpulan kata, dokumen yang sesuai (relevan) ditentukan berdasarkan kesamaan permintaan dan gambar pencarian dokumen. Membuat gambar pencarian dokumen melibatkan pengindeksan teksnya, yaitu menyoroti kata-kata kunci di dalamnya. Karena sangat sering topik dan isi dokumen ditampilkan secara lebih akurat bukan dengan kata-kata individual, tetapi dengan frasa, frasa mulai dianggap sebagai kata kunci. Ini secara signifikan memperumit prosedur pengindeksan dokumen, karena perlu menggunakan berbagai kombinasi kriteria statistik dan linguistik untuk memilih frasa yang bermakna dalam teks.

Faktanya, pencarian informasi terutama menggunakan pola vektor teks(kadang-kadang disebut tas dari kata-kata- sekantong kata), di mana dokumen diwakili oleh vektor (set) kata kuncinya. Mesin pencari Internet modern juga menggunakan model ini, mengindeks teks dengan kata-kata yang digunakan di dalamnya (pada saat yang sama, mereka menggunakan prosedur peringkat yang sangat canggih untuk mengembalikan dokumen yang relevan).

Model teks yang ditentukan (dengan beberapa komplikasi) juga digunakan dalam masalah terkait pencarian informasi yang dipertimbangkan di bawah ini.

Teks abstrak- mengurangi volumenya dan mendapatkan ringkasannya - abstrak (konten terkontrak), yang membuatnya lebih cepat untuk mencari di koleksi dokumen. Abstrak umum juga dapat dibuat untuk beberapa dokumen yang terkait dengan topik.

Metode utama peringkasan otomatis masih merupakan pemilihan kalimat yang paling signifikan dari teks yang diabstraksi, di mana kata kunci teks biasanya dihitung terlebih dahulu dan koefisien signifikansi kalimat dari teks dihitung. Pilihan kalimat yang bermakna diperumit oleh tautan kalimat anaforis, yang pemutusannya tidak diinginkan - untuk menyelesaikan masalah ini, strategi tertentu untuk memilih kalimat sedang dikembangkan.

Tugas yang dekat dengan referensi - anotasi teks dokumen, yaitu menyusun anotasinya. Dalam bentuknya yang paling sederhana, abstrak adalah daftar topik utama teks, yang prosedur pengindeksannya dapat digunakan untuk disorot.

Saat membuat banyak koleksi dokumen, tugasnya relevan klasifikasi dan kekelompokan teks untuk membuat kelas dokumen yang terkait dengan topik. Klasifikasi berarti menetapkan setiap dokumen ke kelas tertentu dengan parameter yang diketahui sebelumnya, dan pengelompokan berarti membagi satu set dokumen ke dalam cluster, yaitu, subset dari dokumen yang terkait secara tematis. Untuk mengatasi masalah ini, metode pembelajaran mesin digunakan, dan oleh karena itu tugas-tugas yang diterapkan ini disebut Penambangan Teks dan termasuk dalam arah ilmiah yang dikenal sebagai Penambangan Data, atau penambangan data.

Sangat dekat dengan masalah klasifikasi rubrik teks - penugasannya ke salah satu judul tematik yang diketahui sebelumnya (biasanya judul membentuk pohon hierarki topik).

Tugas klasifikasi menjadi lebih luas, diselesaikan, misalnya, ketika mengenali spam, dan aplikasi yang relatif baru adalah klasifikasi pesan SMS di perangkat seluler. Arah penelitian baru dan relevan untuk tugas umum pencarian informasi adalah pencarian dokumen multibahasa.

Tugas lain yang relatif baru terkait dengan pencarian informasi adalah pembentukan jawaban atas pertanyaan(Pertanyaan Menjawab). Tugas ini diselesaikan dengan menentukan jenis pertanyaan, mencari teks yang berpotensi berisi jawaban atas pertanyaan ini, dan mengekstraksi jawaban dari teks-teks tersebut.

Arah penerapan yang sama sekali berbeda, yang berkembang, meskipun perlahan, tetapi pasti, adalah otomatisasi persiapan dan pengeditan teks di EY. Salah satu aplikasi pertama ke arah ini adalah program untuk secara otomatis mendeteksi tanda hubung kata dan program untuk pemeriksaan teks ejaan (ejaan, atau koreksi otomatis). Terlepas dari kesederhanaan yang tampak dari masalah tanda hubung, solusi yang tepat untuk banyak NL (misalnya, bahasa Inggris) membutuhkan pengetahuan tentang struktur morfemik kata-kata dari bahasa yang sesuai, dan karenanya kamus yang sesuai.

Pengecekan ejaan telah lama diterapkan dalam sistem komersial dan bergantung pada kosakata dan model morfologi yang sesuai. Model sintaksis yang tidak lengkap juga digunakan, atas dasar yang agak sering semua kesalahan sintaksis (misalnya, kesalahan kesepakatan kata) terungkap. Pada saat yang sama, deteksi kesalahan yang lebih kompleks, misalnya, penyalahgunaan preposisi, belum diterapkan di koreksi otomatis. Banyak kesalahan leksikal juga tidak terdeteksi, khususnya kesalahan yang disebabkan oleh kesalahan ketik atau penyalahgunaan kata-kata yang serupa (misalnya, bobot bukannya berat). Dalam studi modern CL, metode diusulkan untuk deteksi otomatis dan koreksi kesalahan tersebut, serta beberapa jenis kesalahan gaya lainnya. Metode ini menggunakan statistik kemunculan kata dan frasa.

Tugas terapan yang dekat dengan mendukung persiapan teks adalah pengajaran bahasa alami, dalam kerangka arah ini, sistem komputer untuk pengajaran bahasa - Inggris, Rusia, dll. sering dikembangkan (sistem serupa dapat ditemukan di Internet). Biasanya, sistem ini mendukung studi aspek tertentu dari bahasa (morfologi, kosa kata, sintaksis) dan didasarkan pada model yang sesuai, misalnya, model morfologi.

Adapun studi kosa kata, analog elektronik kamus teks juga digunakan untuk ini (di mana, pada kenyataannya, tidak ada model bahasa). Namun, kamus komputer multifungsi juga sedang dikembangkan yang tidak memiliki analog teks dan ditujukan untuk berbagai pengguna - misalnya, kamus frasa Rusia Crosslexic. Sistem ini mencakup berbagai kosa kata - kata dan kombinasi kata yang dapat diterima, dan juga memberikan informasi tentang model manajemen kata, sinonim, antonim, dan korelasi semantik kata lainnya, yang jelas berguna tidak hanya bagi mereka yang belajar bahasa Rusia, tetapi juga untuk penutur asli.

Area aplikasi berikutnya yang layak disebutkan adalah generasi otomatis teks di EY. Pada prinsipnya, tugas ini dapat dianggap sebagai subtugas dari tugas terjemahan mesin yang telah dipertimbangkan di atas, namun, dalam kerangka arahan, ada sejumlah tugas khusus. Tugas semacam itu adalah pembuatan multibahasa, yaitu konstruksi otomatis dalam beberapa bahasa dokumen khusus - formula paten, instruksi pengoperasian untuk produk teknis atau sistem perangkat lunak, berdasarkan spesifikasinya dalam bahasa formal. Model bahasa yang cukup rinci digunakan untuk memecahkan masalah ini.

Tugas terapan yang semakin relevan, sering disebut sebagai Text Mining, adalah mengekstraksi informasi dari teks, atau Ekstraksi Informasi, yang diperlukan saat memecahkan masalah analitik ekonomi dan industri. Untuk melakukan ini, objek tertentu diidentifikasi dalam tes NL - entitas bernama (nama, kepribadian, nama geografis), hubungan dan peristiwa yang terkait dengannya. Sebagai aturan, ini diterapkan berdasarkan penguraian sebagian teks, yang memungkinkan pemrosesan umpan berita dari kantor berita. Karena tugasnya cukup kompleks tidak hanya secara teoritis, tetapi juga secara teknologi, penciptaan sistem yang bermakna untuk mengekstraksi informasi dari teks layak dilakukan dalam kerangka perusahaan komersial.

Arahan Penambangan Teks juga mencakup dua tugas terkait lainnya - pemilihan opini (Penambangan Opini) dan penilaian nada suara teks (Analisis Sentimen), yang menarik perhatian semakin banyak peneliti. Tugas pertama mencari (di blog, forum, toko online, dll.) untuk pendapat pengguna tentang produk dan objek lain, dan menganalisis pendapat ini. Tugas kedua dekat dengan tugas klasik analisis isi teks komunikasi massa; itu mengevaluasi nada umum pernyataan.

Aplikasi lain yang layak disebut adalah dukungan dialog dengan pengguna di NL dalam kerangka sistem perangkat lunak informasi apa pun. Paling sering, masalah ini diselesaikan untuk basis data khusus - dalam hal ini, bahasa kueri cukup terbatas (secara leksikal dan tata bahasa), yang memungkinkan penggunaan model bahasa yang disederhanakan. Permintaan ke pangkalan, dirumuskan dalam NL, diterjemahkan ke dalam bahasa formal, setelah itu pencarian informasi yang diperlukan dilakukan dan frasa respons yang sesuai dibuat.

Sebagai yang terakhir dalam daftar aplikasi CL kami (tetapi tidak penting) kami tunjukkan pengenalan suara dan sintesis. Kesalahan pengenalan yang tak terhindarkan muncul dalam tugas-tugas ini dikoreksi dengan metode otomatis berdasarkan kamus dan pengetahuan linguistik tentang morfologi. Pembelajaran mesin juga akan diterapkan di area ini.

Kesimpulan

Linguistik komputasional menunjukkan hasil yang cukup nyata dalam berbagai aplikasi untuk pemrosesan teks secara otomatis dalam NL. Pengembangan lebih lanjut tergantung pada munculnya aplikasi baru dan pengembangan independen dari berbagai model bahasa, di mana banyak masalah belum terpecahkan. Yang paling berkembang adalah model analisis morfologi dan sintesis. Model sintaks belum dibawa ke tingkat modul yang stabil dan efisien, meskipun sejumlah besar formalisme dan metode yang diusulkan. Bahkan yang kurang dipelajari dan diformalkan adalah model tingkat semantik dan pragmatik, meskipun pemrosesan wacana secara otomatis sudah diperlukan dalam sejumlah aplikasi. Perhatikan bahwa alat linguistik komputasi yang sudah ada, penggunaan pembelajaran mesin dan corpora teks, dapat secara signifikan memajukan solusi masalah ini.

literatur

1. Baeza-Yates, R. dan Ribeiro-Neto, B. Pengambilan Informasi Modern, Adison Wesley, 1999.

2. Bateman, J., Zock M. Generasi Bahasa Alami. Dalam: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, hal.304.

3. Biber, D., Conrad S., dan Reppen D. Corpus Linguistik. Menyelidiki Struktur dan Penggunaan Bahasa. Cambridge University Press, Cambridge, 1998.

4. Bolshakov, I. A., Linguistik putasional Gelbukh. Model, Sumber Daya, Aplikasi. Meksiko, IPN, 2004.

5. Brown P., Pietra S., Mercer R., Pietra V. Matematika Terjemahan Mesin Statistik. // Linguistik Komputasi, Vol. 19(2): 263-3

6. Penguraian Carroll J R. Dalam: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, hal. 233-248.

7. Chomsky, N. Struktur Sintaksis. Den Haag: Mouton, 1957.

8. Grishman R. Ekstraksi informasi. Dalam: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, hal. 545-559.

9. Harabagiu, S., Moldovan D. Menjawab Pertanyaan. Dalam: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, hal. 560-582.

10. Hearst, M. A. Penemuan Otomatis Hubungan WordNet. Dalam: Fellbaum, C. (ed.) WordNet: Database Leksikal Elektronik. MIT Press, Cambridge, 1998, hal.131-151.

11. Hirst, G. Ontologi dan Leksikon. In.: Handbook on Ontologies in Niformation Systems. Berlin, Springer, 2003.

12. Jacquemin C., Bourigault D. Ekstraksi istilah dan pengindeksan otomatis // Mitkov R. (ed.): Buku Pegangan Linguistik Komputasi. Oxford University Press, 2003. hal. 599-615.

13. Kilgarriff, A., G. Grefenstette. Pengantar Edisi Khusus di Web sebagai linguistik putasional, V. 29, No. 3, 2003, hal. 333-347.

14. Manning, Bab. D., H. Schütze. Dasar-dasar Pemrosesan Bahasa Alami Statistik. MIT Pers, 1999.

15. Akuisisi Pengetahuan Lexical Matsumoto Y. Dalam: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, hal. 395-413.

16. Buku Pegangan Oxford tentang Linguistik Komputasi. R.Mitkov (Ed.). Pers Universitas Oxford, 2005.

17. Oakes, M., Paice C. D. Ekstraksi istilah untuk abstraksi otomatis. Kemajuan Terbaru dalam Terminologi Komputasi. D. Bourigault, C. Jacquemin dan M. L "Homme (Eds), John Benjamins Publishing Company, Amsterdam, 2001, p.353-370.

18. Pedersen, T. Sebuah pohon keputusan bigrams adalah prediktor yang akurat dari indra kata. Prok. Pertemuan Tahunan ke-2 NAC ACL, Pittsburgh, PA, 2001, hlm. 79-86.

19. Samuelsson C. Metode Statistik. Dalam: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, hal. 358-375.

20. Salton, G. Pemrosesan Teks Otomatis: Transformasi, Analisis, dan Pengambilan Informasi oleh Komputer. Membaca, MA: Addison-Wesley, 1988.

21. Somers, H. Terjemahan Mesin: Perkembangan Terbaru. Dalam: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, hal. 512-528.

22. Strzalkowski, T. (ed.) Pengambilan Informasi Bahasa Alami. Kluwer, 19 hal.

23. Woods W. A. ​​​​Transition Network Grammers for Natural language Analysis/ Communications of the ACM, V. 13, 1970, No. 10, p. 591-606.

24. Word Net: Database Lexical Elektronik. /Christian Fellbaum. Cambridge, MIT Press, 1998.

25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Saran Kolokasi Otomatis dalam Penulisan Akademik // Prosiding Makalah Singkat Konferensi ACL 2010, 2010.

26. dan lain-lain Dukungan linguistik dari sistem ETAP-2. Moskow: Nauka, 1989.

27. dll. Teknologi analisis data: Data Mining, Visual Mining, Text Mining, OLAP - 2nd ed. - St. Petersburg: BHV-Petersburg, 2008.

28. Bolshakov, Kosakata - kamus elektronik besar kombinasi dan koneksi semantik kata-kata Rusia. // Komp. linguistik dan kecerdasan. teknologi: Prosiding int. Kon. "Dialog 2009". Terbitan: RGGU, 2009, hlm. 45-50.

29. Bolshakova E. I., deteksi Bolshakov dan koreksi otomatis malapropisme Rusia // NTI. Ser. 2, No. 5, 2007, hlm. 27-40.

30. Wang, Kinch V. Sebuah strategi untuk memahami teks yang koheren.// Baru dalam linguistik asing. Masalah. XXIII– M., Kemajuan, 1988, hlm. 153-211.

31. Vasiliev V. G., Krivenko M. P. Metode pemrosesan teks otomatis. – M.: IPI RAN, 2008.

32. Vinograd T. Program yang memahami bahasa alami - M., world, 1976.

33. Struktur bahasa alami yang halus dalam sistem komunikasi otomatis. -M., Nauka, 1985.

34. Gusev, V.D., kamus paronim Salomatina: versi 2. // NTI, Ser. 2, No. 7, 2001, hlm. 26-33.

35. Zakharov - ruang sebagai korpus bahasa // Linguistik Komputasi dan Teknologi Cerdas: Prosiding Int. Dialog Konferensi '2005 / Ed. ,- M.: Nauka, 2005, hlm. 166-171.

36. Kasevich dari linguistik umum. -M., Nauka, 1977.

37. Pemahaman Leontief tentang teks: Sistem, model, sumber: Textbook - M.: Academy, 2006.

38. Kamus Ensiklopedis Linguistik / Ed. V. N. Yartseva, Moskow: Encyclopedia Soviet, 1990, 685 hal.

39., Saliy untuk pengindeksan dan kategorisasi otomatis: pengembangan, struktur, pemeliharaan. // NTI, Ser. 2, No. 1, 1996.

40. Luger J. Kecerdasan buatan: strategi dan metode untuk memecahkan masalah yang kompleks. M., 2005.

41. McQueen K. Strategi diskursif untuk sintesis teks dalam bahasa alami // Baru dalam linguistik asing. Masalah. XXIV. M.: Kemajuan, 1989, hlm. 311-356.

42. Teori Melchuk Model Linguistik “MAKNA” TEKS”. -M., Nauka, 1974.

43. Korpus Nasional Bahasa Rusia. http://******

44. Khoroshevsky VF OntosMiner: sebuah keluarga sistem untuk mengekstrak informasi dari koleksi dokumen multibahasa // Konferensi Nasional Kesembilan tentang Kecerdasan Buatan dengan Partisipasi Internasional KII-2004. T. 2. - M.: Fizmatlit, 2004, hlm. 573-581.

perangkat lunak linguistik statistik linguistik

Sejarah perkembangan linguistik komputasi

Proses pembentukan dan pembentukan linguistik modern sebagai ilmu bahasa alami merupakan sejarah panjang perkembangan pengetahuan linguistik. Pengetahuan linguistik didasarkan pada unsur-unsur, yang pembentukannya terjadi dalam proses kegiatan, terkait erat dengan pengembangan struktur pidato lisan, munculnya, pengembangan lebih lanjut dan peningkatan menulis, belajar menulis, serta interpretasi. dan decoding teks.

Bahasa alami sebagai objek linguistik menempati tempat sentral dalam ilmu ini. Dalam proses perkembangan bahasa, pemikiran tentangnya juga berubah. Jika sebelumnya tidak ada kepentingan khusus yang melekat pada organisasi internal bahasa, dan itu dianggap, pertama-tama, dalam konteks hubungannya dengan dunia luar, maka, mulai dari akhir abad ke-19 - awal abad ke-20. , peran khusus diberikan pada struktur formal internal bahasa. Selama periode inilah ahli bahasa Swiss yang terkenal Ferdinand de Saussure mengembangkan dasar-dasar ilmu seperti semiologi dan linguistik struktural, dan dirinci dalam bukunya A Course in General Linguistics (1916).

Ilmuwan memiliki gagasan untuk menganggap bahasa sebagai mekanisme tunggal, sistem tanda yang integral, yang pada gilirannya memungkinkan untuk menggambarkan bahasa secara matematis. Saussure adalah orang pertama yang mengajukan pendekatan struktural bahasa, yaitu deskripsi bahasa dengan mempelajari hubungan antar unit-unitnya. Dengan satuan, atau "tanda", ia memahami kata yang menggabungkan arti dan bunyi. Konsep yang dikemukakan oleh ilmuwan Swiss tersebut didasarkan pada teori bahasa sebagai sistem tanda, yang terdiri dari tiga bagian: bahasa (dari langue Prancis), pidato (dari parole Prancis) dan aktivitas bicara (dari langage Prancis).

Ilmuwan itu sendiri mendefinisikan ilmu yang diciptakannya, semiologi, sebagai "ilmu yang mempelajari kehidupan tanda-tanda dalam kerangka kehidupan masyarakat". Karena bahasa adalah sistem tanda, dalam mencari jawaban atas pertanyaan tentang tempat apa yang diduduki linguistik di antara ilmu-ilmu lain, Saussure berpendapat bahwa linguistik adalah bagian dari semiologi. Secara umum diterima bahwa filolog Swiss yang meletakkan dasar teoretis dari arah baru dalam linguistik, menjadi pendiri, "bapak" linguistik modern.

Konsep yang diajukan oleh F. de Saussure dikembangkan lebih lanjut dalam karya-karya banyak ilmuwan terkemuka: di Denmark - L. Elmslev, di Republik Ceko - N. Trubetskoy, di AS - L. Bloomfield, Z. Harris, N. Chomsky. Adapun negara kita, di sini linguistik struktural memulai perkembangannya pada periode waktu yang hampir sama dengan di Barat - pada pergantian abad ke-19-20. - dalam karya F. Fortunatov dan I. Baudouin de Courtenay. Perlu dicatat bahwa I. Baudouin de Courtenay bekerja erat dengan F. de Saussure. Jika Saussure meletakkan dasar teoretis linguistik struktural, maka Baudouin de Courtenay dapat dianggap sebagai orang yang meletakkan dasar bagi penerapan praktis metode yang diusulkan oleh ilmuwan Swiss. Dialah yang mendefinisikan linguistik sebagai ilmu yang menggunakan metode statistik dan ketergantungan fungsional, dan memisahkannya dari filologi. Pengalaman pertama menerapkan metode matematika dalam linguistik adalah fonologi - ilmu tentang struktur bunyi suatu bahasa.

Perlu dicatat bahwa postulat-postulat yang dikemukakan oleh F. de Saussure dapat direfleksikan dalam masalah-masalah linguistik yang relevan pada pertengahan abad ke-20. Selama periode inilah kecenderungan yang jelas menuju matematisasi ilmu bahasa diuraikan. Praktis di semua negara besar, perkembangan pesat ilmu pengetahuan dan teknologi komputer dimulai, yang pada gilirannya membutuhkan semakin banyak landasan linguistik baru. Hasil dari semua ini adalah konvergensi yang cepat antara eksak dan humaniora, serta interaksi aktif matematika dan linguistik, yang menemukan aplikasi praktis dalam memecahkan masalah ilmiah yang mendesak.

Pada 1950-an, di persimpangan ilmu-ilmu seperti matematika, linguistik, ilmu komputer dan kecerdasan buatan, arah ilmu baru muncul - linguistik komputasi (juga dikenal sebagai linguistik mesin atau pemrosesan teks otomatis dalam bahasa alami). Tahapan utama dalam pengembangan arah ini terjadi dengan latar belakang evolusi metode kecerdasan buatan. Dorongan kuat untuk pengembangan linguistik komputasi adalah penciptaan komputer pertama. Namun, dengan munculnya generasi baru komputer dan bahasa pemrograman di tahun 60-an, tahap baru yang mendasar dalam pengembangan ilmu ini dimulai. Perlu juga dicatat bahwa asal-usul linguistik komputasi kembali ke karya ahli bahasa Amerika terkenal N. Chomsky di bidang formalisasi struktur bahasa. Hasil penelitiannya, yang diperoleh di persimpangan linguistik dan matematika, menjadi dasar pengembangan teori bahasa dan tata bahasa formal (grammar generatif atau generatif), yang banyak digunakan untuk menggambarkan bahasa alami dan buatan, khususnya bahasa pemrograman. Untuk lebih tepatnya, teori ini cukup disiplin matematika. Ini dapat dianggap sebagai salah satu yang pertama dalam arah linguistik terapan seperti linguistik matematika.

Eksperimen pertama dan perkembangan pertama dalam linguistik komputasional berkaitan dengan pembuatan sistem terjemahan mesin, serta sistem yang mensimulasikan kemampuan bahasa manusia. Pada akhir 80-an, dengan munculnya dan perkembangan aktif Internet, ada pertumbuhan pesat dalam volume informasi teks yang tersedia dalam bentuk elektronik. Hal ini telah menyebabkan fakta bahwa teknologi pencarian informasi telah pindah ke tahap kualitatif baru perkembangannya. Ada kebutuhan untuk pemrosesan teks secara otomatis dalam bahasa alami, tugas dan teknologi yang sama sekali baru muncul. Para ilmuwan dihadapkan pada masalah seperti pemrosesan cepat dari aliran besar data tidak terstruktur. Untuk menemukan solusi untuk masalah ini, pengembangan dan penerapan metode statistik di bidang pengolah kata otomatis sangat penting. Dengan bantuan mereka menjadi mungkin untuk memecahkan masalah seperti membagi teks menjadi kelompok-kelompok yang disatukan oleh tema umum, menyoroti bagian-bagian tertentu dalam teks, dll. Selain itu, penggunaan metode statistik matematika dan pembelajaran mesin memungkinkan untuk memecahkan masalah pengenalan suara dan pembuatan mesin pencari.

Para ilmuwan tidak berhenti pada hasil yang dicapai: mereka terus menetapkan tujuan dan sasaran baru, untuk mengembangkan teknik dan metode penelitian baru. Semua ini mengarah pada fakta bahwa linguistik mulai bertindak sebagai ilmu terapan, menggabungkan sejumlah ilmu lain, peran utama di antaranya milik matematika dengan berbagai metode kuantitatifnya dan kemampuan untuk menggunakannya untuk pemahaman yang lebih dalam tentang fenomena. sedang dipelajari. Maka dimulailah pembentukan dan pengembangan linguistik matematika. Saat ini, ini adalah ilmu yang agak "muda" (telah ada selama sekitar lima puluh tahun), namun, meskipun "usianya sangat muda", ini adalah bidang pengetahuan ilmiah yang sudah mapan dengan banyak pencapaian sukses.

Istilah "linguistik komputasional" biasanya mengacu pada area luas penggunaan alat komputer - program, teknologi komputer untuk mengatur dan memproses data - untuk memodelkan fungsi bahasa dalam kondisi, situasi, area masalah, serta ruang lingkup tertentu. model bahasa komputer hanya dalam linguistik, tetapi juga dalam disiplin terkait. Sebenarnya, hanya dalam kasus terakhir kita berbicara tentang linguistik terapan dalam arti sempit, karena pemodelan bahasa komputer juga dapat dianggap sebagai bidang penerapan teori pemrograman (ilmu komputer) di bidang linguistik. Namun demikian, praktik umum sedemikian rupa sehingga bidang linguistik komputasional mencakup hampir semua hal yang berkaitan dengan penggunaan komputer dalam linguistik: "Istilah" linguistik komputasional "menetapkan orientasi umum terhadap penggunaan komputer untuk memecahkan berbagai masalah ilmiah dan praktis. yang berhubungan dengan bahasa, tanpa membatasi dengan cara apapun untuk memecahkan masalah tersebut.

Aspek kelembagaan linguistik komputasi. Sebagai arah ilmiah khusus, linguistik komputasi terbentuk di tahun 60-an. Arus publikasi di daerah ini sangat tinggi. Selain koleksi tematik, jurnal Computational Linguistics diterbitkan setiap tiga bulan di AS. Pekerjaan organisasi dan ilmiah besar dilakukan oleh Asosiasi Linguistik Komputasi, yang memiliki struktur regional di seluruh dunia (khususnya, cabang Eropa). Setiap dua tahun ada konferensi internasional tentang linguistik komputasi - KOLING. Isu-isu yang relevan juga banyak diwakili di konferensi internasional tentang kecerdasan buatan di berbagai tingkatan.

Perangkat kognitif linguistik komputasi

Linguistik komputasional sebagai disiplin terapan khusus dibedakan terutama oleh alatnya - yaitu, dengan penggunaan alat komputer untuk memproses data bahasa. Karena program komputer yang memodelkan aspek-aspek tertentu dari fungsi suatu bahasa dapat menggunakan berbagai alat pemrograman, tampaknya tidak perlu berbicara tentang bahasa meta yang umum. Namun, tidak. Ada prinsip-prinsip umum pemodelan pemikiran komputer, yang entah bagaimana diimplementasikan dalam model komputer apa pun. Bahasa ini didasarkan pada teori pengetahuan yang dikembangkan dalam kecerdasan buatan dan membentuk cabang penting dari ilmu kognitif.

Tesis utama teori pengetahuan menyatakan bahwa berpikir adalah proses mengolah dan menghasilkan pengetahuan. "Pengetahuan" atau "pengetahuan" dianggap sebagai kategori yang tidak ditentukan. Sistem kognitif manusia bertindak sebagai “pemroses” yang memproses pengetahuan. Dalam epistemologi dan ilmu kognitif, dua jenis utama pengetahuan dibedakan - deklaratif ("mengetahui apa") dan prosedural ("mengetahui bagaimana"). Pengetahuan deklaratif biasanya disajikan sebagai seperangkat proposisi, pernyataan tentang sesuatu. Contoh khas dari pengetahuan deklaratif adalah interpretasi kata-kata dalam kamus penjelasan biasa. Misalnya, cangkir] - "wadah minum bulat kecil, biasanya dengan pegangan, terbuat dari porselen, faience, dll.". Pengetahuan deklaratif cocok untuk prosedur verifikasi dalam hal "benar-salah". Pengetahuan prosedural disajikan sebagai urutan (daftar) operasi, tindakan yang harus dilakukan. Ini adalah beberapa instruksi umum tentang tindakan dalam situasi tertentu. Contoh khas dari pengetahuan prosedural adalah instruksi untuk menggunakan peralatan rumah tangga.

Tidak seperti pengetahuan deklaratif, pengetahuan prosedural tidak dapat diverifikasi sebagai benar atau salah. Mereka dapat dievaluasi hanya dengan keberhasilan atau kegagalan algoritma.

Sebagian besar konsep perangkat kognitif linguistik komputasi adalah homonim: mereka secara bersamaan menunjuk beberapa entitas nyata dari sistem kognitif manusia dan cara untuk mewakili entitas ini dalam beberapa metabahasa. Dengan kata lain, unsur-unsur metabahasa memiliki aspek ontologis dan instrumental. Secara ontologis, pembagian pengetahuan deklaratif dan prosedural sesuai dengan berbagai jenis pengetahuan dari sistem kognitif manusia. Jadi, pengetahuan tentang objek tertentu, objek realitas terutama bersifat deklaratif, dan kemampuan fungsional seseorang untuk berjalan, berlari, mengendarai mobil diwujudkan dalam sistem kognitif sebagai pengetahuan prosedural. Secara instrumental, pengetahuan (baik secara ontologis prosedural dan deklaratif) dapat direpresentasikan sebagai satu set deskripsi, deskripsi dan sebagai algoritma, instruksi. Dengan kata lain, pengetahuan deklaratif ontologis tentang objek realitas "tabel" dapat direpresentasikan secara prosedural sebagai seperangkat instruksi, algoritme untuk pembuatannya, perakitan (= aspek kreatif dari pengetahuan prosedural) atau sebagai algoritme untuk penggunaan tipikalnya (= fungsional aspek pengetahuan prosedural). Dalam kasus pertama, ini mungkin panduan untuk tukang kayu pemula, dan yang kedua, deskripsi kemungkinan meja kantor. Kebalikannya juga benar: pengetahuan prosedural ontologis dapat direpresentasikan secara deklaratif.

Ini membutuhkan diskusi terpisah apakah pengetahuan deklaratif ontologis dapat direpresentasikan sebagai prosedural, dan setiap prosedural ontologis - sebagai deklaratif. Para peneliti setuju bahwa pengetahuan deklaratif apa pun, pada prinsipnya, dapat direpresentasikan secara prosedural, meskipun ini mungkin menjadi sangat tidak ekonomis untuk sistem kognitif. Kebalikannya hampir tidak benar. Faktanya adalah bahwa pengetahuan deklaratif jauh lebih eksplisit, lebih mudah dipahami seseorang daripada pengetahuan prosedural. Berbeda dengan pengetahuan deklaratif, pengetahuan prosedural sebagian besar bersifat implisit. Jadi, kemampuan bahasa, sebagai pengetahuan prosedural, tersembunyi dari seseorang, tidak disadari olehnya. Upaya untuk menjelaskan mekanisme fungsi bahasa menyebabkan disfungsi. Spesialis di bidang semantik leksikal tahu, misalnya, bahwa introspeksi semantik jangka panjang yang diperlukan untuk mempelajari rencana isi kata mengarah pada fakta bahwa peneliti sebagian kehilangan kemampuan untuk membedakan antara penggunaan yang benar dan salah dari kata yang dianalisis. Contoh lain dapat disebutkan. Diketahui bahwa dari sudut pandang mekanika, tubuh manusia adalah sistem kompleks dari dua pendulum yang berinteraksi.

Dalam teori pengetahuan, berbagai struktur pengetahuan digunakan untuk mempelajari dan mewakili pengetahuan - bingkai, skenario, rencana. Menurut M. Minsky, "bingkai adalah struktur data yang dirancang untuk mewakili situasi stereotip" [Minsky 1978, p.254]. Secara lebih rinci, kita dapat mengatakan bahwa bingkai adalah struktur konseptual untuk representasi deklaratif pengetahuan tentang situasi tematik yang disatukan yang dicirikan yang berisi slot yang saling berhubungan oleh hubungan semantik tertentu. Untuk tujuan ilustrasi, bingkai sering direpresentasikan sebagai tabel, yang baris-barisnya membentuk slot. Setiap slot memiliki nama dan isinya sendiri (lihat Tabel 1).

Tabel 1

Fragmen bingkai "tabel" dalam tampilan tabel

Bergantung pada tugas spesifiknya, penataan bingkai bisa jauh lebih kompleks; sebuah frame dapat menyertakan subframe bersarang dan referensi ke frame lain.

Alih-alih tabel, bentuk representasi predikat sering digunakan. Dalam hal ini, frame berupa predikat atau fungsi dengan argumen. Ada cara lain untuk mewakili bingkai. Misalnya, dapat direpresentasikan sebagai tuple dari bentuk berikut: ( (nama bingkai) (nama slot)) (nilai slot,), ..., (nama slot n) (nilai slot n) ).

Biasanya, bingkai dalam bahasa representasi pengetahuan memiliki bentuk ini.

Seperti kategori kognitif linguistik komputasi lainnya, konsep bingkai adalah homonim. Secara ontologis, itu adalah bagian dari sistem kognitif manusia, dan dalam pengertian ini, bingkai dapat dibandingkan dengan konsep-konsep seperti gestalt, prototipe, stereotip, skema. Dalam psikologi kognitif, kategori ini dianggap tepat dari sudut pandang ontologis. Dengan demikian, D. Norman membedakan dua cara utama keberadaan dan organisasi pengetahuan dalam sistem kognitif manusia - jaringan dan skema semantik. "Skema," tulisnya, "adalah paket pengetahuan yang terorganisir yang dikumpulkan untuk mewakili unit pengetahuan yang berbeda dan mandiri. Skema saya untuk Sam mungkin berisi informasi yang menggambarkan fitur fisiknya, aktivitasnya, dan ciri kepribadiannya. Skema ini berkorelasi dengan skema lain yang menggambarkan aspek-aspek lainnya" [Norman 1998, hlm. 359]. Jika kita mengambil sisi instrumental dari kategori bingkai, maka ini adalah struktur untuk representasi deklaratif pengetahuan. Dalam sistem AI saat ini, bingkai dapat membentuk struktur pengetahuan yang kompleks; sistem bingkai memungkinkan hierarki - satu bingkai dapat menjadi bagian dari bingkai lain.

Dari segi isi, konsep bingkai sangat dekat dengan kategori tafsir. Memang, slot adalah analog valensi, pengisian slot adalah analog dari aktan. Perbedaan utama di antara mereka adalah bahwa interpretasi hanya berisi informasi yang relevan secara linguistik tentang rencana isi kata, dan bingkai, pertama, tidak harus terikat pada kata, dan, kedua, mencakup semua informasi yang relevan dengan masalah yang diberikan. situasi, termasuk termasuk ekstralinguistik (pengetahuan tentang dunia) 3).

Skenario adalah kerangka kerja konseptual untuk representasi prosedural pengetahuan tentang situasi atau perilaku stereotip. Elemen skrip adalah langkah-langkah dari suatu algoritma atau instruksi. Orang biasanya berbicara tentang "skenario restoran", "skenario pembelian" dan sebagainya.

Bingkai awalnya juga digunakan untuk presentasi prosedural (lih. istilah "bingkai prosedural"), tetapi istilah "skenario" sekarang lebih umum digunakan dalam pengertian ini. Skenario dapat direpresentasikan tidak hanya sebagai algoritma, tetapi juga sebagai jaringan, simpul yang sesuai dengan situasi tertentu, dan busur sesuai dengan koneksi antar situasi. Seiring dengan konsep skrip, beberapa peneliti menggunakan kategori skrip untuk pemodelan kecerdasan komputer. Menurut R. Schenk, naskah adalah beberapa urutan hubungan sebab akibat yang diterima secara umum dan terkenal. Misalnya, memahami dialog

Di jalan itu mengalir seperti ember.

Anda masih harus pergi ke toko: tidak ada apa-apa di rumah - kemarin para tamu menyapu semuanya.

didasarkan pada koneksi semantik non-eksplisit seperti "jika hujan, tidak diinginkan untuk pergi ke luar, karena Anda bisa sakit." Koneksi ini membentuk sebuah skrip, yang digunakan oleh penutur asli untuk memahami perilaku verbal dan non-verbal satu sama lain.

Sebagai hasil dari penerapan skenario pada situasi masalah tertentu, a rencana). Sebuah rencana digunakan untuk secara prosedural mewakili pengetahuan tentang kemungkinan tindakan yang mengarah ke tujuan tertentu. Rencana menghubungkan tujuan dengan urutan tindakan.

Dalam kasus umum, rencana mencakup urutan prosedur yang mentransfer keadaan awal sistem ke keadaan akhir dan mengarah pada pencapaian subtujuan dan sasaran tertentu. Dalam sistem AI, rencana muncul sebagai hasil dari aktivitas perencanaan atau perencanaan modul yang sesuai - modul perencanaan. Proses perencanaan mungkin didasarkan pada adaptasi data dari satu atau lebih skenario, diaktifkan oleh prosedur pengujian, untuk memecahkan situasi masalah. Eksekusi rencana dilakukan oleh modul eksekutif yang mengontrol prosedur kognitif dan tindakan fisik sistem. Dalam kasus dasar, rencana dalam sistem cerdas adalah urutan operasi sederhana; dalam versi yang lebih kompleks, rencana tersebut dikaitkan dengan subjek tertentu, sumber dayanya, kemampuan, tujuan, dengan informasi terperinci tentang situasi masalah, dll. Munculnya rencana terjadi dalam proses komunikasi antara model dunia, yang sebagian dibentuk oleh skenario, modul perencanaan dan modul eksekutif.

Tidak seperti skenario, rencana dikaitkan dengan situasi tertentu, pelaku tertentu, dan mengejar tujuan tertentu. Pilihan rencana diatur oleh sumber daya kontraktor. Kelayakan suatu rencana merupakan syarat wajib untuk pembangkitannya dalam sistem kognitif, dan sifat kelayakan tidak dapat diterapkan pada suatu skenario.

Konsep penting lainnya adalah model dunia. Model dunia biasanya dipahami sebagai seperangkat pengetahuan tentang dunia yang diorganisasikan dengan cara tertentu, yang melekat dalam sistem kognitif atau model komputernya. Dalam pengertian yang agak lebih umum, model dunia dibicarakan sebagai bagian dari sistem kognitif yang menyimpan pengetahuan tentang struktur dunia, polanya, dll. Dalam pengertian lain, model dunia dikaitkan dengan hasil. memahami teks atau, lebih luas, wacana. Dalam proses memahami wacana, model mentalnya dibangun, yang merupakan hasil interaksi antara rencana isi teks dan pengetahuan tentang dunia yang melekat pada subjek ini [Johnson-Laird 1988, hlm. 237 et urutan]. Pemahaman pertama dan kedua sering digabungkan. Ini adalah tipikal peneliti linguistik yang bekerja dalam linguistik kognitif dan ilmu kognitif.

Terkait erat dengan kategori bingkai adalah konsep adegan. Kategori adegan terutama digunakan dalam literatur sebagai penunjukan struktur konseptual untuk representasi deklaratif situasi dan bagian-bagiannya yang diaktualisasikan dalam tindak tutur dan disorot oleh sarana linguistik (leksem, konstruksi sintaksis, kategori tata bahasa, dll.). Dikaitkan dengan bentuk-bentuk linguistik, adegan sering diperbarui dengan kata atau ekspresi tertentu. Dalam tata bahasa plot (lihat di bawah), sebuah adegan muncul sebagai bagian dari sebuah episode atau narasi. Contoh karakteristik adegan adalah sekumpulan kubus yang bekerja dengan sistem AI, adegan aksi dalam cerita dan peserta aksi, dll. Dalam kecerdasan buatan, adegan digunakan dalam sistem pengenalan gambar, serta dalam program yang berfokus pada studi (analisis, deskripsi) situasi masalah. Konsep adegan telah menyebar luas dalam linguistik teoretis, serta logika, khususnya dalam semantik situasional, di mana makna unit leksikal secara langsung dikaitkan dengan adegan.

Linguistik komputasi praktis telah kehabisan tenaga hari ini. Ini secara langsung ditunjukkan oleh pengalaman yang tidak berhasil dari para peneliti dan pengembang produk informasi "intelektual", yang telah bekerja selama lebih dari setengah abad dalam pembuatan program ambisius seperti, misalnya, terjemahan mesin yang memadai atau pencarian semantik untuk informasi di array dokumen bahasa alami.

Masa depan mesin pemrosesan teks bahasa alami, tentu saja, terlihat dalam penciptaan dan pengembangan teknologi supralinguistik yang mampu menganalisis konten informasi pada tingkat pemahaman semantik konteks, seperti yang dapat dilakukan oleh seseorang. Namun, penciptaan "mesin berpikir" (Thinking Machine) untuk waktu yang lama terhambat oleh dua faktor utama - kurangnya metodologi yang diperlukan dan alat yang tepat untuk memecahkan dua masalah mendasar - ini adalah menemukan "rumus makna" dan membangun sebuah "model pengetahuan tentang alam semesta" dalam beberapa bentuk formal yang dapat diakses komputer, yang tanpanya, pada kenyataannya, tidak mungkin mengulangi sifat pemikiran manusia pada tingkat program.

Ahli bahasa, bersama dengan sibernetika, belum mampu mengatasi masalah ini, karena yang terakhir sudah di luar batas spesialisasi subjek mereka, yang, pada kenyataannya, secara signifikan memperlambat pengembangan area pemrosesan teks terapan yang telah lama diminta, seperti sebagai penciptaan sistem dialog "pintar", atau "mesin pencari Internet semantik". Dan terjemahan mesin yang sama masih menyisakan banyak hal yang diinginkan.

Pengalaman perkembangan kemajuan ilmu pengetahuan dan teknologi menunjukkan bahwa terobosan hasil yang diinginkan pada akhirnya diperoleh, sebagai suatu peraturan, di persimpangan bidang teknologi dan disiplin ilmu yang berbeda. Rupanya, masalah "pemikiran mesin" akan terpecahkan tepat ketika kita memahami dengan tepat bagaimana kesadaran alami kita bekerja dalam rencana prosedural, dan ketika kita dapat dengan andal mengetahui apakah prosedur berpikir ini, yang ditunjukkan kepada kita dalam jumlah yang diperlukan dan cukup, akan algoritma komputer akhir.

Perlu dicatat bahwa dalam beberapa tahun terakhir, disiplin ilmiah baru ("smartbuter") telah mulai berkembang, yang secara tepat berurusan dengan fakta bahwa ia mempelajari sifat prosedural dari aktivitas mental manusia. Kita dapat mengatakan bahwa saat ini kita memiliki terobosan signifikan ke arah ini dan kita sudah cukup jelas memahami cara kerja algoritma pemikiran manusia. Jika kita membicarakan hal ini secara umum, maka, pertama-tama, perlu dicatat bahwa seseorang tidak berpikir dalam gambar, seperti yang biasanya dipikirkan, tetapi dalam "pola perilaku gambar" (IGO). Kedua, kita berpikir "ontologis", yaitu, kita terus-menerus mengajukan pertanyaan, bahkan tanpa menyadarinya sendiri, dan secara permanen mencari jawaban atas pertanyaan itu (juga secara otomatis). Akhirnya, pemahaman yang bermakna tentang segala sesuatu yang terjadi di sekitar individu atau dalam pikirannya selama kontemplasi apa pun dilakukan secara tepat dengan bantuan "model representasi" tertentu dari alam semesta di sekitarnya. Ini terjadi dengan membandingkan MPO yang dia terima secara operasional dengan ide-ide tentang Semesta yang tersimpan dalam memori jangka panjang manusia. Tepatnya, ketiga paus utama ini membentuk seluruh teknologi pemikiran alami, yang sekarang hanya tinggal ditransfer ke bahasa yang dapat dimengerti oleh programmer dan mendapatkan hasil yang telah lama ditunggu-tunggu.

Ketika orang memahami pesan bahasa alami apa pun, mereka praktis tidak pernah membuat korespondensi instan dari penilaian yang dinyatakan dengan konsep dan pola perilaku dari gambar yang disimpan dalam ingatan mereka. Setiap kali, mereka memberikan kepada MPO yang diterima (dirasakan) korespondensi asosiatif-heuristik pertama yang muncul dalam pikiran mereka, berdasarkan kekhasan pengalaman dan pengetahuan mereka, dan hanya kemudian, dalam rangka memikirkan kembali teks lebih lanjut, mereka mulai mengklarifikasi dan mengkonkretkan informasi yang diterima. Linguistik komputasional, di sisi lain, berusaha untuk membangun korespondensi yang tepat antara makna kata-kata, serta hubungan timbal baliknya, mencoba mengatasi masalah ambiguitas alat verbal yang melekat dalam bahasa apa pun, yang, pada kenyataannya, sangat berbeda. dari cara berpikir kita bekerja. Lagi pula, seseorang mencapai pemahaman ucapan atau teks sama sekali bukan karena pengetahuan tentang muatan morfologis kata-kata atau pembentukan hubungan sintaksis antara kata-kata, dan bahkan bukan karena dia mengenali arti khusus (semantis) kata-kata, tetapi tepatnya. karena asumsi asosiatif awal dan "pengguliran berulang" berikutnya dari seluruh konteks" untuk menggambar gambaran akhir dari korespondensi informasi yang dirasakan dengan konten internalnya.