Filologi Komputer. Linguistik komputasional sebagai disiplin linguistik terapan

Linguistik (dari lat. lingua -
bahasa), linguistik, linguistik - sains,
mempelajari bahasa.
Ini adalah ilmu alam bahasa manusia umumnya
dan tentang semua bahasa di dunia sebagai miliknya
perwakilan yang dipersonalisasi.
PADA pengertian luas kata-kata, linguistik
dibagi menjadi ilmiah dan praktis. Lebih sering
hanya dengan linguistik yang dimaksud dengan tepat
linguistik ilmiah. Ini adalah bagian dari semiotika
ilmu tanda.
Linguistik dipraktikkan secara profesional oleh ahli bahasa.

Linguistik dan Informatika.
Dalam hidup masyarakat modern peran penting bermain otomatis
teknologi Informasi. Tapi perkembangan teknologi Informasi sedang berlangsung
sangat tidak merata: jika tingkat modern ilmu Komputer dan
sarana komunikasi luar biasa, maka di bidang pemrosesan semantik
keberhasilan informasi jauh lebih sederhana. Keberhasilan ini terutama bergantung pada
kemajuan dalam studi proses pemikiran manusia, proses bicara
komunikasi antara orang-orang dan kemampuan untuk mensimulasikan proses ini di komputer. Dan ini adalah tugas yang sangat rumit kita sedang berbicara pada penciptaan yang menjanjikan
teknologi informasi, maka masalah pemrosesan teks secara otomatis
informasi yang disajikan dalam bahasa alami muncul ke permukaan.
Hal ini ditentukan oleh fakta bahwa pemikiran seseorang berhubungan erat dengan bahasanya. Lagi
Selain itu, bahasa alami adalah alat berpikir. Dia juga
sarana komunikasi universal antara orang-orang - sarana persepsi,
akumulasi, penyimpanan, pemrosesan, dan transmisi informasi.
Masalah penggunaan bahasa alami secara otomatis
Pemrosesan informasi adalah ilmu linguistik komputasi. Ilmu ini
muncul relatif baru-baru ini - pada pergantian tahun lima puluhan dan enam puluhan
abad terakhir. Pada awalnya, selama pembentukannya, ia memiliki berbagai
judul: linguistik matematika, linguistik komputasi, teknik
ilmu bahasa. Tapi di awal tahun delapan puluhan, nama itu melekat padanya
linguistik komputer.

Linguistik komputasi adalah bidang pengetahuan yang berhubungan dengan pemecahan masalah
pemrosesan otomatis informasi yang disajikan dalam bahasa alami.
Pusat masalah ilmiah linguistik komputasi adalah masalah
memodelkan proses pemahaman makna teks (transisi dari teks ke
representasi formal dari maknanya) dan masalah sintesis ucapan (transisi dari
representasi makna yang diformalkan pada teks bahasa alami). Masalah-masalah ini
muncul ketika memecahkan sejumlah masalah yang diterapkan:
1) deteksi otomatis dan koreksi kesalahan saat memasukkan teks ke komputer,
2) analisis dan sintesis otomatis pidato lisan,
3) terjemahan otomatis teks dari satu bahasa ke bahasa lain,
4) komunikasi dengan komputer dalam bahasa alami,
5) klasifikasi otomatis dan pengindeksan dokumen teks, mereka
peringkasan otomatis, mencari dokumen dalam database teks lengkap.
Selama setengah abad terakhir di bidang linguistik komputasi,
ilmiah yang signifikan dan hasil praktis: sistem mesin
terjemahan teks dari satu bahasa alami ke bahasa lain, otomatis
mencari informasi dalam teks, sistem untuk analisis otomatis dan sintesis ucapan lisan dan
banyak lainnya. Tapi ada juga kekecewaan. Misalnya, masalah terjemahan mesin
teks dari satu bahasa ke bahasa lain ternyata jauh lebih sulit daripada yang dibayangkan
pionir terjemahan mesin dan penerusnya. Hal yang sama dapat dikatakan tentang
pencarian otomatis untuk informasi dalam teks dan tentang tugas menganalisis dan mensintesis lisan
pidato. Ilmuwan dan insinyur tampaknya masih harus bekerja keras untuk
mencapai hasil yang diinginkan.

Pemrosesan bahasa alami (eng. pemrosesan bahasa alami; sintaksis,
secara morfologi, analisis semantik teks). Ini juga termasuk:
Linguistik korpus, pembuatan dan penggunaan korpora teks elektronik
Penciptaan kamus elektronik, tesauri, ontologi. Misal seperti Lingvo. kamus
digunakan, misalnya, untuk terjemahan otomatis, pemeriksaan ejaan.
Terjemahan otomatis teks. Populer di kalangan penerjemah Rusia
adalah Promt. Dikenal di antara yang gratis penerjemah Google menerjemahkan
Ekstraksi otomatis fakta dari teks (ekstraksi informasi) (Fakta bahasa Inggris
ekstraksi, penambangan teks)
Auto-abstracting (peringkasan teks otomatis bahasa Inggris). Fitur ini diaktifkan
misalnya di Microsoft Word.
Membangun sistem manajemen pengetahuan. Lihat Sistem pakar
Pembuatan sistem tanya jawab (bahasa Inggris question answer system).
Pengenalan Karakter Optik (OCR). Misalnya, FineReader
Pengenalan Ucapan Otomatis (ASR). Ada perangkat lunak berbayar dan gratis
Sintesis ucapan otomatis

Timofeeva Maria Kirillovna
Dokter ilmu filologi, senior Peneliti laboratorium sistem logika Institut Matematika. S.L. Soboleva SB RAS, Kepala Departemen Linguistik Dasar dan Terapan, Institut Kemanusiaan Universitas Negeri Novosibirsk. Lulus dari Departemen Linguistik Matematika Fakultas Ilmu Budaya Novosibirsk Universitas Negeri.
Minat penelitian: landasan filosofis dan metodologis linguistik, masalah logika semantik dan pragmatik bahasa alami, fungsional model matematika bahasa alami, bahasa alami dan bahasa formal.

Stukachev Alexey Ilyich
Kandidat Ilmu Fisika dan Matematika, Associate Professor, Peneliti Senior di Institut Matematika. S.L. Soboleva SB RAS, Associate Professor, Departemen Matematika Diskrit dan Informatika, Fakultas Mekanika dan Matematika, NSU, Associate Professor, Departemen Linguistik Dasar dan Terapan, Institut Humaniora, NSU
Lingkup kepentingan ilmiah: logika matematika, teori komputabilitas (komputabilitas umum, komputabilitas dalam himpunan yang dapat diterima, komputabilitas HF), teori model ( model konstruktif, representasi sistem yang efektif, derajat keterwakilan), analisis yang dapat dihitung. Linguistik matematika Kata kunci: semantik formal, semantik Montagu, semantik distributif.

Barakhnin Vladimir Borisovich
Peneliti Laboratorium Terkemuka sumber informasi Lembaga teknologi komputasi SB RAS, profesor departemen pemodelan matematika Fakultas Mekanika dan Matematika, NSU, Guru Besar Departemen Sistem Informatika dan informatika umum Fakultas Teknologi Informasi, Universitas Negeri Novosibirsk.
Minat penelitian: membangun model terdistribusi sistem Informasi, pembuatan algoritme untuk memproses dokumen teks semi-terstruktur, otomatisasi analisis kompleks teks puisi, masalah metodologis informatika.

Bruches Elena Pavlovna
Mahasiswa pascasarjana dari Institut Sistem Informatika dinamai. A.P. Ershova SB RAS, Asisten Departemen Linguistik Dasar dan Terapan Institut Kemanusiaan Universitas Negeri Novosibirsk, ahli bahasa komputasi di perusahaan "OnPositive".
Minat penelitian: pemrosesan bahasa alami, pembelajaran mesin, kecerdasan buatan.

Pavlovsky Evgeny Nikolaevich
Kandidat Ilmu Fisika dan Matematika, anggota Dewan Ilmuwan Muda dan Spesialis di bawah Pemerintah Wilayah Novosibirsk, anggota dewan ahli Technopark Novosibirsk Akademgorodok, ketua panitia penyelenggara Simposium Siberia tentang Ilmu Data dan Konferensi teknik.
Tujuan profesional: sistematisasi pendekatan untuk formalisasi persyaratan bisnis dalam proyek data besar.

Palchunov Dmitry Evgenievich
Peneliti terkemuka di Institut Matematika. S. L. Soboleva SB RAS, Kepala Departemen Informatika Umum, NSU, Kepala Departemen "Institute of Discrete Mathematics and Informatics", Fakultas Mekanika dan Matematika, NSU.
Minat penelitian: Hasil mendasar pada studi aljabar Boolean dengan ideal-ideal dibedakan (I-aljabar) diperoleh.

Sviridenko Dmitry Ivanovich
Karyawan Institut Matematika Cabang Siberia dari Akademi Ilmu Pengetahuan Rusia dan Universitas Negeri Novosibirsk, pengusaha, penyelenggara, dan salah satu pemilik perusahaan teknologi tinggi yang beroperasi di bidang informasi, komunikasi, dan teknologi digital. Berpartisipasi dalam penelitian tentang pemodelan semantik yang didanai oleh hibah dari Yayasan Sains Rusia.
Minat penelitian: filsafat, metodologi, logika matematika terapan. Penulis konsep dan teori matematika pemodelan semantik, diajukan bersama dengan akademisi dari Akademi Ilmu Pengetahuan Rusia S.S. Goncharov dan Yu.L. Ershov pada tahun 80-an abad terakhir. Saat ini, ia terus aktif mengembangkan metodologi dan teori matematika dari konsep ini, dan juga terlibat dalam penerapan konsep ini untuk berbagai daerah. Bekerja pada pembuatan metodologi, teori matematika, dan bahasa kesepakatan dan kontrak cerdas semantik, menerapkan ide-ide pemodelan semantik dalam kaitannya dengan TRIZ dan area lainnya.

Savostyanov Alexander Nikolaevich
Peneliti Terkemuka di Laboratorium Psikofisiologi Diferensial Lembaga Penelitian Fisiologi dan kedokteran dasar, Kepala Laboratorium Genetika Psikologis Institut Sitologi dan Genetika Cabang Siberia dari Akademi Ilmu Pengetahuan Rusia, Profesor Departemen Informatika Umum Fakultas Teknologi Informasi Universitas Negeri Novosibirsk, Profesor Departemen Fundamental dan Linguistik Terapan lembaga kemanusiaan NSU.
kepentingan ilmiah Kata kunci: neurofisiologi, psikogenetika, neurolinguistik, metode pemrosesan sinyal biologis komputer. Penelitian ditujukan untuk mengidentifikasi faktor risiko munculnya dan perkembangan patologi afektif pada manusia, tergantung pada sosial dan kondisi iklim aktivitas vital. Sebagai bagian dari penelitian, ekspedisi dilakukan ke berbagai wilayah Rusia ( Wilayah Novosibirsk, Tyva, Yakutia, Republik Altai) dan negara tetangga(Mongolia, Cina) untuk mengumpulkan bahan biologis dan koleksi catatan EEG di berbagai kondisi percobaan. Tujuan dari penelitian ini adalah untuk menciptakan sistem diagnostik yang memungkinkan penilaian risiko pelanggaran regulasi emosional perilaku manusia dalam kondisi stres yang meningkat.

LINGUISTIKA KOMPUTER (kertas kalkir dari bahasa Inggris komputasi linguistik), salah satu bidang linguistik terapan, di mana untuk mempelajari bahasa dan model fungsi bahasa dalam kondisi tertentu, situasi dan area masalah dikembangkan dan digunakan program komputer, teknologi komputer untuk mengatur dan memproses data. Di sisi lain, ini adalah area penerapan model bahasa komputer dalam linguistik dan disiplin terkait. Seperti spesial arah ilmiah Linguistik komputasional terbentuk dalam Studi Eropa pada tahun 1960-an. Sejauh kata sifat bahasa inggris komputasi juga dapat diterjemahkan sebagai "komputasi", istilah "linguistik komputasional" juga ditemukan dalam literatur, namun, dalam ilmu dalam negeri dia mendapat lebih banyak arti sempit mendekati konsep "linguistik kuantitatif".

Seringkali, linguistik komputasi mengacu pada istilah "linguistik kuantitatif", yang mencirikan arah interdisipliner dalam penelitian terapan, di mana metode analisis kuantitatif atau statistik digunakan sebagai alat utama untuk mempelajari bahasa dan ucapan. Kadang-kadang linguistik kuantitatif (atau kuantitatif) bertentangan dengan linguistik kombinatorial. Dalam yang terakhir, peran dominan ditempati oleh peralatan matematika "non-kuantitatif" - teori himpunan, logika matematika, teori algoritma, dll. titik teoretis lihat penggunaan metode statistik dalam linguistik memungkinkan Anda untuk melengkapi model struktural bahasa dengan komponen probabilistik, yaitu untuk membuat model struktural-probabilistik teoretis yang memiliki potensi penjelas yang signifikan. PADA area aplikasi Linguistik kuantitatif diwakili, pertama-tama, dengan penggunaan fragmen model ini yang digunakan untuk pemantauan linguistik fungsi bahasa, decoding teks yang disandikan, otorisasi / atribusi teks, dll.

Istilah "linguistik komputasional" dan masalah bidang ini sering dikaitkan dengan pemodelan komunikasi, dan di atas segalanya - dengan ketentuan interaksi manusia dengan komputer dalam bahasa alami atau terbatas (untuk ini, sistem khusus pemrosesan bahasa alami), serta dengan teori dan praktik sistem temu kembali informasi (IPS). Memastikan komunikasi antara seseorang dan komputer dalam bahasa alami kadang-kadang dilambangkan dengan istilah "pemrosesan bahasa alami" (terjemahan dari dalam Bahasa Inggris istilah Pemrosesan Bahasa Alami). Arah linguistik komputasi muncul pada akhir 1960-an di luar negeri dan berkembang dalam disiplin ilmu pengetahuan dan teknologi yang disebut kecerdasan buatan (karya R. Schenk, M. Lebovits, T. Winograd, dll.). Dalam artinya, frasa "pemrosesan bahasa alami" harus mencakup semua area di mana komputer digunakan untuk memproses data bahasa. Namun, dalam praktiknya, pemahaman istilah yang lebih sempit telah menjadi tetap - pengembangan metode, teknologi, dan sistem khusus yang memastikan komunikasi antara seseorang dan komputer dalam bahasa alami atau terbatas.

Linguistik komputasional, sampai batas tertentu, dapat mencakup karya-karya di bidang pembuatan sistem hypertext, yang dianggap sebagai: cara spesial organisasi teks dan bahkan seberapa fundamentalnya jenis baru teks, dalam banyak propertinya bertentangan dengan teks biasa yang dibentuk dalam tradisi pencetakan Gutenberg (lihat Gutenberg).

Linguistik komputasional juga mencakup terjemahan otomatis.

Dalam kerangka linguistik komputasi, arah yang relatif baru telah muncul, yang telah aktif berkembang sejak 1980-an-90-an - linguistik korpus, di mana prinsip-prinsip umum membangun korpora data linguistik (khususnya, korpora teks) menggunakan modern teknologi komputer. Korpora teks adalah kumpulan teks buku, majalah, surat kabar, dll yang dipilih secara khusus, ditransfer ke media mesin dan dimaksudkan untuk pemrosesan otomatis. Salah satu kumpulan teks pertama dibuat untuk Bahasa Inggris Amerika di Brown University (yang disebut Brown Corpus) pada tahun 1962-63 di bawah arahan W. Francis. Di Rusia, sejak awal 2000-an, Institut Bahasa Rusia dinamai V. V. Vinogradov dari Akademi Ilmu Pengetahuan Rusia telah berkembang Korps Nasional dari bahasa Rusia, yang terdiri dari sampel representatif teks berbahasa Rusia dengan volume sekitar 100 juta penggunaan kata. Selain konstruksi aktual korpora data, linguistik korpus terlibat dalam pembuatan alat komputer (program komputer) yang dirancang untuk mengekstrak berbagai informasi dari korpora teks. Dari sudut pandang pengguna, persyaratan untuk keterwakilan (representativeness), kelengkapan dan ekonomi dikenakan pada korpora teks.

Linguistik komputasi secara aktif berkembang baik di Rusia maupun di luar negeri. Arus publikasi di daerah ini sangat tinggi. Kecuali koleksi tematik, di Amerika Serikat sejak tahun 1984 jurnal Computational Linguistics telah diterbitkan setiap triwulan. Organisasi yang hebat dan karya ilmiah dilakukan oleh The Association for Computational Linguistics, yang memiliki struktur regional di seluruh dunia (khususnya, cabang Eropa). Setiap dua tahun ada konferensi internasional COLINT (tahun 2008 konferensi diadakan di Manchester). Arah utama linguistik komputasi juga dibahas pada konferensi internasional tahunan "Dialog", yang diselenggarakan oleh Institut Penelitian Kecerdasan Buatan Rusia, Fakultas Filologi Universitas Negeri Moskow, Yandex dan sejumlah organisasi lainnya. Isu-isu yang relevan juga banyak disajikan di konferensi internasional pada kecerdasan buatan dari tingkat yang berbeda.

Lit.: Zvegintsev V. A. Linguistik teoretis dan terapan. M., 1968; Piotrovsky R. G., Bektaev K. B., Piotrovskaya A. A. Linguistik matematika. M., 1977; Gorodetsky B. Yu. Masalah sebenarnya linguistik terapan // Baru dalam linguistik asing. M., 1983. Edisi. 12; Kibrik A.E. Linguistik terapan // Kibrik A.E. Esai tentang masalah linguistik umum dan terapan. M., 1992; Kennedy G. Pengantar linguistik korpus. L., 1998; Bolshakov I.A., Gelbukh A. Linguistik komputasional: model, sumber daya, aplikasi. Mah., 2004; Korpus Nasional Bahasa Rusia: 2003-2005. M., 2005; Baranov A.N. Pengantar linguistik terapan. edisi ke-3 M., 2007; Linguistik Komputasi dan Teknologi Cerdas. M., 2008. Edisi. 7.

pengantar

Apa itu Linguistik Komputasi?

LINGUISTIKA KOMPUTER , arah dalam linguistik terapan, berfokus pada penggunaan alat komputer - program, teknologi komputer untuk mengatur dan memproses data - untuk memodelkan fungsi bahasa dalam kondisi, situasi, area masalah tertentu, dll., serta seluruh ruang lingkup model bahasa komputer dalam linguistik dan disiplin terkait. Sebenarnya, hanya di kasus terakhir dan berbicara tentang linguistik terapan dalam arti sempit, karena pemodelan komputer dari suatu bahasa juga dapat dianggap sebagai bidang penerapan ilmu komputer dan teori pemrograman untuk memecahkan masalah ilmu bahasa. Namun dalam praktiknya, hampir segala sesuatu yang berhubungan dengan penggunaan komputer dalam linguistik disebut sebagai linguistik komputasional.

Sebagai arah ilmiah khusus, linguistik komputasi terbentuk pada 1960-an. Istilah Rusia "linguistik komputasional" adalah kertas kalkir dari bahasa Inggris komputasi linguistik. Karena komputasi kata sifat dalam bahasa Rusia juga dapat diterjemahkan sebagai "komputasi", istilah "linguistik komputasional" juga ditemukan dalam literatur, tetapi dalam sains Rusia ia memperoleh makna yang lebih sempit, mendekati konsep "linguistik kuantitatif". Arus publikasi di daerah ini sangat tinggi. Selain koleksi tematik, jurnal Computational Linguistics diterbitkan setiap tiga bulan di Amerika Serikat. Pekerjaan organisasi dan ilmiah besar dilakukan oleh Asosiasi Linguistik Komputasi, yang memiliki struktur regional (khususnya, cabang Eropa). Setiap dua tahun ada konferensi internasional tentang linguistik komputasi - COLING. Isu-isu yang relevan biasanya banyak dipresentasikan juga di berbagai konferensi tentang kecerdasan buatan.

tugas

Linguistik komputasi mengambil masalah linguistik yang sebenarnya dari pemodelan komputer dari aktivitas bahasa. Tugasnya adalah membangun model linguistik yang lebih akurat dan lebih lengkap serta algoritma yang lebih canggih untuk analisis dan sintesis.

Arahan utamanya adalah:

1) Interaksi manusia-komputer: kontrol - bahasa pemrograman, transfer informasi - antarmuka.

2) Bekerja dengan teks: pengindeksan, analisis dan klasifikasi, pengeditan otomatis (koreksi kesalahan), deteksi pengetahuan, terjemahan mesin.

Cerita

Generasi sederhana dari subset bahasa Inggris untuk mengakses database disediakan oleh salah satu sistem Amerika awal LIFER (Language Interface Facility wich Elipsis and Recursion), dibuat pada tahun 70-an. Mengikutinya, sistem lain yang lebih fleksibel muncul di pasar komputer, menyediakan antarmuka bahasa alami yang terbatas dengan komputer.

Pada 1980-an, sejumlah perusahaan dibentuk di Amerika Serikat yang bergerak dalam pengembangan dan penjualan antarmuka bahasa alami dengan database dan sistem pakar. Pada tahun 1985 Semantec Corporation mempresentasikan paket perangkat lunak Q&A seperti itu, Grup Carnegie menawarkan paket serupa, LanguageCraft.

Pekerjaan aktif sedang dilakukan untuk membuat sistem terjemahan otomatis. Sistem terjemahan otomatis SYSTRAN, yang dikembangkan di bawah arahan D. Tom, yang ditugaskan oleh Angkatan Udara AS, telah tersebar luas. Selama tahun 1974 - 1975. sistem ini digunakan oleh NASA Aerospace Association untuk menerjemahkan dokumen untuk proyek Apollo-Soyuz. Saat ini, ia menerjemahkan dari beberapa bahasa sekitar 100.000 halaman setiap tahun.

Di Eropa, pembuatan sistem terjemahan komputer dirangsang oleh pembentukan Jaringan Informasi Eropa (EURONET DIANA). Pada tahun 1982, Masyarakat Ekonomi Eropa mengumumkan pembuatan program EUROTRA Eropa, yang tujuannya adalah untuk mengembangkan sistem terjemahan komputer untuk semua bahasa eropa. Awalnya, proyek ini diperkirakan mencapai $ 12 juta; pada tahun 1987, para ahli menentukan total biaya proyek ini lebih dari $ 160 juta.

Di Jepang, penelitian linguistik komputasi dipusatkan di sekitar program komputer generasi kelima nasional yang diluncurkan pada tahun 1981.

Ada sejumlah proyek militer untuk membuat antarmuka manusia-mesin dalam bahasa alami. Di Amerika Serikat, mereka dilakukan terutama sebagai bagian dari Inisiatif Komputer Strategis, program sepuluh tahun yang diadopsi oleh Departemen Pertahanan pada tahun 1983. Tujuannya adalah untuk menciptakan generasi baru senjata dan sistem militer "cerdas" dalam rangka untuk memastikan keunggulan teknologi jangka panjang Amerika Serikat.

Secara alami, para ahli kecerdasan buatan, yang berpengalaman dalam komputer dan bahasa pemrograman, dengan penuh semangat mulai memecahkan masalah pemahaman bahasa dengan metode mereka sendiri. Ada pencarian untuk algoritma bahasa alami. Program pemahaman bahasa yang kompleks dibuat untuk area khusus yang sangat sempit, program terjemahan mesin parsial diimplementasikan, dan sejumlah lainnya. Tetapi tidak ada kemajuan yang menentukan dalam memecahkan masalah pemahaman bahasa. Bahasa dan manusia sangat terhubung sehingga para ilmuwan harus berurusan dengan masalah pemahaman dunia oleh manusia. Dan ini adalah ranah filsafat.

Konsep dasar linguistik

Istilah "linguistik komputasional" biasanya mengacu pada area luas penggunaan alat komputer - program, teknologi komputer untuk mengatur dan memproses data - untuk memodelkan fungsi bahasa dalam kondisi, situasi, area masalah, serta ruang lingkup tertentu. model bahasa komputer hanya dalam linguistik, tetapi juga dalam disiplin terkait. Sebenarnya, hanya dalam kasus terakhir kita berbicara tentang linguistik terapan dalam arti sempit, karena pemodelan bahasa komputer juga dapat dianggap sebagai bidang penerapan teori pemrograman (ilmu komputer) di bidang linguistik. Namun demikian, praktik umum sedemikian rupa sehingga ruang lingkup linguistik komputasional mencakup hampir semua hal yang berkaitan dengan penggunaan komputer dalam linguistik: "Istilah" linguistik komputasional "menetapkan orientasi umum terhadap penggunaan komputer untuk memecahkan berbagai masalah ilmiah dan ilmiah. tugas praktek terkait dengan bahasa, tanpa membatasi cara pemecahan masalah tersebut.

Aspek kelembagaan linguistik komputasi. Sebagai arah ilmiah khusus, linguistik komputasi terbentuk di tahun 60-an. Arus publikasi di daerah ini sangat tinggi. Selain koleksi tematik, jurnal Computational Linguistics diterbitkan setiap tiga bulan di AS. Pekerjaan organisasi dan ilmiah besar dilakukan oleh Asosiasi Linguistik Komputasi, yang memiliki struktur regional di seluruh dunia (khususnya, cabang Eropa). Setiap dua tahun ada konferensi internasional tentang linguistik komputasi - KOLING. Isu-isu yang relevan juga banyak diwakili di konferensi internasional tentang kecerdasan buatan di berbagai tingkatan.

Perangkat kognitif linguistik komputasi

Linguistik komputasi sebagai bagian khusus disiplin terapan menonjol terutama oleh instrumen - yaitu, dengan penggunaan fasilitas komputer pemrosesan data bahasa. Karena program komputer yang memodelkan aspek-aspek tertentu dari fungsi suatu bahasa dapat menggunakan berbagai alat pemrograman, tampaknya tidak perlu membicarakan bahasa meta yang umum. Namun, tidak. Ada prinsip umum simulasi komputer pemikiran, yang dalam satu atau lain cara diwujudkan dalam bentuk apa pun model komputer. Bahasa ini didasarkan pada teori pengetahuan yang dikembangkan di kecerdasan buatan dan membentuk cabang penting dari ilmu kognitif.

Tesis utama teori pengetahuan menyatakan bahwa berpikir adalah proses mengolah dan menghasilkan pengetahuan. "Pengetahuan" atau "pengetahuan" dianggap sebagai kategori yang tidak ditentukan. "Prosesor" yang memproses pengetahuan adalah sistem kognitif orang. Dalam epistemologi dan ilmu kognitif, dua jenis utama pengetahuan dibedakan - deklaratif ("mengetahui apa") dan prosedural ("mengetahui bagaimana"). Pengetahuan deklaratif biasanya disajikan sebagai seperangkat proposisi, pernyataan tentang sesuatu. Contoh tipikal pengetahuan deklaratif dapat dianggap sebagai interpretasi kata-kata biasa kamus penjelasan. Misalnya, cangkir] - "wadah minum bulat kecil, biasanya dengan pegangan, terbuat dari porselen, faience, dll.". Pengetahuan deklaratif cocok untuk prosedur verifikasi dalam hal "benar-salah". Pengetahuan prosedural disajikan sebagai urutan (daftar) operasi, tindakan yang harus dilakukan. Ini beberapa instruksi umum tentang tindakan dalam situasi tertentu. Contoh khas dari pengetahuan prosedural adalah instruksi untuk menggunakan peralatan rumah tangga.

Tidak seperti pengetahuan deklaratif, pengetahuan prosedural tidak dapat diverifikasi sebagai benar atau salah. Mereka dapat dievaluasi hanya dengan keberhasilan atau kegagalan algoritma.

Sebagian besar konsep perangkat kognitif linguistik komputasi adalah homonim: mereka secara bersamaan menunjuk beberapa entitas nyata dari sistem kognitif manusia dan cara untuk mewakili entitas ini dalam beberapa metabahasa. Dengan kata lain, unsur-unsur metabahasa memiliki aspek ontologis dan instrumental. Secara ontologis, pemisahan pengetahuan deklaratif dan prosedural sesuai dengan jenis yang berbeda pengetahuan tentang sistem kognitif manusia. Jadi, pengetahuan tentang mata pelajaran tertentu, objek realitas sebagian besar bersifat deklaratif, dan kemampuan fungsional seseorang untuk berjalan, berlari, mengendarai mobil diwujudkan dalam sistem kognitif sebagai pengetahuan prosedural. Secara instrumental, pengetahuan (baik secara ontologis prosedural dan deklaratif) dapat direpresentasikan sebagai satu set deskripsi, deskripsi dan sebagai algoritma, instruksi. Dengan kata lain, pengetahuan deklaratif ontologis tentang objek realitas "tabel" dapat direpresentasikan secara prosedural sebagai seperangkat instruksi, algoritma untuk pembuatannya, perakitan (= aspek kreatif dari pengetahuan prosedural) atau sebagai algoritma untuk penggunaan tipikalnya (= aspek fungsional pengetahuan prosedural). Dalam kasus pertama, ini mungkin panduan untuk tukang kayu pemula, dan yang kedua, deskripsi kemungkinan meja kantor. Kebalikannya juga benar: pengetahuan prosedural ontologis dapat direpresentasikan secara deklaratif.

Ini membutuhkan diskusi terpisah apakah pengetahuan deklaratif ontologis dapat direpresentasikan sebagai prosedural, dan setiap prosedural ontologis - sebagai deklaratif. Para peneliti setuju bahwa pengetahuan deklaratif apa pun, pada prinsipnya, dapat direpresentasikan secara prosedural, meskipun ini mungkin menjadi sangat tidak ekonomis untuk sistem kognitif. Kebalikannya hampir tidak benar. Faktanya adalah bahwa pengetahuan deklaratif jauh lebih eksplisit, lebih mudah dipahami seseorang daripada pengetahuan prosedural. Berbeda dengan pengetahuan deklaratif, pengetahuan prosedural sebagian besar bersifat implisit. Jadi, kemampuan berbahasa, sebagai pengetahuan prosedural, tersembunyi dari seseorang, tidak disadari olehnya. Upaya untuk menjelaskan mekanisme fungsi bahasa menyebabkan disfungsi. Spesialis di bidang semantik leksikal tahu, misalnya, bahwa introspeksi semantik jangka panjang yang diperlukan untuk mempelajari rencana isi kata mengarah pada fakta bahwa peneliti sebagian kehilangan kemampuan untuk membedakan antara yang benar dan yang benar. penyalahgunaan kata yang dianalisis. Contoh lain dapat disebutkan. Diketahui bahwa dari sudut pandang mekanika, tubuh manusia adalah sistem yang kompleks dua pendulum yang berinteraksi.

Dalam teori pengetahuan, pengetahuan dipelajari dan direpresentasikan menggunakan berbagai struktur pengetahuan - bingkai, skenario, rencana. Menurut M. Minsky, "bingkai adalah struktur data yang dirancang untuk mewakili situasi stereotip" [Minsky 1978, p.254]. Secara lebih rinci, kita dapat mengatakan bahwa bingkai adalah struktur konseptual untuk representasi deklaratif pengetahuan tentang situasi tematik yang disatukan yang dicirikan yang berisi slot yang saling berhubungan oleh hubungan semantik tertentu. Untuk tujuan ilustrasi, bingkai sering direpresentasikan sebagai tabel, yang baris-barisnya membentuk slot. Setiap slot memiliki nama dan isinya sendiri (lihat Tabel 1).

Tabel 1

Fragmen bingkai "tabel" dalam tampilan tabel

Tergantung pada tugas spesifik penataan bingkai bisa jauh lebih kompleks; sebuah frame dapat menyertakan subframe bersarang dan referensi ke frame lain.

Alih-alih tabel, bentuk representasi predikat sering digunakan. Dalam hal ini, frame berupa predikat atau fungsi dengan argumen. Ada cara lain untuk mewakili bingkai. Misalnya, dapat direpresentasikan sebagai tuple jenis berikut: ( (nama bingkai) (nama slot)) (nilai slot,),..., (nama slot n) (nilai slot n) ).

Biasanya, bingkai dalam bahasa representasi pengetahuan memiliki bentuk ini.

Seperti kategori kognitif linguistik komputasi lainnya, konsep bingkai adalah homonim. Secara ontologis, itu adalah bagian dari sistem kognitif manusia, dan dalam pengertian ini, bingkai dapat dibandingkan dengan konsep-konsep seperti gestalt, prototipe, stereotip, skema. Dalam psikologi kognitif, kategori ini dianggap tepat dari sudut pandang ontologis. Dengan demikian, D. Norman membedakan dua cara utama keberadaan dan organisasi pengetahuan dalam sistem kognitif manusia - jaringan dan skema semantik. "Skema," tulisnya, "adalah paket pengetahuan terorganisir yang dikumpulkan untuk mewakili unit pengetahuan individu yang berdiri sendiri. Skema saya untuk Sam mungkin berisi informasi yang menggambarkan fitur fisik, aktivitasnya dan ciri-ciri kepribadian. Skema ini berkorelasi dengan skema lain yang menggambarkan aspek lain darinya" [Norman 1998, p.359]. Jika kita mengambil sisi instrumental dari kategori bingkai, maka ini adalah struktur untuk representasi deklaratif pengetahuan. Dalam sistem AI yang ada, bingkai dapat terbentuk struktur kompleks pengetahuan; sistem bingkai memungkinkan hierarki - satu bingkai dapat menjadi bagian dari bingkai lain.

Dari segi isi, konsep bingkai sangat dekat dengan kategori tafsir. Memang, slot adalah analog valensi, pengisian slot adalah analog dari aktan. Perbedaan utama di antara mereka adalah bahwa interpretasi hanya berisi informasi yang relevan secara linguistik tentang rencana isi kata, dan bingkai, pertama, tidak harus terikat pada kata, dan, kedua, mencakup semua informasi yang relevan dengan masalah yang diberikan. situasi, termasuk termasuk ekstralinguistik (pengetahuan tentang dunia) 3).

Skenario adalah kerangka kerja konseptual untuk representasi prosedural pengetahuan tentang situasi atau perilaku stereotip. Elemen skrip adalah langkah-langkah dari suatu algoritma atau instruksi. Orang biasanya berbicara tentang "skenario restoran", "skenario pembelian" dan sebagainya.

Bingkai awalnya juga digunakan untuk presentasi prosedural (lih. istilah "bingkai prosedural"), tetapi istilah "skenario" sekarang lebih umum digunakan dalam pengertian ini. Skenario dapat direpresentasikan tidak hanya sebagai algoritma, tetapi juga sebagai jaringan, simpul yang sesuai dengan situasi tertentu, dan busur sesuai dengan koneksi antar situasi. Seiring dengan konsep skrip, beberapa peneliti menggunakan kategori skrip untuk pemodelan kecerdasan komputer. Menurut R. Schenk, naskah adalah beberapa urutan yang diterima secara umum dan terkenal hal menyebabkan. Misalnya, memahami dialog

Di jalan itu mengalir seperti ember.

Anda masih harus pergi ke toko: tidak ada apa-apa di rumah - kemarin para tamu menyapu semuanya.

didasarkan pada tautan semantik non-eksplisit seperti "jika sedang hujan, tidak diinginkan untuk pergi ke luar, karena Anda bisa sakit." Koneksi ini membentuk skrip, yang digunakan oleh penutur asli untuk memahami perilaku verbal dan non-verbal satu sama lain.

Sebagai hasil dari penerapan skenario pada situasi masalah tertentu, a rencana). Cetak biru digunakan untuk secara prosedural mewakili pengetahuan tentang tindakan yang mungkin dilakukan mengarah pada pencapaian tujuan spesifik. Rencana menghubungkan tujuan dengan urutan tindakan.

PADA kasus umum rencana tersebut mencakup urutan prosedur yang mentransfer keadaan awal sistem ke keadaan akhir dan mengarah pada pencapaian subtujuan dan sasaran tertentu. Dalam sistem AI, rencana muncul sebagai hasil dari aktivitas perencanaan atau perencanaan modul yang sesuai - modul perencanaan. Proses perencanaan mungkin didasarkan pada adaptasi data dari satu atau lebih skenario, diaktifkan oleh prosedur pengujian, untuk memecahkan situasi masalah. Eksekusi rencana dilakukan oleh modul eksekutif yang mengontrol prosedur kognitif dan tindakan fisik sistem. Dalam kasus dasar, rencana di sistem intelektual adalah urutan operasi sederhana; dalam versi yang lebih kompleks, rencana dikaitkan dengan subjek tertentu, sumber daya, kemampuan, tujuan, Informasi rinci tentang situasi yang bermasalah, dll. Munculnya rencana terjadi dalam proses komunikasi antara model dunia, yang sebagian dibentuk oleh skenario, modul perencanaan dan modul eksekutif.

Tidak seperti naskah, rencana adalah tentang situasi tertentu, pemain tertentu dan mengejar pencapaian tujuan tertentu. Pilihan rencana diatur oleh sumber daya kontraktor. Kelayakan rencana - kondisi yang diperlukan generasinya dalam sistem kognitif, dan karakteristik kepuasan tidak dapat diterapkan pada skenario.

Satu lagi konsep penting- model dunia. Model dunia biasanya dipahami sebagai seperangkat pengetahuan tentang dunia yang diatur dengan cara tertentu, yang melekat dalam sistem kognitif atau model komputernya. Dalam beberapa lagi pandangan umum model dunia dibicarakan sebagai bagian dari sistem kognitif yang menyimpan pengetahuan tentang struktur dunia, polanya, dll. Dalam arti lain, model dunia dikaitkan dengan hasil pemahaman teks atau, lebih luas lagi, wacana. Dalam proses memahami wacana, model mentalnya dibangun, yang merupakan hasil interaksi antara rencana isi teks dan pengetahuan tentang dunia yang melekat pada subjek ini [Johnson-Laird 1988, hlm. 237 et urutan]. Pemahaman pertama dan kedua sering digabungkan. Ini adalah tipikal peneliti linguistik yang bekerja dalam linguistik kognitif dan ilmu kognitif.

Terkait erat dengan kategori bingkai adalah konsep adegan. Kategori adegan terutama digunakan dalam literatur sebagai penunjukan struktur konseptual untuk representasi deklaratif dari diaktualisasikan tindak tutur dan berdedikasi bahasa berarti(token, konstruksi sintaksis, kategori tata bahasa dll) situasi dan bagian-bagiannya5). Karena diasosiasikan dengan bentuk-bentuk linguistik, adegannya sering diperbarui kata tertentu atau ekspresi. Dalam tata bahasa plot (lihat di bawah), sebuah adegan muncul sebagai bagian dari sebuah episode atau narasi. Contoh tipikal adegan - satu set kubus yang bekerja dengan sistem AI, adegan dalam cerita dan peserta dalam aksi, dll. Dalam kecerdasan buatan, adegan digunakan dalam sistem pengenalan gambar, serta dalam program berorientasi penelitian (analisis, deskripsi) situasi masalah. Konsep adegan telah menyebar luas dalam linguistik teoretis, serta dalam logika, khususnya dalam semantik situasional, di mana makna item leksikal menghubungkan langsung ke tempat kejadian.