Linguistik mesin. Sejarah, perkembangan dan pembentukan linguistik komputasi sebagai arah ilmiah

Filologi sekolah menengah atas Ekonomi, program master baru sedang diluncurkan didedikasikan untuk linguistik komputasi: menyambut pelamar dengan pendidikan dasar kemanusiaan dan matematika dan siapa saja yang tertarik untuk memecahkan masalah di salah satu cabang ilmu yang paling menjanjikan. Pemimpinnya, Anastasia Bonch-Osmolovskaya, mengatakan kepada Theory and Practice apa itu komputasi linguistik, mengapa robot tidak akan menggantikan manusia, dan apa yang akan mereka ajarkan dalam gelar master HSE dalam Linguistik Komputasi.

Program ini hampir satu-satunya di Rusia. Di mana Anda belajar sendiri?

Saya belajar di Universitas Negeri Moskow di Departemen Linguistik Teoritis dan Terapan Fakultas Filologi. Saya tidak langsung ke sana, awalnya saya masuk cabang Rusia, tetapi kemudian saya menjadi sangat tertarik pada linguistik, dan saya tertarik dengan suasana yang bertahan di departemen tersebut hingga hari ini. Yang terpenting ada kontak yang baik antara guru dan siswa dan kepentingan bersama mereka.

Ketika saya punya anak dan harus mencari nafkah, saya masuk ke bidang linguistik komersial. Pada tahun 2005, tidak begitu jelas kegiatan apa yang dimaksud. Saya bekerja di perusahaan linguistik yang berbeda: Saya mulai dengan sebuah perusahaan kecil di situs web Public.ru - ini adalah perpustakaan media, tempat saya mulai bekerja dengan teknologi linguistik. Kemudian saya bekerja selama satu tahun di Rosnanotech, di mana saya memiliki ide untuk membuat portal analitik sehingga data di dalamnya akan terstruktur secara otomatis. Kemudian saya mengepalai departemen linguistik di perusahaan Avicomp - ini sudah merupakan produksi yang serius di lapangan linguistik komputasi dan teknologi semantik. Pada saat yang sama, saya mengajar kursus linguistik komputasi di Universitas Negeri Moskow dan mencoba membuatnya lebih modern.

Dua sumber daya untuk ahli bahasa: - situs yang dibuat oleh ahli bahasa untuk penelitian ilmiah dan terapan yang berkaitan dengan bahasa Rusia. Ini adalah model bahasa Rusia, disajikan dengan bantuan sejumlah besar teks dari berbagai genre dan periode. Teks dilengkapi dengan markup linguistik, yang dapat digunakan untuk memperoleh informasi tentang frekuensi fenomena linguistik tertentu. Wordnet - database leksikal yang sangat besar dalam Bahasa Inggris, ide utama Wordnet - untuk menghubungkan bukan kata-kata, tetapi artinya menjadi satu jaringan besar. Wordnet dapat diunduh dan digunakan untuk proyek Anda sendiri.

Apa yang dilakukan linguistik komputasi?

Ini adalah bidang yang paling interdisipliner. Hal terpenting di sini adalah memahami apa yang terjadi di dunia elektronik dan siapa yang akan membantu Anda melakukan hal-hal tertentu.

Kami dikelilingi oleh sejumlah besar informasi digital, ada banyak proyek bisnis yang keberhasilannya tergantung pada pemrosesan informasi, proyek ini dapat terkait dengan pemasaran, politik, ekonomi, dan apa pun. Dan sangat penting untuk dapat menangani informasi ini secara efektif - hal utama tidak hanya kecepatan pemrosesan informasi, tetapi juga kemudahan yang Anda dapat, setelah menyaring kebisingan, mendapatkan data yang Anda butuhkan dan membuat seluruh gambar dari mereka.

Sebelumnya, beberapa ide global dikaitkan dengan linguistik komputasi, misalnya: orang berpikir bahwa terjemahan mesin akan menggantikan terjemahan manusia, robot akan bekerja, bukan manusia. Tapi sekarang sepertinya utopia, dan terjemahan mesin digunakan di mesin pencari untuk mencari dengan cepat dalam bahasa yang tidak dikenal. Artinya, sekarang linguistik jarang berurusan dengan tugas-tugas abstrak - kebanyakan dengan beberapa hal kecil yang dapat dimasukkan ke dalam produk besar dan menghasilkan uang darinya.

Satu dari tugas besar linguistik modern - web semantik, ketika pencarian terjadi bukan hanya karena kebetulan kata-kata, tetapi juga dengan makna, dan semua situs entah bagaimana ditandai oleh semantik. Ini bisa berguna, misalnya, untuk laporan polisi atau medis yang ditulis setiap hari. Analisis koneksi internal memberikan banyak informasi yang diperlukan, dan sangat panjang untuk membaca dan menghitungnya secara manual.

Singkatnya, kami memiliki seribu teks, kami perlu mengurutkannya menjadi tumpukan, menyajikan setiap teks sebagai struktur dan mendapatkan tabel yang sudah dapat kami kerjakan. Ini disebut pemrosesan informasi tidak terstruktur. Di sisi lain, linguistik komputasional, misalnya, dengan penciptaan teks buatan. Ada perusahaan yang datang dengan mekanisme untuk menghasilkan teks tentang topik yang membosankan bagi seseorang untuk ditulis: perubahan harga real estat, ramalan cuaca, laporan pertandingan sepakbola. Jauh lebih mahal untuk memesan teks-teks ini untuk seseorang, apalagi, teks-teks komputer tentang topik-topik semacam itu ditulis dalam bahasa manusia yang koheren.

Perkembangan di bidang pencarian informasi tidak terstruktur di Rusia secara aktif terlibat dalam perekrutan "Yandex", "Kaspersky Lab" kelompok riset siapa yang belajar? pembelajaran mesin. Apakah seseorang di pasar mencoba menghasilkan sesuatu yang baru di bidang linguistik komputasi?

**Buku tentang Linguistik Komputasi:**

Daniel Jurafsky, Pemrosesan Pidato dan Bahasa

Christopher Manning, Prabhakar Raghavan, Heinrich Schütze, Pengantar Pengambilan Informasi

Jacob Testelec, "Pengantar Sintaks Umum"

Sebagian besar perkembangan linguistik adalah milik perusahaan besar, hampir tidak ada yang dapat ditemukan di akses terbuka. Ini menghambat perkembangan industri, kami tidak memiliki pasar linguistik bebas, solusi kotak.

Apalagi ada kekurangan sumber informasi. Ada proyek seperti Korpus Nasional Bahasa Rusia. Ini adalah salah satu korpus nasional terbaik di dunia, yang berkembang pesat dan membuka peluang luar biasa untuk ilmiah dan penelitian terapan. Perbedaannya hampir sama dengan biologi - sebelum dan sesudah penelitian DNA.

Tetapi banyak sumber daya tidak ada dalam bahasa Rusia. Jadi, tidak ada analog dengan sumber daya berbahasa Inggris yang luar biasa seperti Framenet - ini adalah jaringan konseptual, di mana semua kemungkinan koneksi dari kata tertentu dengan kata lain disajikan secara formal. Misalnya, ada kata "terbang" - siapa yang bisa terbang, di mana, dengan dalih apa kata ini digunakan, dengan kata apa digabungkan, dan sebagainya. Sumber daya ini membantu menghubungkan bahasa dengan kehidupan nyata, yaitu, untuk melacak bagaimana kata tertentu berperilaku pada tingkat morfologi dan sintaksis. Itu sangat berguna.

Avicomp saat ini sedang mengembangkan plug-in untuk mencari artikel terkait. Artinya, jika Anda tertarik pada beberapa artikel, Anda dapat dengan cepat melihat sejarah plot: kapan topik muncul, apa yang ditulis, dan kapan puncak minat dalam masalah ini. Misalnya, dengan menggunakan plugin ini, dimungkinkan, mulai dari artikel tentang peristiwa di Suriah, untuk melihat caranya dengan sangat cepat tahun lalu peristiwa yang terjadi di sana.

Bagaimana proses pembelajaran di program magister akan disusun?

Pendidikan di HSE diatur ke dalam modul terpisah - seperti di universitas barat. Siswa akan dibagi menjadi tim kecil, mini-startup - yaitu, pada akhirnya kita harus mendapatkan beberapa proyek selesai. Kami ingin mendapatkan produk nyata, yang kemudian akan kami buka untuk orang-orang dan biarkan di domain publik.

Selain pengawas langsung proyek siswa, kami ingin mencari kurator untuk mereka dari antara mereka calon majikan- dari "Yandex" yang sama, misalnya, yang juga akan memainkan game ini dan memberikan beberapa saran kepada siswa.

Saya berharap bahwa orang-orang dari yang paling daerah yang berbeda: programmer, ahli bahasa, sosiolog, pemasar. Kami akan memiliki beberapa kursus adaptasi dalam linguistik, matematika dan pemrograman. Kemudian kita akan memiliki dua kursus serius dalam linguistik, dan mereka akan terhubung dengan yang paling relevan teori linguistik, kami ingin lulusan kami dapat membaca dan memahami artikel linguistik kontemporer. Sama halnya dengan matematika. Kami akan memiliki kursus yang disebut "Dasar Matematika Linguistik Komputasi", yang akan menyajikan bagian-bagian matematika yang menjadi dasar linguistik komputasi modern.

Untuk mendaftar di program master, Anda harus lulus ujian masuk dalam bahasa dan lulus kompetisi portofolio.

Selain mata kuliah utama, akan ada sederet mata kuliah pilihan Kami telah merencanakan beberapa siklus - dua di antaranya difokuskan pada studi yang lebih dalam tentang topik individu, yang meliputi, misalnya, terjemahan mesin dan linguistik korpus, dan, pada sebaliknya, satu terkait dengan bidang terkait: seperti , jejaring sosial, pembelajaran mesin, atau Humaniora Digital - kursus yang kami harap akan disampaikan dalam bahasa Inggris.

Ahli bahasa komputer terlibat dalam pengembangan algoritma pengenalan teks dan ucapan, sintesis ucapan buatan, penciptaan sistem terjemahan semantik dan pengembangan kecerdasan buatan (dalam arti kata klasik, sebagai pengganti kecerdasan manusia, itu tidak mungkin pernah muncul, tetapi berbagai sistem pakar berdasarkan analisis data).

Algoritma pengenalan suara akan semakin banyak digunakan dalam kehidupan sehari-hari - rumah pintar dan perangkat elektronik tidak akan memiliki remote dan tombol, tetapi antarmuka suara akan digunakan sebagai gantinya. Teknologi ini sedang disempurnakan, tetapi masih banyak tantangan: sulit bagi komputer untuk mengenali ucapan manusia, karena orang yang berbeda berbicara dengan sangat berbeda. Oleh karena itu, sebagai aturan, sistem pengenalan bekerja dengan baik baik ketika mereka dilatih untuk satu pembicara dan sudah disesuaikan dengan fitur pengucapannya, atau ketika jumlah frasa yang dapat dikenali sistem terbatas (seperti, misalnya, dalam perintah suara untuk TV ).

Spesialis dalam pembuatan program terjemahan semantik masih memiliki banyak pekerjaan di depan mereka: saat ini algoritma yang baik dikembangkan hanya untuk terjemahan ke dan dari bahasa Inggris. Ada banyak masalah di sini - bahasa yang berbeda disusun secara berbeda dalam rencana semantik, ini bahkan berbeda pada tingkat konstruksi frasa, dan tidak semua makna dari satu bahasa dapat disampaikan menggunakan perangkat semantik bahasa lain. Selain itu, program harus membedakan antara homonim, mengenali bagian ucapan dengan benar, memilih nilai yang benar kata polisemantik yang sesuai dengan konteksnya.

Mensintesis ucapan buatan (misalnya, untuk robot rumahan) juga merupakan pekerjaan yang melelahkan. Sulit untuk membuat ucapan yang dibuat secara artifisial terdengar alami untuk telinga manusia, karena ada jutaan nuansa yang tidak kita perhatikan, tetapi tanpanya semuanya tidak lagi "itu" - awal yang salah, jeda, hambatan, dll. Aliran bicara terus menerus dan pada saat yang sama terpisah: kami berbicara tanpa jeda di antara kata-kata, tetapi tidak sulit bagi kami untuk memahami di mana satu kata berakhir dan yang lain dimulai, dan untuk mesin ini akan menjadi masalah besar.

Arah terbesar dalam linguistik komputasi terhubung dengan Big Data. Lagi pula, ada banyak sekali teks seperti umpan berita, yang darinya Anda perlu mengisolasi informasi tertentu - misalnya, menyoroti peristiwa yang layak diberitakan atau mempertajam RSS sesuai selera pengguna tertentu. Teknologi seperti itu sudah ada dan akan terus berkembang, karena daya komputasi berkembang pesat. Analisis linguistik teks juga digunakan untuk memastikan keamanan di Internet, pencarian informasi yang perlu untuk layanan khusus.

Di mana belajar sebagai ahli bahasa komputasi? Sayangnya, kami memiliki pembagian yang cukup kuat antara spesialisasi yang berkaitan dengan linguistik klasik dan pemrograman, statistik, dan analisis data. Dan untuk menjadi ahli bahasa digital, Anda perlu memahami keduanya. PADA universitas asing ada program pendidikan tinggi dalam linguistik komputasi, tetapi kami masih memiliki pilihan terbaik- mendapatkan pendidikan linguistik dasar, kemudian menguasai dasar-dasar IT. Ada baiknya sekarang ada banyak kursus online yang berbeda, sayangnya, di masa mahasiswa saya, ini tidak terjadi. Saya belajar di Fakultas Linguistik Terapan di Universitas Linguistik Negeri Moskow, di mana kami memiliki kursus kecerdasan buatan dan pengenalan suara - tetapi masih belum cukup. Sekarang perusahaan IT secara aktif mencoba untuk berinteraksi dengan institusi. Rekan-rekan saya dari Kaspersky Lab dan saya juga mencoba untuk berpartisipasi dalam proses pendidikan: kami memberikan kuliah, mengadakan konferensi mahasiswa, memberikan hibah kepada mahasiswa pascasarjana. Namun untuk saat ini, inisiatif lebih banyak datang dari pengusaha daripada dari universitas.

PEKERJAAN KURSUS

dalam disiplin "Informatika"

pada topik: "Linguistik Komputer"


PENGANTAR

2. Antarmuka modern linguistik komputasi

KESIMPULAN

LITERATUR


pengantar

Teknologi informasi otomatis memainkan peran penting dalam kehidupan masyarakat modern. Dengan berlalunya waktu, nilainya terus meningkat. Namun perkembangan teknologi informasi sangat tidak merata: jika tingkat modern teknologi komputer dan sarana komunikasi menyerang imajinasi, kemudian di bidang pemrosesan informasi semantik, keberhasilannya jauh lebih sederhana. Keberhasilan ini tergantung, pertama-tama, pada pencapaian dalam studi tentang proses berpikir manusia, proses komunikasi ucapan di antara orang-orang, dan pada kemampuan untuk mensimulasikan proses ini di komputer.

Ketika datang untuk menciptakan teknologi informasi yang menjanjikan, masalah pemrosesan otomatis informasi teks disajikan dalam bahasa alami muncul ke permukaan. Hal ini ditentukan oleh fakta bahwa pemikiran seseorang berhubungan erat dengan bahasanya. Selain itu, bahasa alami adalah alat berpikir. Dia juga obat universal komunikasi antara orang-orang - sarana persepsi, akumulasi, penyimpanan, pemrosesan, dan transmisi informasi. Masalah penggunaan bahasa alami dalam sistem pemrosesan informasi otomatis ditangani oleh ilmu linguistik komputasi. Ilmu ini muncul relatif baru - pada pergantian tahun lima puluhan dan enam puluhan abad terakhir. Selama setengah abad terakhir, hasil ilmiah dan praktis yang signifikan telah diperoleh di bidang linguistik komputasi: sistem mesin penerjemah teks dari satu bahasa alami ke bahasa alami lainnya, sistem untuk pencarian otomatis informasi dalam teks, sistem untuk analisis otomatis dan sintesis ucapan lisan, dan banyak lainnya. pekerjaan ini dikhususkan untuk pembangunan antarmuka komputer yang optimal menggunakan linguistik komputasi saat melakukan penelitian linguistik.


1. Tempat dan peran linguistik komputasional dalam penelitian linguistik

PADA dunia modern Linguistik komputasi semakin banyak digunakan dalam berbagai studi linguistik.

Linguistik komputasional adalah bidang pengetahuan yang terkait dengan pemecahan masalah pemrosesan otomatis informasi yang disajikan dalam bahasa alami. Pusat masalah ilmiah linguistik komputasional adalah masalah pemodelan proses pemahaman makna teks (transisi dari teks ke representasi formal maknanya) dan masalah sintesis ucapan (transisi dari representasi makna formal ke teks dalam bahasa alami). Masalah-masalah ini muncul ketika memecahkan sejumlah masalah yang diterapkan dan, khususnya, masalah deteksi otomatis dan koreksi kesalahan saat memasukkan teks ke dalam komputer, analisis otomatis dan sintesis ucapan lisan, terjemahan otomatis teks dari satu bahasa ke bahasa lain, komunikasi dengan komputer dalam bahasa alami, klasifikasi otomatis dan pengindeksan dokumen teks, referensi otomatisnya, mencari dokumen dalam database teks lengkap.

Alat linguistik yang dibuat dan digunakan dalam linguistik komputasional dapat secara kondisional dibagi menjadi dua bagian: deklaratif dan prosedural. Bagian deklaratif meliputi kamus bahasa dan satuan ujaran, teks dan berbagai macam tabel tata bahasa, sedangkan bagian prosedural meliputi sarana memanipulasi satuan bahasa dan ujaran, teks dan tabel tata bahasa. Antarmuka komputer mengacu pada bagian prosedural linguistik komputasi.

Keberhasilan dalam memecahkan masalah terapan linguistik komputasi tergantung, pertama-tama, pada kelengkapan dan keakuratan representasi sarana deklaratif dalam memori komputer dan pada kualitas sarana prosedural. Sampai saat ini, tingkat pemecahan masalah yang diperlukan belum tercapai, meskipun pekerjaan di bidang linguistik komputasi sedang dilakukan di semua bidang. negara maju dunia (Rusia, AS, Inggris, Prancis, Jerman, Jepang, dll.).

Namun demikian, prestasi ilmiah dan praktis yang serius di bidang linguistik komputasi dapat dicatat. Jadi di sejumlah negara (Rusia, Amerika Serikat, Jepang, dll.) sistem eksperimental dan industri untuk terjemahan mesin teks dari satu bahasa ke bahasa lain telah dibangun, sejumlah sistem eksperimental untuk berkomunikasi dengan komputer dalam bahasa alami telah dibangun. , pekerjaan sedang dilakukan untuk membuat bank data terminologis, tesauri, kamus mesin bilingual dan multibahasa (Rusia, AS, Jerman, Prancis, dll.), Sistem untuk analisis otomatis dan sintesis ucapan lisan sedang dibangun (Rusia, AS, Jepang, dll.), Sistem untuk analisis otomatis dan sintesis ucapan lisan sedang dibangun. .), penelitian sedang berlangsung di bidang model bangunan bahasa alami.

Masalah metodologis penting dari linguistik komputasi terapan adalah penilaian yang benar dari korelasi yang diperlukan antara komponen deklaratif dan prosedural dari sistem pemrosesan informasi teks otomatis. Apa yang harus disukai: prosedur komputasi yang kuat berdasarkan sistem kosakata yang relatif kecil dengan informasi tata bahasa dan semantik yang kaya, atau komponen deklaratif yang kuat dengan antarmuka komputer yang relatif sederhana? Kebanyakan ilmuwan percaya bahwa cara kedua lebih disukai. Ini akan mengarah pada pencapaian tujuan praktis lebih cepat, karena dalam hal ini akan ada lebih sedikit jalan buntu dan hambatan yang sulit diatasi, dan di sini dimungkinkan untuk menggunakan komputer dalam skala yang lebih besar untuk mengotomatisasi penelitian dan pengembangan.

Kebutuhan untuk memobilisasi upaya, terutama pada pengembangan komponen deklaratif dari sistem pemrosesan teks otomatis, dikonfirmasi oleh pengalaman setengah abad dalam pengembangan linguistik komputasi. Lagi pula, di sini, terlepas dari keberhasilan yang tak terbantahkan dari ilmu ini, antusiasme untuk prosedur algoritmik tidak membawa kesuksesan yang diharapkan. Bahkan ada beberapa kekecewaan dalam kemungkinan cara prosedural.

Mengingat hal tersebut di atas, jalur pengembangan linguistik komputasi seperti itu tampaknya menjanjikan, ketika upaya utama akan diarahkan pada penciptaan kamus unit bahasa dan ucapan yang kuat, studi tentang struktur semantik-sintaksis mereka dan penciptaan prosedur dasar untuk analisis morfologis, semantik-sintaksis dan konseptual dan sintesis teks. Ini akan memungkinkan untuk memecahkan berbagai masalah yang diterapkan di masa depan.

Linguistik komputasional menghadapi, pertama-tama, tugas dukungan linguistik untuk proses pengumpulan, pengumpulan, pemrosesan, dan pencarian informasi. Yang paling penting dari mereka adalah:

1. Otomatisasi kompilasi dan pemrosesan linguistik kamus mesin;

2. Otomatisasi proses pendeteksian dan koreksi kesalahan saat memasukkan teks ke dalam komputer;

3. Pengindeksan dokumen dan permintaan informasi secara otomatis;

4. Klasifikasi otomatis dan referensi dokumen;

5. Dukungan linguistik dari proses pencarian informasi dalam database monolingual dan multibahasa;

6. Penerjemahan teks dengan mesin dari satu bahasa alami ke bahasa alami lainnya;

7. Konstruksi prosesor linguistik yang menyediakan komunikasi bagi pengguna dengan sistem informasi cerdas otomatis (khususnya, dengan sistem pakar) dalam bahasa alami, atau dalam bahasa yang mendekati alami;

8. Ekstraksi informasi faktual dari teks nonformal.

Mari kita membahas secara rinci masalah yang paling relevan dengan topik penelitian.

PADA kegiatan praktikum pusat informasi, ada kebutuhan untuk memecahkan masalah deteksi otomatis dan koreksi kesalahan dalam teks ketika dimasukkan ke komputer. Tugas kompleks ini secara kondisional dapat dibagi menjadi tiga tugas - tugas mengeja, sintaksis, dan kontrol semantik teks. Yang pertama dapat diselesaikan dengan menggunakan prosedur analisis morfologis, yang menggunakan kamus mesin referensi yang cukup kuat dari batang kata. Dalam proses pengendalian ejaan, kata-kata dari teks dikenai analisis morfologis, dan jika basisnya diidentifikasi dengan basis kamus referensi, maka kata tersebut dianggap benar; jika mereka tidak diidentifikasi, maka mereka, disertai dengan konteks mikro, diberikan untuk dilihat oleh seseorang. Seseorang mendeteksi dan mengoreksi kata-kata yang terdistorsi, dan sistem perangkat lunak yang sesuai membuat koreksi ini pada teks yang dikoreksi.

Tugas kontrol sintaksis teks untuk mendeteksi kesalahan di dalamnya jauh lebih sulit daripada tugas kontrol ejaan mereka. Pertama, karena termasuk dalam komposisinya tugas pengendalian ejaan sebagai komponen wajibnya, dan kedua, karena masalah analisis sintaksis teks nonformal belum sepenuhnya terselesaikan. Namun, kontrol sintaksis parsial teks sangat mungkin. Ada dua cara untuk pergi di sini: baik menyusun kamus mesin yang cukup representatif dari struktur sintaksis referensi dan membandingkan struktur sintaksis dari teks yang dianalisis dengan mereka; atau mengembangkan sistem aturan yang kompleks untuk memeriksa konsistensi tata bahasa elemen teks. Cara pertama bagi kami tampaknya lebih menjanjikan, meskipun, tentu saja, tidak mengecualikan kemungkinan menggunakan elemen cara kedua. Struktur sintaksis teks harus dijelaskan dalam hal kelas gramatikal kata (lebih tepatnya, dalam bentuk urutan set informasi tata bahasa untuk kata-kata).

Tugas kontrol semantik teks untuk mendeteksi kesalahan semantik di dalamnya harus dikaitkan dengan kelas tugas kecerdasan buatan. Secara penuh, itu hanya dapat diselesaikan atas dasar pemodelan proses pemikiran manusia. Pada saat yang sama, tampaknya, akan diperlukan untuk menciptakan basis pengetahuan ensiklopedis yang kuat dan perangkat lunak untuk memanipulasi pengetahuan. Namun demikian, untuk bidang studi yang terbatas dan untuk informasi formal, masalah ini cukup dapat dipecahkan. Ini harus diajukan dan dipecahkan sebagai tugas kontrol semantik-sintaksis teks.

Masalah mengotomatisasi pengindeksan dokumen dan kueri adalah tradisional untuk sistem pencarian teks otomatis. Pada awalnya, pengindeksan dipahami sebagai proses penetapan indeks klasifikasi ke dokumen dan kueri, yang mencerminkan konten tematiknya. Di masa depan, konsep ini diubah dan istilah "pengindeksan" mulai merujuk pada proses menerjemahkan deskripsi dokumen dan kueri dari bahasa alami menjadi bahasa formal, khususnya, ke dalam bahasa "gambar pencarian". Gambar pencarian dokumen mulai, sebagai suatu peraturan, dibuat dalam bentuk daftar kata kunci dan frasa yang mencerminkan konten tematiknya, dan gambar pencarian kueri - dalam bentuk struktur logis di mana kata kunci dan frasa terhubung satu sama lain oleh operator logika dan sintaksis.

Pengindeksan otomatis dokumen mudah dilakukan sesuai dengan teks abstraknya (jika ada), karena konten utama dokumen tercermin dalam abstrak dalam bentuk terkonsentrasi. Pengindeksan dapat dilakukan dengan atau tanpa kontrol tesaurus. Dalam kasus pertama, kata kunci dan frase dari kamus mesin referensi dicari dalam teks judul dokumen dan abstraknya, dan hanya yang ditemukan dalam kamus yang dimasukkan dalam DOD. Dalam kasus kedua, kata kunci dan frasa diekstraksi dari teks dan dimasukkan ke dalam POD, terlepas dari apakah mereka termasuk dalam kamus referensi. Opsi ketiga juga diterapkan, di mana, bersama dengan istilah dari tesaurus mesin, AML juga menyertakan istilah yang diambil dari judul dan kalimat pertama dari abstrak dokumen. Eksperimen telah menunjukkan bahwa POD yang dikompilasi secara otomatis berdasarkan judul dan abstrak dokumen memberikan kelengkapan pencarian yang lebih besar daripada POD yang dikompilasi secara manual. Hal ini dijelaskan oleh fakta bahwa sistem pengindeksan otomatis lebih mencerminkan berbagai aspek isi dokumen daripada sistem pengindeksan manual.

Dengan pengindeksan otomatis kueri, masalah yang kira-kira sama muncul seperti pengindeksan dokumen secara otomatis. Di sini Anda juga harus mengekstrak kata kunci dan frasa dari teks dan menormalkan kata-kata yang termasuk dalam teks kueri. Tautan logis antara kata kunci dan frasa dan operator kontekstual dapat dimasukkan secara manual atau menggunakan prosedur otomatis. Sebuah elemen penting Proses pengindeksan otomatis kueri adalah penambahan kata kunci dan frasa dengan sinonim dan hiponimnya (terkadang juga hipernim dan istilah lain yang terkait dengan istilah asli kueri). Ini dapat dilakukan secara otomatis atau interaktif menggunakan tesaurus mesin.

Kami telah mempertimbangkan sebagian masalah mengotomatisasi pencarian informasi dokumenter sehubungan dengan tugas pengindeksan otomatis. Yang paling menjanjikan di sini adalah pencarian dokumen dengan teks lengkapnya, karena penggunaan segala jenis pengganti untuk tujuan ini (deskripsi bibliografi, pencarian gambar dokumen dan teks abstraknya) menyebabkan hilangnya informasi selama pencarian. Kerugian terbesar terjadi ketika deskripsi bibliografi mereka digunakan sebagai pengganti dokumen utama, yang terkecil - ketika abstrak digunakan.

Fitur Penting Kualitas temu kembali informasi adalah kelengkapan dan akurasinya. Kelengkapan pencarian dapat dipastikan dengan mempertimbangkan sebanyak mungkin tautan paradigmatik antara unit bahasa dan ucapan (kata dan frasa), dan akurasi - dengan mempertimbangkan tautan sintagmatiknya. Ada pendapat bahwa kelengkapan dan keakuratan pencarian terkait terbalik: langkah-langkah untuk meningkatkan salah satu karakteristik ini menyebabkan penurunan yang lain. Tapi ini hanya berlaku untuk logika pencarian tetap. Jika logika ini diperbaiki, maka kedua karakteristik dapat ditingkatkan secara bersamaan.

Proses pencarian informasi dalam basis data teks lengkap harus dibangun sebagai proses komunikasi interaktif antara pengguna dan sistem temu kembali informasi (IPS), di mana ia secara berurutan melihat melalui fragmen teks (paragraf, paragraf) yang memuaskan. kondisi logis permintaan, dan memilih orang-orang yang menarik baginya. Karena hasil pencarian akhir dapat diberikan sebagai teks lengkap dokumen, serta setiap fragmennya.

Seperti dapat dilihat dari pertimbangan sebelumnya, dalam pencarian informasi secara otomatis, seseorang harus mengatasi hambatan bahasa yang muncul antara pengguna dan IPS karena berbagai bentuk representasi makna yang sama yang terjadi dalam teks. Hambatan ini menjadi lebih signifikan jika Anda harus mencari di database multibahasa. Solusi utama dari masalah di sini adalah terjemahan mesin teks dokumen dari satu bahasa ke bahasa lain. Ini dapat dilakukan baik sebelumnya, sebelum mengunggah dokumen ke mesin pencari, atau dalam proses mencari informasi. PADA kasus terakhir kueri pengguna harus diterjemahkan ke dalam bahasa larik dokumen tempat pencarian dilakukan, dan hasil pencarian ke dalam bahasa kueri. Dari jenis seperti itu mesin pencari sudah bekerja di Internet. Sistem Browser Sirilik juga dibangun di VINITI RAS, yang memungkinkan pencarian informasi dalam teks berbahasa Rusia pada kueri dalam bahasa Inggris dengan hasil pencarian juga ditampilkan dalam bahasa pengguna.

Tugas linguistik komputasional yang penting dan menjanjikan adalah pembangunan prosesor linguistik yang menyediakan komunikasi bagi pengguna dengan sistem informasi otomatis yang cerdas (khususnya, dengan sistem pakar) dalam bahasa alami atau dalam bahasa yang mendekati alami. Karena informasi disimpan dalam bentuk formal dalam sistem cerdas modern, pemroses linguistik, yang bertindak sebagai perantara antara seseorang dan komputer, harus menyelesaikan tugas-tugas utama berikut: 1) tugas memindahkan dari teks permintaan informasi input dan pesan dalam bahasa alami untuk mewakili maknanya dalam bahasa formal (saat memasukkan informasi ke dalam komputer); 2) tugas transisi dari representasi formal makna pesan keluaran ke representasinya dalam bahasa alami (ketika informasi diberikan kepada seseorang). Tugas pertama harus diselesaikan dengan analisis morfologis, sintaksis, dan konseptual dari permintaan dan pesan input, yang kedua - dengan sintesis konseptual, sintaksis, dan morfologis dari pesan output.

Analisis konseptual permintaan informasi dan pesan terdiri dalam mengidentifikasi struktur konseptual mereka (batas nama konsep dan hubungan antara konsep dalam teks) dan menerjemahkan struktur ini ke dalam bahasa formal. Ini dilakukan setelah analisis morfologis dan sintaksis permintaan dan pesan. Sintesis konseptual pesan terdiri dari transisi dari representasi elemen strukturnya dalam bahasa formal ke representasi verbal (verbal). Setelah itu, pesan-pesan tersebut diberikan desain sintaksis dan morfologis yang diperlukan.

Untuk terjemahan mesin teks dari satu bahasa alami ke bahasa lain, perlu untuk memiliki kamus terjemahan yang sesuai antara nama-nama konsep. Pengetahuan tentang korespondensi terjemahan semacam itu dikumpulkan oleh banyak generasi orang dan diterbitkan dalam bentuk edisi khusus - kamus dwibahasa atau multibahasa. Untuk spesialis yang sampai batas tertentu tahu bahasa asing, kamus ini berfungsi sebagai alat bantu yang berharga dalam menerjemahkan teks.

Dalam kamus dwibahasa dan multibahasa tradisional tujuan umum ekuivalen transfer diindikasikan terutama untuk kata-kata individu, untuk frasa - lebih jarang. Indikasi padanan terjemahan untuk frasa lebih khas untuk kamus terminologis khusus. Oleh karena itu, ketika menerjemahkan segmen teks yang mengandung kata polisemantik, siswa sering mengalami kesulitan.

Di bawah ini adalah korespondensi terjemahan antara beberapa pasang frasa bahasa Inggris dan Rusia tentang topik "sekolah".

1) Kelelawar terlihat seperti tikus dengan sayap - Kelelawar terlihat seperti tikus dengan sayap.

2) Anak-anak suka bermain pasir di pantai - Anak-anak suka bermain pasir di pantai.

3) Setetes hujan jatuh di tanganku - Setetes hujan jatuh di tanganku.

4) Kayu kering mudah terbakar - kayu kering mudah terbakar.

5) Dia pura-pura tidak mendengar saya - Dia pura-pura tidak mendengar saya.

Di sini frasa bahasa Inggris bukanlah ekspresi idiomatik. Namun demikian, terjemahan mereka ke dalam bahasa Rusia hanya dapat dianggap sebagai terjemahan kata demi kata yang sederhana, karena hampir semua kata yang termasuk di dalamnya adalah polisemi. Oleh karena itu, hanya prestasi linguistik komputasi yang dapat membantu siswa di sini.

Isi artikel

LINGUISTIKA KOMPUTER, arah dalam linguistik terapan, berfokus pada penggunaan alat komputer - program, teknologi komputer untuk mengatur dan memproses data - untuk memodelkan fungsi bahasa dalam kondisi, situasi, area masalah tertentu, dll., serta seluruh ruang lingkup komputer model bahasa dalam linguistik dan disiplin ilmu terkait. Sebenarnya, hanya dalam kasus terakhir kita berbicara tentang linguistik terapan dalam arti sempit, karena pemodelan komputer dari suatu bahasa juga dapat dianggap sebagai bidang penerapan ilmu komputer dan teori pemrograman untuk memecahkan masalah ilmu bahasa. Namun dalam praktiknya, hampir segala sesuatu yang berhubungan dengan penggunaan komputer dalam linguistik disebut sebagai linguistik komputasional.

Sebagai arah ilmiah khusus, linguistik komputasi mulai terbentuk pada 1960-an. Istilah Rusia "linguistik komputasional" adalah kertas kalkir dari linguistik komputasi bahasa Inggris. Karena komputasi kata sifat dalam bahasa Rusia juga dapat diterjemahkan sebagai "komputasi", istilah "linguistik komputasional" juga ditemukan dalam literatur, tetapi dalam sains Rusia ia memperoleh makna yang lebih sempit, mendekati konsep "linguistik kuantitatif". Arus publikasi di daerah ini sangat tinggi. Kecuali koleksi tematik, di Amerika Serikat, jurnal Computational Linguistics diterbitkan setiap tiga bulan. Organisasi yang hebat dan karya ilmiah dilakukan oleh Asosiasi Linguistik Komputasi, yang memiliki struktur regional (khususnya, cabang Eropa). Setiap dua tahun ada konferensi internasional tentang linguistik komputasi - COLING. Isu-isu yang relevan biasanya banyak diwakili juga di berbagai konferensi tentang kecerdasan buatan.

Toolkit Linguistik Komputasi.

Linguistik komputasional, sebagai disiplin terapan khusus, dibedakan terutama oleh alatnya - yaitu. tentang penggunaan alat komputer untuk memproses data bahasa. Sejauh program komputer, memodelkan aspek-aspek tertentu dari fungsi bahasa, dapat menggunakan sebagian besar berbagai cara pemrograman, maka tampaknya tidak perlu berbicara tentang aparat konseptual umum linguistik komputasi. Namun, tidak. Ada prinsip umum simulasi komputer berpikir, yang entah bagaimana diimplementasikan dalam model komputer apa pun. Mereka didasarkan pada teori pengetahuan, awalnya dikembangkan di bidang kecerdasan buatan, dan kemudian menjadi salah satu bagian dari ilmu kognitif. Yang paling penting kategori konseptual Linguistik komputasional adalah struktur pengetahuan seperti "bingkai" (konseptual, atau, seperti yang mereka katakan, struktur konseptual untuk representasi deklaratif pengetahuan tentang situasi terpadu tematik yang dicirikan), "skenario" (struktur konseptual untuk representasi prosedural pengetahuan tentang stereotip). situasi atau perilaku stereotip), "rencana" (struktur pengetahuan yang memperbaiki gagasan tentang tindakan yang mungkin dilakukan mengarah pada pencapaian tujuan spesifik). Konsep "adegan" erat kaitannya dengan kategori bingkai. Kategori adegan terutama digunakan dalam literatur tentang linguistik komputasi sebagai penunjukan struktur konseptual untuk representasi deklaratif situasi dan bagian-bagiannya yang diaktualisasikan dalam tindak tutur dan disorot oleh sarana linguistik (leksem, konstruksi sintaksis, kategori tata bahasa, dll. .).

Seperangkat struktur pengetahuan yang diatur dengan cara tertentu membentuk "model dunia" dari sistem kognitif dan model komputernya. Dalam sistem kecerdasan buatan, model dunia membentuk blok khusus, yang, tergantung pada arsitektur yang dipilih, dapat mencakup: pengetahuan umum tentang dunia (dalam bentuk proposisi sederhana seperti "dingin di musim dingin" atau dalam bentuk aturan produksi "jika hujan di luar, Anda perlu memakai jas hujan atau membawa payung"), beberapa fakta spesifik ("The puncak tertinggi di dunia adalah Everest"), dan juga nilai-nilai dan hierarkinya, kadang-kadang dipilih dalam "blok aksiologis" khusus.

Sebagian besar elemen konsep alat linguistik komputasi adalah homonim: mereka secara bersamaan menunjuk beberapa entitas nyata dari sistem kognitif manusia dan cara untuk mewakili entitas ini digunakan dalam deskripsi dan pemodelan teoretis mereka. Dengan kata lain, elemen peralatan konseptual Linguistik komputasional memiliki aspek ontologis dan instrumental. Misalnya, dalam aspek ontologis, pemisahan pengetahuan deklaratif dan prosedural sesuai dengan jenis yang berbeda pengetahuan yang dimiliki seseorang - yang disebut pengetahuan tentang APA (deklaratif; seperti, misalnya, pengetahuan alamat pos dari beberapa NN), di satu sisi, dan pengetahuan tentang BAGAIMANA (prosedural; seperti, misalnya, pengetahuan yang memungkinkan Anda menemukan apartemen NN ini, bahkan tanpa mengetahui alamat resminya) - di sisi lain. Dalam aspek instrumental, pengetahuan dapat diwujudkan dalam satu set deskripsi (deskripsi), dalam satu set data, di satu sisi, dan dalam algoritma, instruksi yang dijalankan oleh komputer atau model lain dari sistem kognitif, di sisi lain. lainnya.

Arah Linguistik Komputasi.

Lingkup CL sangat beragam dan mencakup bidang-bidang seperti pemodelan komunikasi komputer, pemodelan struktur plot, teknologi hypertext untuk presentasi teks, terjemahan mesin, leksikografi komputer. PADA pengertian sempit Masalah CL sering dikaitkan dengan area terapan interdisipliner dengan nama "pemrosesan bahasa alami" yang agak disayangkan (terjemahan dari istilah bahasa Inggris Pemrosesan Bahasa Alami). Itu muncul pada akhir 1960-an dan berkembang dalam kerangka disiplin ilmu pengetahuan dan teknologi "kecerdasan buatan". Dengan caranya sendiri bentuk dalam frase "pemrosesan bahasa alami" mencakup semua area di mana komputer digunakan untuk memproses data bahasa. Sementara itu, pemahaman yang lebih sempit tentang istilah ini telah menjadi tetap dalam praktik - pengembangan metode, teknologi, dan sistem khusus yang memastikan komunikasi antara seseorang dan komputer dalam bahasa alami atau terbatas.

Perkembangan pesat dari arah "pemrosesan bahasa alami" jatuh pada tahun 1970-an, yang dikaitkan dengan pertumbuhan eksponensial yang tidak terduga dalam jumlah pengguna akhir komputer. Karena tidak mungkin untuk mengajarkan bahasa dan teknologi pemrograman kepada semua pengguna, masalah mengatur interaksi dengan program komputer telah muncul. Solusi untuk masalah komunikasi ini mengikuti dua jalur utama. Dalam kasus pertama, upaya dilakukan untuk mengadaptasi bahasa pemrograman dan sistem operasi ke pengguna akhir. Akibatnya, bahasa tingkat tinggi seperti Visual Basic muncul, serta sistem operasi yang nyaman dibangun di ruang konseptual metafora yang akrab bagi manusia - MEJA, PERPUSTAKAAN. Cara kedua adalah pengembangan sistem yang memungkinkan interaksi dengan komputer di area masalah tertentu dalam bahasa alami atau versi terbatasnya.

Arsitektur sistem pemrosesan bahasa alami umumnya mencakup unit analisis pesan suara pengguna, blok interpretasi pesan, blok untuk menghasilkan makna jawaban, dan blok untuk mensintesis struktur permukaan sebuah ucapan. Bagian khusus dari sistem adalah komponen dialog, yang berisi strategi dialog, kondisi untuk menerapkan strategi tersebut, cara mengatasi kemungkinan kegagalan komunikasi (kegagalan dalam proses komunikasi).

Di antara sistem komputer pemrosesan bahasa alami, sistem tanya jawab biasanya dibedakan, sistem dialog pemecahan masalah dan sistem pemrosesan teks yang terhubung. Pada awalnya sistem tanya jawab mulai dikembangkan sebagai respon terhadap kualitas buruk pengkodean kueri saat mencari informasi dalam sistem temu kembali informasi. Karena area masalah dari sistem semacam itu sangat terbatas, ini agak menyederhanakan algoritma untuk menerjemahkan kueri ke dalam representasi bahasa formal dan prosedur sebaliknya untuk mengubah representasi formal menjadi pernyataan bahasa alami. Dari perkembangan dalam negeri, sistem POET, yang dibuat oleh tim peneliti yang dipimpin oleh E.V. Popov, termasuk dalam program jenis ini. Sistem memproses permintaan dalam bahasa Rusia (dengan batasan kecil) dan mensintesis respons. Diagram blok program mengasumsikan berlalunya semua tahap analisis (morfologis, sintaksis dan semantik) dan tahap sintesis yang sesuai.

Sistem dialog untuk memecahkan masalah, tidak seperti sistem jenis sebelumnya, bermain dalam komunikasi peran aktif, karena tugas mereka adalah mendapatkan solusi untuk masalah berdasarkan pengetahuan yang disajikan di dalamnya, dan pada informasi yang dapat diperoleh dari pengguna. Sistem berisi struktur pengetahuan yang merekam urutan tindakan yang khas untuk memecahkan masalah di area masalah tertentu, serta informasi tentang sumber daya yang diperlukan. Ketika pengguna mengajukan pertanyaan atau menetapkan tugas tertentu, skrip yang sesuai diaktifkan. Jika beberapa komponen skrip hilang atau beberapa sumber daya hilang, sistem akan memulai komunikasi. Beginilah, misalnya, sistem SNUKA bekerja, yang memecahkan masalah perencanaan operasi militer.

Sistem pemrosesan teks yang terhubung cukup beragam dalam struktur. Mereka fitur umum dapat dianggap meluasnya penggunaan teknologi representasi pengetahuan. Fungsi sistem semacam ini adalah untuk memahami teks dan menjawab pertanyaan tentang isinya. Pemahaman dianggap bukan sebagai kategori universal, tetapi sebagai proses penggalian informasi dari sebuah teks, ditentukan oleh niat komunikatif tertentu. Dengan kata lain, teks "dibaca" hanya dengan asumsi bahwa pengguna potensiallah yang ingin mengetahuinya. Dengan demikian, sistem pemrosesan teks yang terhubung ternyata tidak universal, tetapi berorientasi pada masalah. Contoh tipikal dari jenis sistem yang sedang dibahas adalah sistem PENELITI dan TAILOR, yang membentuk sistem tunggal paket perangkat lunak, yang memungkinkan pengguna untuk memperoleh informasi dari abstrak paten yang menjelaskan objek fisik yang kompleks.

Area terpenting linguistik komputasional adalah pengembangan sistem temu kembali informasi (IPS). Yang terakhir muncul pada akhir 1950-an dan awal 1960-an sebagai respons terhadap peningkatan tajam dalam volume informasi ilmiah dan teknis. Berdasarkan jenis informasi yang disimpan dan diproses, serta fitur pencarian, IPS dibagi menjadi dua kelompok besar - dokumenter dan faktual. Sistem informasi dokumenter menyimpan teks dokumen atau deskripsinya (abstrak, kartu bibliografi, dll.). IPS factographic berurusan dengan deskripsi fakta-fakta tertentu, dan tidak harus dalam bentuk tekstual. Itu bisa berupa tabel, rumus, dan jenis penyajian data lainnya. Ada juga IPS campuran yang mencakup dokumen dan informasi faktual. Saat ini, sistem informasi factographic dibangun atas dasar teknologi database (DB). Untuk menyediakan pencarian informasi dalam IPS, bahasa pencarian informasi khusus dibuat, yang didasarkan pada tesauri pencarian informasi. Bahasa temu kembali informasi adalah bahasa formal yang dirancang untuk menggambarkan aspek-aspek tertentu dari rencana isi dokumen yang disimpan dalam IPS dan permintaan. Prosedur untuk mendeskripsikan dokumen dalam bahasa temu kembali informasi disebut pengindeksan. Sebagai hasil dari pengindeksan, setiap dokumen diberikan deskripsi formalnya dalam bahasa pencarian informasi - gambar pencarian dokumen. Demikian pula, kueri diindeks, di mana gambar pencarian kueri dan resep pencarian ditetapkan. Algoritma pencarian informasi didasarkan pada perbandingan resep pencarian dengan gambar pencarian kueri. Kriteria untuk mengeluarkan dokumen untuk permintaan dapat terdiri dari kecocokan penuh atau sebagian antara gambar pencarian dokumen dan resep pencarian. Dalam beberapa kasus, pengguna memiliki kesempatan untuk merumuskan sendiri kriteria penerbitan. Hal ini ditentukan oleh kebutuhan informasinya. Bahasa pengambilan informasi deskriptif lebih sering digunakan dalam IS otomatis. Subjek dokumen dijelaskan oleh satu set deskriptor. Kata-kata dan istilah yang menunjukkan kategori dan konsep yang sederhana dan cukup mendasar dari area masalah bertindak sebagai deskriptor. Karena banyak deskriptor dimasukkan ke dalam gambar pencarian dokumen sebagai berbagai topik dipengaruhi oleh dokumen. Jumlah deskriptor tidak terbatas, yang memungkinkan untuk menggambarkan dokumen dalam matriks fitur multidimensi. Seringkali, dalam bahasa pencarian informasi deskriptor, pembatasan dikenakan pada kombinabilitas deskriptor. Dalam hal ini, kita dapat mengatakan bahwa bahasa pencarian informasi memiliki sintaks.

Salah satu sistem pertama yang bekerja dengan bahasa deskriptor adalah sistem Amerika UNITERM dibuat oleh M. Taube. Dalam sistem ini, kata kunci dokumen, unitterm, berfungsi sebagai deskriptor. Keunikan IPS ini adalah bahwa pada awalnya kamus bahasa informasi tidak disetel, tetapi muncul dalam proses pengindeksan dokumen dan kueri. Perkembangan sistem temu kembali informasi modern dikaitkan dengan perkembangan IPS tipe non-tesaurus. IPS semacam itu bekerja dengan pengguna dalam bahasa alami yang terbatas, dan pencarian dilakukan dalam teks abstrak dokumen, dalam deskripsi bibliografinya, dan seringkali dalam dokumen itu sendiri. Untuk pengindeksan dalam IPS tipe non-tesaurus, kata dan frasa bahasa alami digunakan.

Sampai batas tertentu, bidang linguistik komputasional dapat mencakup karya-karya di bidang pembuatan sistem hypertext, yang dianggap sebagai cara khusus untuk mengatur teks dan bahkan secara fundamental jenis baru teks, dalam banyak propertinya bertentangan dengan teks biasa yang dibentuk dalam tradisi tipografi Gutenberg. Gagasan hypertext dikaitkan dengan nama Vannevar Bush, penasihat sains Presiden F. Roosevelt. W. Bush secara teoritis mendukung proyek sistem teknis "Memex", yang memungkinkan pengguna untuk menautkan teks dan fragmennya dengan berbagai jenis tautan, terutama dengan hubungan asosiatif. Ketiadaan teknologi komputer membuat proyek sulit untuk diimplementasikan, karena sistem mekanis terbukti terlalu rumit untuk implementasi praktis.

Ide Bush di tahun 1960-an mendapat kelahiran kedua dalam sistem "Xanadu" dari T. Nelson, yang sudah menggunakan teknologi komputer. "Xanadu" memungkinkan pengguna untuk membaca totalitas teks yang dimasukkan ke dalam sistem cara yang berbeda, dalam berbagai urutan, perangkat lunak memungkinkan untuk menghafal urutan teks yang dilihat, dan memilih hampir semua teks pada titik waktu yang sewenang-wenang. Seperangkat teks dengan hubungan yang menghubungkannya (sistem transisi) disebut hypertext oleh T. Nelson. Banyak peneliti menganggap penciptaan hypertext sebagai awal dari era informasi baru, berlawanan dengan era percetakan. Linieritas tulisan, yang secara lahiriah mencerminkan linearitas ucapan, ternyata menjadi kategori mendasar yang membatasi pemikiran dan pemahaman manusia terhadap teks. Dunia makna adalah non-linear, oleh karena itu, kompresi informasi semantik dalam segmen pidato linier memerlukan penggunaan "paket komunikatif" khusus - pembagian menjadi topik dan rheme, pembagian rencana isi ucapan menjadi eksplisit (pernyataan, proposisi, fokus) dan lapisan implisit (praanggapan, konsekuensi, implikatur wacana). Penolakan terhadap linearitas teks baik dalam proses penyajiannya kepada pembaca (yaitu, dalam membaca dan memahami) maupun dalam proses sintesis, menurut para ahli teori, akan berkontribusi pada “pembebasan” berpikir dan bahkan munculnya bentuk-bentuk barunya.

Dalam sistem komputer, hypertext direpresentasikan sebagai grafik, node yang berisi teks tradisional atau fragmennya, gambar, tabel, video, dll. Node dihubungkan oleh berbagai hubungan, jenis yang ditentukan oleh pengembang perangkat lunak hypertext atau oleh pembaca sendiri. Hubungan menentukan kemungkinan potensial gerakan, atau navigasi melalui hypertext. Hubungan bisa searah atau dua arah. Dengan demikian, panah dua arah memungkinkan pengguna untuk bergerak di kedua arah, sedangkan panah searah memungkinkan pengguna untuk bergerak hanya dalam satu arah. Rantai simpul yang dilalui pembaca saat melihat komponen teks membentuk jalur, atau rute.

Implementasi komputer dari hypertext bersifat hierarkis atau jaringan. Struktur hierarkis – seperti pohon – dari hypertext secara signifikan membatasi kemungkinan transisi antar komponennya. Dalam hypertext seperti itu, hubungan antar komponen menyerupai struktur tesaurus berdasarkan hubungan genus-spesies. Hypertext jaringan memungkinkan Anda untuk menggunakan berbagai jenis hubungan antar komponen, tidak terbatas pada hubungan genus-spesies. Menurut mode keberadaan hypertext, hypertext statis dan dinamis dibedakan. Hypertext statis tidak berubah selama operasi; di dalamnya, pengguna dapat merekam komentarnya, tetapi tidak mengubah esensi masalah. Untuk hypertext dinamis, perubahan adalah bentuk normal dari keberadaan. Biasanya, hypertext dinamis berfungsi di mana perlu untuk terus-menerus menganalisis aliran informasi, mis. dalam berbagai jenis layanan informasi. Hypertext, misalnya, Arizona Information System (AAIS), yang diperbarui setiap bulan dengan 300–500 abstrak per bulan.

Hubungan antara elemen hypertext awalnya dapat diperbaiki oleh pembuatnya, atau mereka dapat dihasilkan setiap kali pengguna mengakses hypertext. Dalam kasus pertama, kita berbicara tentang hypertext dari struktur kaku, dan dalam kasus kedua, tentang hypertext dari struktur lunak. Struktur kaku secara teknologi cukup jelas. Teknologi untuk mengatur struktur lunak harus didasarkan pada analisis semantik dari kedekatan dokumen (atau sumber informasi lainnya) satu sama lain. Ini adalah tugas non-sepele komputasi linguistik. Saat ini, penggunaan teknologi struktur lunak pada kata kunci tersebar luas. Transisi dari satu node ke node lain dalam jaringan hypertext dilakukan sebagai hasil dari pencarian kata kunci. Karena kumpulan kata kunci mungkin berbeda setiap kali, struktur hypertext juga berubah setiap waktu.

Teknologi membangun sistem hypertext tidak membedakan antara informasi tekstual dan non-tekstual. Sementara itu, pencantuman informasi visual dan audio (video, lukisan, foto, rekaman suara, dan lain-lain) membutuhkan perubahan drastis antarmuka pengguna dan perangkat lunak yang lebih kuat dan dukungan komputer. Sistem seperti ini disebut hypermedia, atau multimedia. Visibilitas sistem multimedia telah menentukan penggunaannya secara luas dalam pendidikan, dalam pembuatan ensiklopedia versi komputer. Ada, misalnya, CD-rom yang dieksekusi dengan indah dengan sistem multimedia untuk ensiklopedia anak-anak yang diterbitkan oleh Dorlin Kindersley.

Dalam kerangka leksikografi komputer, teknologi komputer untuk kompilasi dan pengoperasian kamus sedang dikembangkan. Program khusus - database, lemari arsip komputer, program pemrosesan teks - memungkinkan Anda membuat entri kamus secara otomatis, menyimpan informasi kamus, dan memprosesnya. Banyak program leksikografi komputer yang berbeda dibagi menjadi dua kelompok besar: program untuk mendukung karya leksikografis dan kamus otomatis dari berbagai jenis, termasuk database leksikografis. Kamus otomatis adalah kamus dalam format mesin khusus yang dirancang untuk digunakan di komputer oleh pengguna atau program pengolah kata komputer. Dengan kata lain, ada perbedaan antara kamus pengguna akhir manusia otomatis dan kamus otomatis untuk program pengolah kata. Kamus otomatis yang ditujukan untuk pengguna akhir, dalam hal antarmuka dan struktur entri kamus, berbeda secara signifikan dari kamus otomatis yang termasuk dalam sistem terjemahan mesin, sistem referensi otomatis, sistem pencarian informasi, dll. Paling sering mereka adalah versi komputer dari kamus konvensional yang terkenal. Ada analog komputer kamus penjelasan bahasa Inggris di pasar perangkat lunak (Webster otomatis, kamus penjelasan otomatis bahasa Inggris dari penerbit Collins, versi otomatis New Large Kamus Inggris-Rusia ed. Yu.D. Apresyan dan E.M. Mednikova), ada juga versi komputer kamus Ozhegov. Kamus otomatis untuk program pengolah kata dapat disebut kamus otomatis dalam arti yang sebenarnya. Mereka umumnya tidak ditujukan untuk pengguna rata-rata. Fitur struktur mereka, ruang lingkup materi kosa kata ditentukan oleh program yang berinteraksi dengan mereka.

Pemodelan komputer dari struktur plot adalah hal lain arah yang menjanjikan linguistik komputasi. Kajian struktur plot mengacu pada masalah kritik sastra struktural (dalam arti luas), semiotika, dan kajian budaya. Program komputer yang tersedia untuk pemodelan plot didasarkan pada tiga formalisme presentasi plot dasar - arahan morfologis dan sintaksis untuk presentasi plot, serta pada pendekatan kognitif. Gagasan tentang struktur morfologi struktur plot kembali ke karya terkenal V.Ya.Propp ( cm.) tentang dongeng Rusia. Propp memperhatikan bahwa dengan banyaknya karakter dan peristiwa dalam dongeng, jumlah fungsi karakter menjadi terbatas, dan ia mengusulkan sebuah alat untuk menggambarkan fungsi-fungsi ini. Ide-ide Propp membentuk dasar dari program komputer TALE, yang mensimulasikan pembuatan plot dongeng. Algoritma program TALE didasarkan pada urutan fungsi karakter dalam dongeng. Faktanya, fungsi Propp mengatur serangkaian situasi yang ditandai, disusun berdasarkan analisis bahan empiris. Kemampuan kopling berbagai situasi dalam aturan generasi ditentukan oleh urutan fungsi yang khas - dalam bentuk yang dapat dibangun dari teks-teks dongeng. Dalam program tersebut, urutan fungsi yang khas digambarkan sebagai skenario khas untuk bertemu karakter.

Landasan teoretis pendekatan sintaksis terhadap plot teks adalah "tata bahasa plot", atau "tata bahasa naratif" (tata bahasa cerita). Mereka muncul pada pertengahan 1970-an sebagai akibat dari transfer gagasan tata bahasa generatif N. Chomsky ke deskripsi struktur makro teks. Jika komponen yang paling penting dari struktur sintaksis dalam tata bahasa generatif adalah kelompok verbal dan nominal, maka di sebagian besar tata bahasa plot, eksposisi (pengaturan), peristiwa dan episode dipilih sebagai yang dasar. Dalam teori tata bahasa plot, kondisi minimalitas, yaitu pembatasan yang menentukan status urutan elemen plot sebagai plot normal, dibahas secara luas. Ternyata, bagaimanapun, itu murni metode linguistik tidak mungkin untuk melakukannya. Banyak pembatasan yang bersifat sosiokultural. Tata bahasa plot, berbeda secara signifikan dalam set kategori di pohon generasi, memungkinkan seperangkat aturan yang sangat terbatas untuk memodifikasi struktur naratif (narasi).

Pada awal 1980-an, salah satu siswa R. Schenk, V. Lenert, sebagai bagian dari pekerjaan membuat generator plot komputer, mengusulkan formalisme asli unit plot emosional (Affective Plot Units), yang ternyata menjadi alat yang ampuh untuk mewakili struktur plot. Meskipun awalnya dikembangkan untuk sistem kecerdasan buatan, formalisme ini telah digunakan dalam studi teoretis murni. Inti dari pendekatan Lehnert adalah bahwa plot digambarkan sebagai perubahan berturut-turut dalam keadaan kognitif-emosional karakter. Dengan demikian, fokus formalisme Lehnert bukanlah pada komponen eksternal plot - eksposisi, peristiwa, episode, moralitas - tetapi pada karakteristik substantifnya. Dalam hal ini, formalisme Lehnert sebagian merupakan kembalinya ide-ide Propp.

Linguistik komputasional juga termasuk terjemahan mesin, yang saat ini mengalami kelahiran kembali.

Literatur:

Popov E.V. Komunikasi dengan komputer dalam bahasa alami. M., 1982
Sadur V.G. Komunikasi suara dengan komputer elektronik dan masalah perkembangannya. - Dalam buku: Komunikasi pidato: masalah dan prospek. M., 1983
Baranov A.N. Kategori kecerdasan buatan dalam semantik linguistik. Bingkai dan skrip. M., 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. Pemodelan komunikasi dalam sistem manusia-mesin. – Dukungan linguistik sistem Informasi. M., 1987
Olker H.R. Dongeng, tragedi dan cara menyajikan sejarah dunia. - Dalam buku: Bahasa dan Modeling interaksi sosial. M., 1987
Gorodetsky B.Yu. Linguistik Komputasi: Komunikasi Bahasa Pemodelan
McQueen K. Strategi Diskursif untuk Sintesis Teks Bahasa Alami. – Baru dalam linguistik asing. Isu. XXIV, Linguistik Komputasi. M., 1989
Popov E.V., Preobrazhensky A.B. . Fitur implementasi sistem NL
Preobrazhensky A.B. Keadaan pengembangan sistem NL modern. - Kecerdasan buatan. Buku. 1, Sistem komunikasi dan sistem pakar. M., 1990
Subbotin M.M. hiperteks. Bentuk baru komunikasi tertulis. — VINITI, Ser. Informatika, 1994, v. 18
Baranov A.N. Pengantar Linguistik Terapan. M., 2000



Istilah "linguistik komputasional" biasanya mengacu pada area luas penggunaan alat komputer - program, teknologi komputer untuk mengatur dan memproses data - untuk memodelkan fungsi bahasa dalam kondisi, situasi, area masalah, serta ruang lingkup tertentu. model bahasa komputer hanya dalam linguistik, tetapi juga dalam disiplin terkait. Sebenarnya, hanya dalam kasus terakhir kita berbicara tentang linguistik terapan dalam arti sempit, karena pemodelan bahasa komputer juga dapat dianggap sebagai bidang penerapan teori pemrograman (ilmu komputer) di bidang linguistik. Namun demikian, praktik umum sedemikian rupa sehingga bidang linguistik komputasional mencakup hampir semua hal yang berkaitan dengan penggunaan komputer dalam linguistik: "Istilah" linguistik komputasional "menetapkan orientasi umum terhadap penggunaan komputer untuk memecahkan berbagai masalah ilmiah dan praktis. yang berhubungan dengan bahasa, tanpa membatasi dengan cara apapun untuk memecahkan masalah tersebut.

Aspek kelembagaan linguistik komputasi. Sebagai arah ilmiah khusus, linguistik komputasi terbentuk di tahun 60-an. Arus publikasi di daerah ini sangat tinggi. Selain koleksi tematik, jurnal Computational Linguistics diterbitkan setiap tiga bulan di AS. Pekerjaan organisasi dan ilmiah besar dilakukan oleh Asosiasi Linguistik Komputasi, yang memiliki struktur regional di seluruh dunia (khususnya, cabang Eropa). Setiap dua tahun ada konferensi internasional tentang linguistik komputasi - KOLING. Isu-isu yang relevan juga banyak diwakili di konferensi internasional tentang kecerdasan buatan di berbagai tingkatan.

Perangkat kognitif linguistik komputasi

Linguistik komputasional sebagai disiplin terapan khusus dibedakan terutama oleh alatnya - yaitu, dengan penggunaan alat komputer untuk memproses data bahasa. Karena program komputer yang memodelkan aspek-aspek tertentu dari fungsi suatu bahasa dapat menggunakan berbagai alat pemrograman, tampaknya tidak perlu membicarakan bahasa meta yang umum. Namun, tidak. Ada prinsip-prinsip umum pemodelan pemikiran komputer, yang entah bagaimana diimplementasikan dalam model komputer apa pun. Bahasa ini didasarkan pada teori pengetahuan yang dikembangkan dalam kecerdasan buatan dan membentuk cabang penting dari ilmu kognitif.

Tesis utama teori pengetahuan menyatakan bahwa berpikir adalah proses mengolah dan menghasilkan pengetahuan. "Pengetahuan" atau "pengetahuan" dianggap sebagai kategori yang tidak ditentukan. Sistem kognitif manusia bertindak sebagai “pemroses” yang memproses pengetahuan. Dalam epistemologi dan ilmu kognitif, dua jenis utama pengetahuan dibedakan - deklaratif ("mengetahui apa") dan prosedural ("mengetahui bagaimana"). Pengetahuan deklaratif biasanya disajikan sebagai seperangkat proposisi, pernyataan tentang sesuatu. Contoh khas dari pengetahuan deklaratif adalah interpretasi kata-kata dalam kamus penjelasan biasa. Misalnya, cangkir] - "wadah minum bulat kecil, biasanya dengan pegangan, terbuat dari porselen, faience, dll.". Pengetahuan deklaratif cocok untuk prosedur verifikasi dalam hal "benar-salah". Pengetahuan prosedural disajikan sebagai urutan (daftar) operasi, tindakan yang harus dilakukan. Ini adalah beberapa instruksi umum tentang tindakan dalam situasi tertentu. Contoh khas dari pengetahuan prosedural adalah instruksi untuk menggunakan peralatan rumah tangga.

Tidak seperti pengetahuan deklaratif, pengetahuan prosedural tidak dapat diverifikasi sebagai benar atau salah. Mereka dapat dievaluasi hanya dengan keberhasilan atau kegagalan algoritma.

Sebagian besar konsep perangkat kognitif linguistik komputasi adalah homonim: mereka secara bersamaan menunjuk beberapa entitas nyata dari sistem kognitif manusia dan cara untuk mewakili entitas ini dalam beberapa metabahasa. Dengan kata lain, unsur-unsur metabahasa memiliki aspek ontologis dan instrumental. Secara ontologis, pembagian pengetahuan deklaratif dan prosedural sesuai dengan berbagai jenis pengetahuan dari sistem kognitif manusia. Jadi, pengetahuan tentang objek tertentu, objek realitas terutama bersifat deklaratif, dan kemampuan fungsional seseorang untuk berjalan, berlari, mengendarai mobil diwujudkan dalam sistem kognitif sebagai pengetahuan prosedural. Secara instrumental, pengetahuan (baik secara ontologis prosedural dan deklaratif) dapat direpresentasikan sebagai satu set deskripsi, deskripsi dan sebagai algoritma, instruksi. Dengan kata lain, pengetahuan deklaratif ontologis tentang objek realitas "tabel" dapat direpresentasikan secara prosedural sebagai seperangkat instruksi, algoritma untuk pembuatannya, perakitan (= aspek kreatif dari pengetahuan prosedural) atau sebagai algoritma untuk penggunaan tipikalnya (= aspek fungsional pengetahuan prosedural). Dalam kasus pertama, ini mungkin panduan untuk tukang kayu pemula, dan yang kedua, deskripsi kemungkinan meja kantor. Kebalikannya juga benar: pengetahuan prosedural ontologis dapat direpresentasikan secara deklaratif.

Ini membutuhkan diskusi terpisah apakah pengetahuan deklaratif ontologis dapat direpresentasikan sebagai prosedural, dan setiap prosedural ontologis - sebagai deklaratif. Para peneliti setuju bahwa pengetahuan deklaratif apa pun, pada prinsipnya, dapat direpresentasikan secara prosedural, meskipun ini mungkin menjadi sangat tidak ekonomis untuk sistem kognitif. Kebalikannya hampir tidak benar. Faktanya adalah bahwa pengetahuan deklaratif jauh lebih eksplisit, lebih mudah dipahami seseorang daripada pengetahuan prosedural. Berbeda dengan pengetahuan deklaratif, pengetahuan prosedural sebagian besar bersifat implisit. Jadi, kemampuan bahasa, sebagai pengetahuan prosedural, tersembunyi dari seseorang, tidak disadari olehnya. Upaya untuk menjelaskan mekanisme fungsi bahasa menyebabkan disfungsi. Spesialis di bidang semantik leksikal tahu, misalnya, bahwa introspeksi semantik jangka panjang yang diperlukan untuk mempelajari rencana isi kata mengarah pada fakta bahwa peneliti sebagian kehilangan kemampuan untuk membedakan antara yang benar dan yang benar. penyalahgunaan kata yang dianalisis. Contoh lain dapat disebutkan. Diketahui bahwa dari sudut pandang mekanika, tubuh manusia adalah sistem yang kompleks dua pendulum yang berinteraksi.

Dalam teori pengetahuan, pengetahuan dipelajari dan direpresentasikan menggunakan berbagai struktur pengetahuan - bingkai, skenario, rencana. Menurut M. Minsky, "bingkai adalah struktur data yang dirancang untuk mewakili situasi stereotip" [Minsky 1978, p.254]. Secara lebih rinci, kita dapat mengatakan bahwa bingkai adalah struktur konseptual untuk representasi deklaratif pengetahuan tentang situasi tematik yang disatukan yang dicirikan yang berisi slot yang saling berhubungan oleh hubungan semantik tertentu. Untuk tujuan ilustrasi, bingkai sering direpresentasikan sebagai tabel, yang baris-barisnya membentuk slot. Setiap slot memiliki nama dan isinya sendiri (lihat Tabel 1).

Tabel 1

Fragmen bingkai "tabel" dalam tampilan tabel

Tergantung pada tugas spesifik penataan bingkai bisa jauh lebih kompleks; sebuah frame dapat menyertakan subframe bersarang dan referensi ke frame lain.

Alih-alih tabel, bentuk representasi predikat sering digunakan. Dalam hal ini, frame berupa predikat atau fungsi dengan argumen. Ada cara lain untuk mewakili bingkai. Misalnya, dapat direpresentasikan sebagai tuple jenis berikut: ( (nama bingkai) (nama slot)) (nilai slot,),..., (nama slot n) (nilai slot n) ).

Biasanya, bingkai dalam bahasa representasi pengetahuan memiliki bentuk ini.

Seperti kategori kognitif linguistik komputasi lainnya, konsep bingkai adalah homonim. Secara ontologis, itu adalah bagian dari sistem kognitif manusia, dan dalam pengertian ini, bingkai dapat dibandingkan dengan konsep-konsep seperti gestalt, prototipe, stereotip, skema. Dalam psikologi kognitif, kategori ini dianggap tepat dari sudut pandang ontologis. Dengan demikian, D. Norman membedakan dua cara utama keberadaan dan organisasi pengetahuan dalam sistem kognitif manusia - jaringan dan skema semantik. "Skema," tulisnya, "adalah paket pengetahuan yang terorganisir yang dikumpulkan untuk mewakili unit pengetahuan yang berbeda dan mandiri. Skema saya untuk Sam mungkin berisi informasi yang menggambarkan fitur fisiknya, aktivitasnya, dan ciri kepribadiannya. Skema ini berkorelasi dengan skema lain yang menggambarkan aspek-aspek lainnya" [Norman 1998, hlm. 359]. Jika kita mengambil sisi instrumental dari kategori bingkai, maka ini adalah struktur untuk representasi deklaratif pengetahuan. Dalam sistem AI yang ada, bingkai dapat terbentuk struktur kompleks pengetahuan; sistem bingkai memungkinkan hierarki - satu bingkai dapat menjadi bagian dari bingkai lain.

Dari segi isi, konsep bingkai sangat dekat dengan kategori tafsir. Memang, slot adalah analog valensi, pengisian slot adalah analog dari aktan. Perbedaan utama di antara mereka adalah bahwa interpretasi hanya berisi informasi yang relevan secara linguistik tentang rencana isi kata, dan bingkai, pertama, tidak harus terikat pada kata, dan, kedua, mencakup semua informasi yang relevan dengan masalah yang diberikan. situasi, termasuk termasuk ekstralinguistik (pengetahuan tentang dunia) 3).

Skenario adalah kerangka kerja konseptual untuk representasi prosedural pengetahuan tentang situasi atau perilaku stereotip. Elemen skrip adalah langkah-langkah dari suatu algoritma atau instruksi. Orang biasanya berbicara tentang "skenario restoran", "skenario pembelian" dan sebagainya.

Bingkai awalnya juga digunakan untuk presentasi prosedural (lih. istilah "bingkai prosedural"), tetapi istilah "skenario" sekarang lebih umum digunakan dalam pengertian ini. Skenario dapat direpresentasikan tidak hanya sebagai algoritma, tetapi juga sebagai jaringan, simpul yang sesuai dengan situasi tertentu, dan busur sesuai dengan koneksi antar situasi. Seiring dengan konsep skrip, beberapa peneliti menggunakan kategori skrip untuk pemodelan kecerdasan komputer. Menurut R. Schenk, naskah adalah beberapa urutan yang diterima secara umum dan terkenal hal menyebabkan. Misalnya, memahami dialog

Di jalan itu mengalir seperti ember.

Anda masih harus pergi ke toko: tidak ada apa-apa di rumah - kemarin para tamu menyapu semuanya.

didasarkan pada koneksi semantik non-eksplisit seperti "jika hujan, tidak diinginkan untuk pergi ke luar, karena Anda bisa sakit." Koneksi ini membentuk sebuah skrip, yang digunakan oleh penutur asli untuk memahami perilaku verbal dan non-verbal satu sama lain.

Sebagai hasil dari penerapan skenario pada situasi masalah tertentu, a rencana). Sebuah rencana digunakan untuk secara prosedural mewakili pengetahuan tentang kemungkinan tindakan yang mengarah ke tujuan tertentu. Rencana menghubungkan tujuan dengan urutan tindakan.

Dalam kasus umum, rencana mencakup urutan prosedur yang mentransfer keadaan awal sistem ke keadaan akhir dan mengarah pada pencapaian subtujuan dan sasaran tertentu. Dalam sistem AI, rencana muncul sebagai hasil dari aktivitas perencanaan atau perencanaan modul yang sesuai - modul perencanaan. Proses perencanaan mungkin didasarkan pada adaptasi data dari satu atau lebih skenario, diaktifkan oleh prosedur pengujian, untuk memecahkan situasi masalah. Eksekusi rencana dilakukan oleh modul eksekutif yang mengontrol prosedur kognitif dan tindakan fisik sistem. Dalam kasus dasar, rencana dalam sistem cerdas adalah urutan operasi sederhana; dalam versi yang lebih kompleks, rencana dikaitkan dengan subjek tertentu, sumber daya, kemampuan, tujuan, Informasi rinci tentang situasi yang bermasalah, dll. Munculnya rencana terjadi dalam proses komunikasi antara model dunia, yang sebagian dibentuk oleh skenario, modul perencanaan dan modul eksekutif.

Tidak seperti skenario, rencana dikaitkan dengan situasi tertentu, pelaku tertentu, dan mengejar tujuan tertentu. Pilihan rencana diatur oleh sumber daya kontraktor. Kelayakan suatu rencana merupakan syarat wajib untuk pembangkitannya dalam sistem kognitif, dan sifat kelayakan tidak dapat diterapkan pada suatu skenario.

Satu lagi konsep penting- model dunia. Model dunia biasanya dipahami sebagai seperangkat pengetahuan tentang dunia yang diorganisasikan dengan cara tertentu, yang melekat dalam sistem kognitif atau model komputernya. Dalam pengertian yang agak lebih umum, model dunia dibicarakan sebagai bagian dari sistem kognitif yang menyimpan pengetahuan tentang struktur dunia, polanya, dll. Dalam pengertian lain, model dunia dikaitkan dengan hasil. memahami teks atau, lebih luas, wacana. Dalam proses memahami wacana, model mentalnya dibangun, yang merupakan hasil interaksi antara rencana isi teks dan pengetahuan tentang dunia yang melekat pada subjek ini [Johnson-Laird 1988, hlm. 237 et urutan]. Pemahaman pertama dan kedua sering digabungkan. Ini adalah tipikal peneliti linguistik yang bekerja dalam linguistik kognitif dan ilmu kognitif.

Terkait erat dengan kategori bingkai adalah konsep adegan. Kategori adegan terutama digunakan dalam literatur sebagai penunjukan struktur konseptual untuk representasi deklaratif situasi dan bagian-bagiannya yang diaktualisasikan dalam tindak tutur dan disorot oleh sarana linguistik (leksem, konstruksi sintaksis, kategori tata bahasa, dll.). Karena diasosiasikan dengan bentuk-bentuk linguistik, adegannya sering diperbarui kata tertentu atau ekspresi. Dalam tata bahasa plot (lihat di bawah), sebuah adegan muncul sebagai bagian dari sebuah episode atau narasi. Contoh tipikal adegan - satu set kubus yang bekerja dengan sistem AI, adegan dalam cerita dan peserta dalam aksi, dll. Dalam kecerdasan buatan, adegan digunakan dalam sistem pengenalan gambar, serta dalam program berorientasi penelitian (analisis, deskripsi) situasi masalah. Konsep adegan telah menyebar luas dalam linguistik teoretis, serta logika, khususnya dalam semantik situasional, di mana makna unit leksikal secara langsung dikaitkan dengan adegan.