Linguistik terapan komputasi. Linguistik komputasi di HSE: Anastasia Bonch-Osmolovskaya tentang program master baru. Ilmiah dan referensi

Fakultas Filologi Sekolah Tinggi Ekonomi meluncurkan program master baru yang didedikasikan untuk linguistik komputasi: program ini menyambut pelamar dengan pendidikan dasar di bidang humaniora dan matematika dan siapa saja yang tertarik untuk memecahkan masalah di salah satu cabang ilmu yang paling menjanjikan. . Direkturnya, Anastasia Bonch-Osmolovskaya, memberi tahu Teori dan Praktisi apa itu linguistik komputasi, mengapa robot tidak akan menggantikan manusia, dan apa yang akan mereka ajarkan dalam program master HSE dalam bidang linguistik komputasi.

Program ini hampir merupakan satu-satunya program serupa di Rusia. Dimana kamu belajar?

Saya belajar di Universitas Negeri Moskow di departemen linguistik teoretis dan terapan di fakultas filologi. Saya tidak langsung sampai di sana, pertama saya masuk ke jurusan Rusia, tapi kemudian saya menjadi sangat tertarik dengan linguistik, dan saya tertarik dengan suasana yang masih ada di departemen itu hingga saat ini. Yang terpenting ada kontak yang baik antara guru dan siswa serta kepentingan bersama.

Ketika saya mempunyai anak dan perlu mencari nafkah, saya terjun ke bidang linguistik komersial. Pada tahun 2005, tidak begitu jelas apa bidang kegiatan tersebut. Saya bekerja di perusahaan linguistik yang berbeda: Saya memulai dengan sebuah perusahaan kecil di situs Public.ru - ini adalah semacam perpustakaan media, tempat saya mulai mengerjakan teknologi linguistik. Kemudian saya bekerja selama setahun di Rosnanotech, dimana muncul ide untuk membuat portal analitis agar data di dalamnya dapat terstruktur secara otomatis. Kemudian saya mengepalai departemen linguistik di perusahaan Avicomp - ini sudah merupakan produksi yang serius di bidang linguistik komputer dan teknologi semantik. Pada saat yang sama, saya mengajar mata kuliah linguistik komputasi di Universitas Negeri Moskow dan mencoba menjadikannya lebih modern.

Dua sumber daya untuk ahli bahasa: - situs yang dibuat oleh ahli bahasa untuk penelitian ilmiah dan terapan yang berkaitan dengan bahasa Rusia. Ini adalah model bahasa Rusia, disajikan menggunakan sejumlah besar teks dari genre dan periode berbeda. Teks-teks tersebut dilengkapi dengan markup linguistik, yang dengannya Anda dapat memperoleh informasi tentang frekuensi fenomena linguistik tertentu. Wordnet adalah database leksikal bahasa Inggris yang sangat besar; ide utama Wordnet adalah untuk menghubungkan bukan kata-kata, tetapi maknanya ke dalam satu jaringan besar. Wordnet dapat diunduh dan digunakan untuk proyek Anda sendiri.

Apa yang dilakukan linguistik komputasi?

Ini adalah bidang yang paling interdisipliner. Hal terpenting di sini adalah memahami apa yang terjadi di dunia elektronik dan siapa yang akan membantu Anda melakukan hal-hal tertentu.

Kita dikelilingi oleh informasi digital yang sangat banyak jumlahnya, banyak sekali proyek bisnis yang keberhasilannya bergantung pada pengolahan informasi, proyek tersebut bisa berhubungan dengan bidang pemasaran, politik, ekonomi dan lain-lain. Dan sangat penting untuk dapat menangani informasi ini secara efektif - yang utama bukan hanya kecepatan pemrosesan informasi, tetapi juga kemudahan yang Anda dapat, setelah menyaring kebisingan, mendapatkan data yang Anda butuhkan dan membuat yang lengkap. gambar dari itu.

Sebelumnya, beberapa gagasan global dikaitkan dengan linguistik komputer, misalnya: orang mengira terjemahan mesin akan menggantikan terjemahan manusia, bahwa robot akan bekerja alih-alih manusia. Tapi sekarang ini tampak seperti utopia, dan terjemahan mesin digunakan di mesin pencari untuk mencari dengan cepat dalam bahasa yang tidak diketahui. Artinya, sekarang linguistik jarang membahas masalah-masalah abstrak - terutama dengan beberapa hal kecil yang dapat dimasukkan ke dalam sebuah produk besar dan menghasilkan uang darinya.

Salah satu tugas besar linguistik modern adalah jaringan semantik, ketika pencarian terjadi tidak hanya dengan mencocokkan kata-kata, tetapi juga dengan makna, dan semua situs dalam satu atau lain cara ditandai oleh semantik. Hal ini dapat berguna, misalnya untuk laporan polisi atau medis yang ditulis setiap hari. Analisis koneksi internal memberikan banyak informasi yang diperlukan, namun membaca dan menghitungnya secara manual sangat memakan waktu.

Singkatnya, kita memiliki seribu teks, kita perlu mengurutkannya ke dalam kelompok, menyajikan setiap teks dalam bentuk struktur dan mendapatkan tabel yang sudah dapat kita kerjakan. Ini disebut pemrosesan informasi tidak terstruktur. Di sisi lain, linguistik komputasional, misalnya, berkaitan dengan penciptaan teks buatan. Ada sebuah perusahaan yang telah menemukan mekanisme untuk menghasilkan teks tentang topik yang membosankan untuk ditulis seseorang: perubahan harga real estat, prakiraan cuaca, laporan pertandingan sepak bola. Jauh lebih mahal untuk memesan teks-teks ini untuk seseorang, dan teks-teks komputer tentang topik-topik tersebut ditulis dalam bahasa manusia yang koheren.

Yandex secara aktif terlibat dalam pengembangan di bidang pencarian informasi tidak terstruktur di Rusia; Kaspersky Lab mempekerjakan kelompok penelitian yang mempelajari pembelajaran mesin. Apakah seseorang di pasar mencoba menemukan sesuatu yang baru di bidang linguistik komputasi?

**Buku tentang linguistik komputasi:**

Daniel Jurafsky, Pemrosesan Pidato dan Bahasa

Christopher Manning, Prabhakar Raghavan, Heinrich Schuetze, "Pengantar Pengambilan Informasi"

Yakov Testelets, “Pengantar Sintaks Umum”

Sebagian besar perkembangan linguistik adalah milik perusahaan besar; hampir tidak ada yang dapat ditemukan di domain publik. Hal ini memperlambat perkembangan industri; kita tidak memiliki pasar linguistik yang bebas atau solusi yang dikemas.

Selain itu, kurangnya sumber informasi yang komprehensif. Ada proyek seperti Korps Nasional Bahasa Rusia. Ini adalah salah satu bangunan nasional terbaik di dunia, yang berkembang pesat dan membuka peluang luar biasa untuk penelitian ilmiah dan terapan. Perbedaannya hampir sama dengan biologi - sebelum penelitian DNA dan sesudahnya.

Namun banyak sumber daya yang tidak ada dalam bahasa Rusia. Jadi, tidak ada analogi dengan sumber daya berbahasa Inggris yang luar biasa seperti Framenet - ini adalah jaringan konseptual di mana semua kemungkinan hubungan antara kata tertentu dengan kata lain disajikan secara formal. Misalnya ada kata “terbang” - siapa yang bisa terbang, di mana, dengan preposisi apa kata tersebut digunakan, dengan kata apa digabungkan, dan sebagainya. Sumber daya ini membantu menghubungkan bahasa dengan kehidupan nyata, yaitu menelusuri bagaimana suatu kata tertentu berperilaku pada tingkat morfologi dan sintaksis. Itu sangat berguna.

Perusahaan Avicomp saat ini sedang mengembangkan plugin untuk mencari artikel dengan konten serupa. Artinya, jika Anda tertarik dengan sebuah artikel, Anda dapat dengan cepat melihat sejarah plotnya: kapan topik itu muncul, apa yang ditulis, dan kapan puncak minat terhadap masalah tersebut. Misalnya, dengan bantuan plugin ini, mulai dari artikel yang membahas peristiwa-peristiwa di Suriah, dimungkinkan untuk melihat dengan cepat bagaimana perkembangan peristiwa-peristiwa di sana selama setahun terakhir.

Bagaimana proses pembelajaran pada program magister akan disusun?

Pendidikan di HSE diselenggarakan dalam modul terpisah, seperti di universitas-universitas Barat. Siswa akan dibagi menjadi tim-tim kecil, mini-startup - yaitu, pada akhirnya kita akan menerima beberapa proyek yang sudah selesai. Kami ingin mendapatkan produk nyata, yang kemudian akan kami buka untuk umum dan biarkan di domain publik.

Selain manajer proyek langsung siswa, kami ingin mencarikan mereka kurator dari calon pemberi kerja - dari Yandex yang sama, misalnya, yang juga akan memainkan permainan ini dan memberikan beberapa nasihat kepada siswa.

Saya berharap orang-orang dari berbagai bidang akan datang ke program master: programmer, ahli bahasa, sosiolog, pemasar. Kami akan mengadakan beberapa kursus adaptasi di bidang linguistik, matematika dan pemrograman. Kemudian kami akan memiliki dua mata kuliah linguistik yang ketat, dan keduanya akan terkait dengan teori linguistik terkini; kami ingin lulusan kami dapat membaca dan memahami artikel linguistik modern. Sama halnya dengan matematika. Kita akan mengadakan kursus yang disebut “Dasar Matematika Linguistik Komputasi”, yang akan menguraikan cabang-cabang matematika yang menjadi dasar linguistik komputasi modern.

Untuk mendaftar di program master, Anda harus lulus ujian masuk bahasa dan lulus kompetisi portofolio.

Selain mata kuliah utama, akan ada serangkaian mata pelajaran pilihan. Kami telah merencanakan beberapa siklus - dua di antaranya difokuskan pada studi yang lebih mendalam tentang topik individu, yang meliputi, misalnya, terjemahan mesin dan linguistik korpus, dan satu lagi, sebaliknya, terkait dengan bidang terkait: seperti jejaring sosial, pembelajaran mesin, atau Humaniora Digital - kursus yang kami harap akan diajarkan dalam bahasa Inggris.

Istilah "linguistik komputasi" biasanya mengacu pada area luas penggunaan alat komputer - program, teknologi komputer untuk mengatur dan memproses data - untuk memodelkan fungsi bahasa dalam kondisi, situasi, area masalah, serta ruang lingkup tertentu. penerapan model bahasa komputer tidak hanya dalam linguistik, tetapi juga dalam disiplin ilmu terkait. Sebenarnya, hanya dalam kasus terakhir kita berbicara tentang linguistik terapan dalam arti sempit, karena pemodelan bahasa komputer juga dapat dianggap sebagai bidang penerapan teori ilmu komputer di bidang linguistik. Namun demikian, praktik umumnya adalah bahwa bidang linguistik komputasi mencakup hampir semua hal yang berkaitan dengan penggunaan komputer dalam linguistik: “Istilah “linguistik komputasi” menetapkan orientasi umum terhadap penggunaan komputer untuk memecahkan berbagai masalah ilmiah dan praktis terkait ke bahasa, tanpa membatasi cara untuk memecahkan masalah ini."

Aspek kelembagaan linguistik komputasi. Linguistik komputasional terbentuk sebagai bidang ilmiah khusus pada tahun 60an. Aliran publikasi di bidang ini sangat besar. Selain koleksi tematik, jurnal Computational Linguistics diterbitkan setiap triwulan di AS. Banyak pekerjaan organisasi dan ilmiah dilakukan oleh Asosiasi Linguistik Komputasi, yang memiliki struktur regional di seluruh dunia (khususnya, cabang Eropa). Setiap dua tahun, konferensi internasional tentang linguistik komputasi - COLING - diadakan. Isu-isu terkait juga banyak terwakili di konferensi internasional tentang kecerdasan buatan di berbagai tingkatan.

Alat kognitif untuk linguistik komputasi

Linguistik komputasional sebagai disiplin terapan khusus dibedakan terutama berdasarkan instrumennya - yaitu penggunaan alat komputer untuk memproses data bahasa. Karena program komputer yang memodelkan aspek-aspek tertentu dari fungsi suatu bahasa dapat menggunakan berbagai alat pemrograman, tampaknya tidak perlu membicarakan metabahasa umum. Namun ternyata tidak. Ada prinsip-prinsip umum pemikiran pemodelan komputer, yang entah bagaimana dapat diterapkan dalam model komputer mana pun. Bahasa ini didasarkan pada teori pengetahuan yang dikembangkan dalam kecerdasan buatan dan merupakan cabang penting ilmu kognitif.

Tesis utama teori pengetahuan menyatakan bahwa berpikir adalah proses mengolah dan menghasilkan pengetahuan. “Pengetahuan” atau “pengetahuan” dianggap sebagai kategori yang tidak dapat didefinisikan. Sistem kognitif manusia bertindak sebagai “pemroses” yang memproses pengetahuan. Dalam epistemologi dan ilmu kognitif, ada dua jenis pengetahuan utama yang dibedakan - deklaratif (“mengetahui apa”) dan prosedural (“mengetahui bagaimana”2)). Pengetahuan deklaratif biasanya disajikan dalam bentuk seperangkat proposisi, pernyataan tentang sesuatu. Contoh khas pengetahuan deklaratif adalah interpretasi kata-kata dalam kamus penjelasan biasa. Misalnya, cangkir] - “wadah minum kecil berbentuk bulat, biasanya dengan pegangan, terbuat dari porselen, gerabah, dll.” Pengetahuan deklaratif dapat menerima prosedur verifikasi dalam istilah “benar-salah”. Pengetahuan prosedural disajikan sebagai urutan (daftar) operasi, tindakan yang harus dilakukan. Ini adalah beberapa petunjuk umum tentang tindakan dalam situasi tertentu. Contoh khas dari pengetahuan prosedural adalah instruksi penggunaan peralatan rumah tangga.

Berbeda dengan pengetahuan deklaratif, pengetahuan prosedural tidak dapat diverifikasi benar atau salahnya. Mereka hanya dapat dinilai berdasarkan keberhasilan atau kegagalan algoritma.

Sebagian besar konsep alat kognitif linguistik komputasi bersifat homonim: konsep tersebut secara bersamaan menunjukkan beberapa entitas nyata dari sistem kognitif manusia dan cara merepresentasikan entitas ini dalam bahasa meta tertentu. Dengan kata lain, unsur metabahasa mempunyai aspek ontologis dan instrumental. Secara ontologis, pembagian pengetahuan deklaratif dan prosedural berhubungan dengan berbagai jenis pengetahuan sistem kognitif manusia. Dengan demikian, pengetahuan tentang objek tertentu, objek realitas sebagian besar bersifat deklaratif, dan kemampuan fungsional seseorang untuk berjalan, berlari, dan mengendarai mobil diwujudkan dalam sistem kognitif sebagai pengetahuan prosedural. Secara instrumental, pengetahuan (baik secara ontologis prosedural maupun deklaratif) dapat direpresentasikan sebagai sekumpulan deskripsi, deskripsi dan sebagai suatu algoritma atau instruksi. Dengan kata lain, pengetahuan deklaratif ontologis tentang objek “tabel” realitas dapat direpresentasikan secara prosedural sebagai sekumpulan instruksi, algoritma untuk pembuatannya, perakitan (= aspek kreatif dari pengetahuan prosedural) atau sebagai algoritma untuk penggunaan tipikal (= fungsional). aspek pengetahuan prosedural). Dalam kasus pertama, ini bisa menjadi panduan untuk tukang kayu pemula, dan yang kedua, deskripsi kemampuan meja kantor. Hal sebaliknya juga berlaku: pengetahuan prosedural secara ontologis dapat direpresentasikan secara deklaratif.

Diperlukan diskusi terpisah apakah pengetahuan deklaratif ontologis dapat direpresentasikan sebagai prosedural, dan pengetahuan prosedural ontologis dapat direpresentasikan sebagai deklaratif. Para peneliti sepakat bahwa pengetahuan deklaratif apa pun, pada prinsipnya, dapat direpresentasikan secara prosedural, meskipun hal ini mungkin akan sangat merugikan sistem kognitif. Kemungkinan sebaliknya tidak akan benar. Faktanya, pengetahuan deklaratif jauh lebih eksplisit, lebih mudah dipahami seseorang daripada pengetahuan prosedural. Berbeda dengan pengetahuan deklaratif, pengetahuan prosedural sebagian besar bersifat implisit. Dengan demikian, kemampuan berbahasa, sebagai pengetahuan prosedural, tersembunyi dari seseorang dan tidak disadari olehnya. Upaya untuk menjelaskan mekanisme fungsi bahasa menyebabkan disfungsi. Para ahli di bidang semantik leksikal mengetahui, misalnya, bahwa introspeksi semantik jangka panjang, yang diperlukan untuk mempelajari isi sebuah kata, menyebabkan peneliti kehilangan sebagian kemampuan untuk membedakan antara penggunaan kata yang dianalisis dengan benar dan salah. Contoh lain dapat diberikan. Diketahui bahwa dari sudut pandang mekanika, tubuh manusia merupakan sistem kompleks dari dua pendulum yang saling berinteraksi.

Dalam teori pengetahuan, berbagai struktur pengetahuan digunakan untuk mempelajari dan merepresentasikan pengetahuan - kerangka, skenario, rencana. Menurut M. Minsky, “bingkai adalah struktur data yang dirancang untuk mewakili situasi stereotip” [Minsky 1978, p.254]. Secara lebih rinci, kita dapat mengatakan bahwa bingkai adalah struktur konseptual representasi deklaratif pengetahuan tentang situasi terpadu tematis yang dikarakterisasi, berisi slot-slot yang saling berhubungan oleh hubungan semantik tertentu. Untuk lebih jelasnya, bingkai sering direpresentasikan sebagai tabel, yang baris-barisnya membentuk slot. Setiap slot memiliki nama dan isinya sendiri (lihat Tabel 1).

Tabel 1

Fragmen bingkai "tabel" dalam tampilan tabel

Bergantung pada tugas spesifiknya, penataan kerangka bisa jauh lebih kompleks; sebuah bingkai mungkin berisi subframe bersarang dan referensi ke bingkai lain.

Bentuk representasi predikat sering digunakan sebagai pengganti tabel. Dalam hal ini frame berupa predikat atau fungsi dengan argumen. Ada cara lain untuk merepresentasikan bingkai. Misalnya, dapat direpresentasikan sebagai tuple dengan bentuk berikut: ( (nama frame) (nama slot)) (nilai slot,),..., (nama slot n) (nilai slot l)).

Biasanya, frame dalam bahasa representasi pengetahuan memiliki tipe ini.

Seperti kategori kognitif linguistik komputasi lainnya, konsep bingkai bersifat homonim. Secara ontologis merupakan bagian dari sistem kognitif manusia, dan dalam pengertian ini kerangka dapat dibandingkan dengan konsep-konsep seperti gestalt, prototipe, stereotip, skema. Dalam psikologi kognitif, kategori-kategori ini dilihat dari sudut pandang ontologis. Jadi, D. Norman membedakan dua cara utama keberadaan dan pengorganisasian pengetahuan dalam sistem kognitif manusia - jaringan semantik dan skema. "Skema," tulisnya, "adalah paket pengetahuan terorganisir yang disusun untuk mewakili unit pengetahuan individu yang independen. Skema saya untuk Sam mungkin berisi informasi yang menggambarkan ciri-ciri fisiknya, aktivitasnya, dan ciri-ciri kepribadiannya. Skema ini berkaitan dengan skema lain yang menggambarkan sisi lainnya" [Norman 1998, hal. 359]. Jika kita mengambil sisi instrumental dari kategori bingkai, maka ini adalah struktur representasi pengetahuan deklaratif. Dalam sistem AI yang ada, frame dapat membentuk struktur pengetahuan yang kompleks; Sistem frame memungkinkan hierarki - satu frame dapat menjadi bagian dari frame lain.

Secara isi, konsep bingkai sangat dekat dengan kategori interpretasi. Memang slot dianalogikan dengan valensi, pengisian slot dianalogikan dengan aktan. Perbedaan utama di antara keduanya adalah bahwa penafsiran hanya berisi informasi yang relevan secara linguistik tentang isi kata, dan kerangka, pertama, tidak harus terikat pada kata, dan kedua, mencakup semua informasi yang relevan dengan situasi masalah tertentu, termasuk termasuk ekstralinguistik (pengetahuan tentang dunia) 3).

Naskah adalah struktur konseptual untuk representasi prosedural pengetahuan tentang situasi stereotip atau perilaku stereotip. Elemen skrip adalah langkah-langkah dari suatu algoritma atau instruksi. Mereka biasanya berbicara tentang “skenario kunjungan restoran”, “skenario pembelian”, dll.

Awalnya, frame juga digunakan untuk representasi prosedural (lih. istilah "frame prosedural"), namun sekarang istilah "script" lebih sering digunakan dalam pengertian ini. Skenario dapat direpresentasikan tidak hanya sebagai suatu algoritma, tetapi juga sebagai jaringan, yang simpul-simpulnya berhubungan dengan situasi tertentu, dan busurnya berhubungan dengan hubungan antar situasi. Seiring dengan konsep skrip, beberapa peneliti menggunakan kategori skrip untuk pemodelan kecerdasan komputer. Menurut R. Schenk, naskah adalah rangkaian hubungan sebab akibat yang diterima secara umum dan terkenal. Misalnya saja memahami dialog

Di luar mengalir seperti ember.

Anda masih harus pergi ke toko: tidak ada yang bisa dimakan di rumah - kemarin para tamu menyapu semuanya.

didasarkan pada hubungan semantik yang tidak eksplisit seperti “jika hujan, tidak disarankan keluar rumah karena Anda mungkin sakit”. Koneksi ini membentuk sebuah skrip, yang digunakan oleh penutur asli untuk memahami perilaku bicara dan non-ucapan satu sama lain.

Sebagai hasil dari penerapan skenario pada situasi masalah tertentu, a rencana). Rencana digunakan untuk mewakili pengetahuan secara prosedural tentang kemungkinan tindakan yang mengarah pada pencapaian tujuan tertentu. Sebuah rencana menghubungkan suatu tujuan dengan serangkaian tindakan.

Secara umum, rencana mencakup serangkaian prosedur yang mengubah keadaan awal sistem menjadi keadaan akhir dan mengarah pada pencapaian subtujuan dan sasaran tertentu. Dalam sistem AI, sebuah rencana muncul sebagai hasil dari kegiatan perencanaan atau perencanaan dari modul yang bersangkutan – modul perencanaan. Proses perencanaan mungkin didasarkan pada adaptasi data dari satu atau lebih skenario, diaktifkan dengan prosedur pengujian, untuk menyelesaikan situasi masalah. Rencana tersebut dijalankan oleh modul eksekutif, yang mengontrol prosedur kognitif dan tindakan fisik sistem. Dalam kasus dasar, rencana dalam sistem cerdas adalah rangkaian operasi sederhana; dalam versi yang lebih kompleks, rencana tersebut dikaitkan dengan subjek tertentu, sumber dayanya, kemampuan, tujuannya, informasi rinci tentang situasi masalah, dll. Munculnya rencana terjadi dalam proses komunikasi antara model dunia yang sebagian dibentuk oleh skenario, modul perencanaan, dan modul eksekutif.

Berbeda dengan naskah, rencana dikaitkan dengan situasi tertentu, pelaku tertentu, dan bertujuan untuk mencapai tujuan tertentu. Pilihan rencana diatur oleh sumber daya kontraktor. Kelayakan suatu rencana merupakan prasyarat untuk menghasilkannya dalam sistem kognitif, dan karakteristik kelayakan tidak dapat diterapkan pada suatu skenario.

Konsep penting lainnya adalah model dunia. Model dunia biasanya dipahami sebagai seperangkat pengetahuan tentang dunia yang diatur dengan cara tertentu, karakteristik sistem kognitif atau model komputernya. Dalam bentuk yang lebih umum, model dunia dibicarakan sebagai bagian dari sistem kognitif yang menyimpan pengetahuan tentang struktur dunia, polanya, dll. Dalam pengertian lain, model dunia dikaitkan dengan hasil pemahaman sebuah teks. atau, lebih luas lagi, wacana. Dalam proses memahami wacana, dibangun model mentalnya, yang merupakan hasil interaksi rencana isi teks dan pengetahuan tentang karakteristik dunia subjek tertentu [Johnson-Laird 1988, p. 237 ff]. Pemahaman pertama dan kedua seringkali digabungkan. Hal ini biasa terjadi pada peneliti linguistik yang bekerja di bidang linguistik kognitif dan ilmu kognitif.

Terkait erat dengan kategori bingkai adalah konsep pemandangan. Kategori adegan terutama digunakan dalam karya sastra sebagai sebutan struktur konseptual untuk representasi deklaratif situasi dan bagian-bagiannya yang diaktualisasikan dalam suatu tindak tutur dan disorot melalui sarana linguistik (leksem, konstruksi sintaksis, kategori tata bahasa, dll.) Karena dikaitkan dengan bentuk kebahasaan, suatu adegan seringkali diaktualisasikan dengan kata atau ungkapan tertentu. Dalam tata bahasa plot (lihat di bawah), sebuah adegan muncul sebagai bagian dari sebuah episode atau narasi. Contoh umum adegan adalah sekumpulan kubus tempat sistem AI bekerja, lokasi aksi dalam cerita dan peserta aksi, dll. Dalam kecerdasan buatan, adegan digunakan dalam sistem pengenalan gambar, serta dalam program yang berfokus pada studi (analisis, deskripsi) situasi masalah. Konsep adegan telah tersebar luas dalam linguistik teoretis, serta logika, khususnya dalam semantik situasional, di mana makna suatu unit leksikal berhubungan langsung dengan adegan.

Isi artikel

LINGUISTIKA KOMPUTER, arah dalam linguistik terapan, berfokus pada penggunaan alat komputer - program, teknologi komputer untuk mengatur dan memproses data - untuk memodelkan fungsi bahasa dalam kondisi, situasi, area masalah tertentu, dll., serta seluruh ruang lingkup penerapan bahasa model bahasa komputer dalam linguistik dan disiplin ilmu terkait. Sebenarnya, hanya dalam kasus terakhir kita berbicara tentang linguistik terapan dalam arti sempit, karena pemodelan bahasa komputer juga dapat dianggap sebagai bidang penerapan ilmu komputer dan teori pemrograman untuk memecahkan masalah dalam ilmu bahasa. Namun dalam praktiknya, linguistik komputasional mencakup hampir semua hal yang berkaitan dengan penggunaan komputer dalam linguistik.

Linguistik komputasional mulai terbentuk sebagai bidang ilmiah khusus pada tahun 1960an. Istilah Rusia "linguistik komputer" adalah terjemahan dari linguistik komputasi bahasa Inggris. Karena kata sifat komputasi dalam bahasa Rusia juga dapat diterjemahkan sebagai “komputasi”, istilah “linguistik komputasi” juga ditemukan dalam literatur, namun dalam sains Rusia, istilah ini mempunyai arti yang lebih sempit, mendekati konsep “linguistik kuantitatif”. Aliran publikasi di bidang ini sangat besar. Selain koleksi tematik, jurnal Computer Linguistics diterbitkan setiap triwulan di Amerika Serikat. Banyak pekerjaan organisasi dan ilmiah dilakukan oleh Asosiasi Linguistik Komputasi, yang memiliki struktur regional (khususnya, cabang Eropa). Setiap dua tahun, konferensi internasional tentang linguistik komputasi – COLING – diadakan. Isu-isu terkait biasanya terwakili secara luas di berbagai konferensi tentang kecerdasan buatan.

Perangkat untuk Linguistik Komputasi.

Linguistik komputasional sebagai disiplin terapan khusus dibedakan terutama berdasarkan instrumennya - yaitu. tentang penggunaan alat komputer untuk mengolah data bahasa. Karena program komputer yang memodelkan aspek-aspek tertentu dari fungsi suatu bahasa dapat menggunakan berbagai alat pemrograman, tampaknya tidak perlu membicarakan perangkat konseptual umum linguistik komputer. Namun ternyata tidak. Ada prinsip-prinsip umum pemikiran pemodelan komputer, yang entah bagaimana dapat diterapkan dalam model komputer mana pun. Hal tersebut didasarkan pada teori pengetahuan yang pada mulanya dikembangkan dalam bidang kecerdasan buatan, dan kemudian menjadi salah satu cabang ilmu kognitif. Kategori konseptual linguistik komputer yang paling penting adalah struktur pengetahuan seperti "bingkai" (struktur konseptual, atau, seperti yang mereka katakan, struktur konseptual untuk representasi deklaratif pengetahuan tentang situasi terpadu tematis yang khas), "skenario" (struktur konseptual untuk prosedural representasi pengetahuan tentang situasi stereotip atau perilaku stereotip), “rencana” (struktur pengetahuan yang menangkap gagasan tentang kemungkinan tindakan yang mengarah pada pencapaian tujuan tertentu). Terkait erat dengan kategori bingkai adalah konsep “adegan”. Kategori adegan terutama digunakan dalam literatur linguistik komputer sebagai sebutan struktur konseptual untuk representasi deklaratif situasi dan bagian-bagiannya yang diaktualisasikan dalam tindak tutur dan disorot melalui sarana linguistik (leksem, konstruksi sintaksis, kategori tata bahasa, dll.) .

Seperangkat struktur pengetahuan yang terorganisir dengan cara tertentu membentuk “model dunia” dari sistem kognitif dan model komputernya. Dalam sistem kecerdasan buatan, model dunia membentuk blok khusus, yang bergantung pada arsitektur yang dipilih, dapat mencakup pengetahuan umum tentang dunia (dalam bentuk proposisi sederhana seperti “di musim dingin dingin” atau dalam bentuk aturan produksi “jika di luar hujan, maka Anda perlu memakai jas hujan atau membawa payung”), beberapa fakta spesifik (“Puncak tertinggi di dunia adalah Everest”), serta nilai-nilai dan hierarkinya, terkadang dipisahkan menjadi a “blok aksiologis” khusus.

Sebagian besar elemen konsep alat linguistik komputasi bersifat homonim: elemen tersebut secara bersamaan menunjukkan beberapa entitas nyata dari sistem kognitif manusia dan cara merepresentasikan entitas ini yang digunakan dalam deskripsi dan pemodelan teoretisnya. Dengan kata lain, unsur perangkat konseptual linguistik komputer memiliki aspek ontologis dan instrumental. Misalnya, dalam aspek ontologis, pembagian pengetahuan deklaratif dan prosedural sesuai dengan berbagai jenis pengetahuan yang tersedia bagi seseorang - yang disebut pengetahuan APA (deklaratif; seperti, misalnya, pengetahuan tentang alamat pos beberapa NN), di satu sisi, dan pengetahuan BAGAIMANA (prosedural; misalnya, pengetahuan yang memungkinkan Anda menemukan apartemen NN ini, bahkan tanpa mengetahui alamat resminya) - di sisi lain. Dalam aspek instrumental, pengetahuan dapat diwujudkan dalam sekumpulan deskripsi (deskripsi), dalam sekumpulan data, di satu sisi, dan dalam suatu algoritma, suatu instruksi yang dilakukan oleh komputer atau model sistem kognitif lainnya, di sisi lain.

Arah linguistik komputasi.

Bidang CL sangat beragam dan mencakup bidang-bidang seperti pemodelan komunikasi komputer, pemodelan struktur plot, teknologi hypertext untuk presentasi teks, terjemahan mesin, dan leksikografi komputer. Dalam arti sempit, masalah CL sering dikaitkan dengan bidang penerapan interdisipliner dengan nama yang agak disayangkan “pemrosesan bahasa alami” (terjemahan dari istilah bahasa Inggris Natural Language Processing). Ini muncul pada akhir tahun 1960an dan berkembang dalam disiplin ilmu pengetahuan dan teknologi “kecerdasan buatan”. Dalam bentuk internalnya, frasa “pemrosesan bahasa alami” mencakup semua area di mana komputer digunakan untuk memproses data bahasa. Sementara itu, pemahaman yang lebih sempit tentang istilah ini telah diterapkan dalam praktik - pengembangan metode, teknologi, dan sistem khusus yang menjamin komunikasi antara manusia dan komputer dalam bahasa alami atau bahasa alami terbatas.

Perkembangan pesat bidang “pemrosesan bahasa alami” terjadi pada tahun 1970-an, yang dikaitkan dengan pertumbuhan eksponensial yang tidak terduga dalam jumlah pengguna akhir komputer. Karena pengajaran bahasa dan teknologi pemrograman kepada semua pengguna tidak mungkin dilakukan, masalah pengorganisasian interaksi dengan program komputer telah muncul. Solusi terhadap masalah komunikasi ini mengikuti dua jalur utama. Dalam kasus pertama, upaya dilakukan untuk mengadaptasi bahasa pemrograman dan sistem operasi kepada pengguna akhir. Hasilnya, bahasa tingkat tinggi seperti Visual Basic muncul, serta sistem operasi nyaman yang dibangun dalam ruang konseptual metafora yang akrab bagi manusia - MEJA, PERPUSTAKAAN. Cara kedua adalah mengembangkan sistem yang memungkinkan interaksi dengan komputer dalam area masalah tertentu dalam bahasa alami atau versi terbatasnya.

Arsitektur sistem pemrosesan bahasa alami dalam kasus umum mencakup blok untuk menganalisis pesan ucapan pengguna, blok untuk menafsirkan pesan, blok untuk menghasilkan makna respons, dan blok untuk mensintesis struktur permukaan pernyataan. Bagian khusus dari sistem adalah komponen dialog, yang mencatat strategi melakukan dialog, kondisi penggunaan strategi tersebut, dan cara mengatasi kemungkinan kegagalan komunikasi (kegagalan dalam proses komunikasi).

Di antara sistem pemrosesan bahasa alami komputer, sistem tanya jawab, sistem pemecahan masalah interaktif, dan sistem pemrosesan teks terhubung biasanya dibedakan. Awalnya, sistem tanya jawab mulai dikembangkan sebagai reaksi terhadap buruknya kualitas pengkodean kueri ketika mencari informasi dalam sistem pencarian informasi. Karena area masalah sistem tersebut sangat terbatas, ini agak menyederhanakan algoritma untuk menerjemahkan pertanyaan ke dalam representasi bahasa formal dan prosedur sebaliknya untuk mengubah representasi formal menjadi pernyataan dalam bahasa alami. Di antara perkembangan dalam negeri, program jenis ini termasuk sistem POET, yang dibuat oleh tim peneliti di bawah kepemimpinan E.V. Sistem memproses permintaan dalam bahasa Rusia (dengan sedikit batasan) dan menyatukan jawabannya. Diagram alur program melibatkan melalui semua tahapan analisis (morfologis, sintaksis, dan semantik) dan tahapan sintesis yang sesuai.

Sistem pemecahan masalah percakapan, tidak seperti sistem tipe sebelumnya, berperan aktif dalam komunikasi, karena tugasnya adalah memperoleh solusi masalah berdasarkan pengetahuan yang disajikan di dalamnya dan informasi yang dapat diperoleh dari pengguna. . Sistem berisi struktur pengetahuan yang mencatat urutan tindakan khas untuk memecahkan masalah di area masalah tertentu, serta informasi tentang sumber daya yang diperlukan. Ketika pengguna mengajukan pertanyaan atau menetapkan tugas tertentu, skrip terkait diaktifkan. Jika beberapa komponen skrip hilang atau beberapa sumber daya hilang, sistem akan memulai komunikasi. Misalnya saja cara kerja sistem SNUKA dalam memecahkan masalah perencanaan operasi militer.

Sistem untuk memproses teks yang koheren memiliki struktur yang cukup beragam. Ciri umum mereka adalah meluasnya penggunaan teknologi representasi pengetahuan. Fungsi sistem semacam ini adalah untuk memahami teks dan menjawab pertanyaan tentang isinya. Pemahaman tidak dianggap sebagai kategori universal, tetapi sebagai proses penggalian informasi dari sebuah teks, yang ditentukan oleh maksud komunikatif tertentu. Dengan kata lain, teks tersebut “dibaca” hanya dengan asumsi bahwa sebenarnya apa yang ingin diketahui oleh calon pengguna tentang teks tersebut. Dengan demikian, sistem pemrosesan teks yang koheren ternyata tidak bersifat universal, tetapi berorientasi pada masalah. Contoh umum dari sistem yang dibahas adalah sistem RESEARCHER dan TAILOR, yang membentuk satu paket perangkat lunak yang memungkinkan pengguna memperoleh informasi dari abstrak paten yang menggambarkan objek fisik kompleks.

Bidang linguistik komputer yang paling penting adalah pengembangan sistem pengambilan informasi (IRS). Yang terakhir ini muncul pada akhir tahun 1950an dan awal tahun 1960an sebagai respon terhadap peningkatan tajam dalam volume informasi ilmiah dan teknis. Berdasarkan jenis informasi yang disimpan dan diproses, serta fitur pencariannya, sistem pencarian informasi dibagi menjadi dua kelompok besar - dokumenter dan faktual. Sistem pengambilan informasi dokumenter menyimpan teks dokumen atau deskripsinya (abstrak, kartu bibliografi, dll). IRS faktual berhubungan dengan deskripsi fakta spesifik, dan tidak harus dalam bentuk teks. Ini bisa berupa tabel, rumus, dan jenis penyajian data lainnya. Ada juga sistem informasi campuran, termasuk dokumen dan informasi faktual. Saat ini, sistem informasi faktual dibangun berdasarkan teknologi database (DB). Untuk menjamin temu kembali informasi dalam sistem temu kembali informasi, dibuatlah bahasa temu kembali informasi khusus yang didasarkan pada tesauri temu kembali informasi. Bahasa pengambilan informasi adalah bahasa formal yang dirancang untuk menggambarkan aspek-aspek tertentu dari rencana isi dokumen yang disimpan dalam sistem pengambilan informasi dan permintaan. Prosedur untuk mendeskripsikan suatu dokumen dalam bahasa temu kembali informasi disebut pengindeksan. Sebagai hasil pengindeksan, setiap dokumen diberi deskripsi formalnya sendiri dalam bahasa pencarian informasi - gambar pencarian dokumen. Kueri diindeks dengan cara yang sama, yang mana gambar kueri penelusuran dan resep penelusuran ditetapkan. Algoritme pengambilan informasi didasarkan pada perbandingan resep pencarian dengan gambar pencarian dari kueri. Kriteria untuk menerbitkan dokumen atas permintaan dapat berupa kecocokan penuh atau sebagian antara gambar pencarian dokumen dan instruksi pencarian. Dalam beberapa kasus, pengguna memiliki kesempatan untuk merumuskan sendiri kriteria penerbitannya. Hal ini ditentukan oleh kebutuhan informasinya. Sistem pengambilan informasi otomatis sering kali menggunakan bahasa pengambilan informasi deskriptor. Subyek suatu dokumen dijelaskan oleh sekumpulan deskriptor. Deskriptor adalah kata-kata dan istilah yang menunjukkan kategori dan konsep yang sederhana dan cukup mendasar dari bidang masalah. Banyaknya deskriptor yang dimasukkan ke dalam gambar pencarian dokumen karena ada topik berbeda yang tercakup dalam dokumen tersebut. Jumlah deskriptor tidak dibatasi, yang memungkinkan Anda mendeskripsikan dokumen dalam matriks fitur multidimensi. Seringkali dalam bahasa pengambilan informasi deskriptor, pembatasan dikenakan pada kompatibilitas deskriptor. Dalam hal ini, kita dapat mengatakan bahwa bahasa pengambilan informasi memiliki sintaksis.

Salah satu sistem pertama yang bekerja dengan bahasa deskriptor adalah sistem UNITERM Amerika, yang dibuat oleh M. Taube. Kata kunci dokumen—uniterms—berfungsi sebagai deskriptor dalam sistem ini. Keunikan IRS ini adalah awalnya kamus bahasa informasi tidak ditentukan, tetapi muncul dalam proses pengindeksan dokumen dan query. Perkembangan sistem temu kembali informasi modern dikaitkan dengan berkembangnya sistem temu kembali informasi bertipe non tesaurus. Sistem informasi semacam itu bekerja dengan pengguna dalam bahasa alami yang terbatas, dan pencarian dilakukan melalui teks abstrak dokumen, melalui deskripsi bibliografinya, dan seringkali melalui dokumen itu sendiri. Untuk pengindeksan di IRS tipe non-tesaurus, kata dan frasa bahasa alami digunakan.

Sampai batas tertentu, bidang linguistik komputer dapat mencakup pekerjaan di bidang pembuatan sistem hypertext, yang dianggap sebagai cara khusus untuk mengatur teks dan bahkan sebagai jenis teks yang pada dasarnya baru, yang dalam banyak sifatnya kontras dengan teks biasa yang dibentuk dalam tradisi pencetakan Gutenberg. Ide hiperteks dikaitkan dengan nama Vannevar Bush, penasihat sains Presiden F. Roosevelt. V. Bush secara teoritis mendukung proyek sistem teknis Memex, yang memungkinkan pengguna untuk menghubungkan teks dan fragmennya menggunakan berbagai jenis koneksi, terutama melalui hubungan asosiatif. Kurangnya teknologi komputer membuat proyek ini sulit dilaksanakan, karena sistem mekanisnya ternyata terlalu rumit untuk implementasi praktis.

Ide Bush terlahir kembali pada tahun 1960an dalam sistem Xanadu karya T. Nelson, yang sudah melibatkan penggunaan teknologi komputer. “Xanadu” memungkinkan pengguna untuk membaca sekumpulan teks yang dimasukkan ke dalam sistem dengan cara berbeda, dalam urutan berbeda; perangkat lunak memungkinkan untuk mengingat urutan teks yang dilihat dan memilih hampir semua teks kapan saja. Sekumpulan teks yang memiliki hubungan yang menghubungkannya (sistem transisi) disebut hypertext oleh T. Nelson. Banyak peneliti memandang penciptaan hypertext sebagai awal dari era informasi baru, berlawanan dengan era pencetakan. Linearitas tulisan, yang secara lahiriah mencerminkan linearitas ucapan, ternyata merupakan kategori mendasar yang membatasi pemikiran dan pemahaman manusia terhadap teks. Dunia makna bersifat nonlinier, oleh karena itu, kompresi informasi semantik dalam segmen tuturan linier memerlukan penggunaan “kemasan komunikatif” khusus - pembagian menjadi tema dan rema, pembagian rencana isi ujaran menjadi eksplisit (pernyataan, proposisi, fokus) dan lapisan implisit (praanggapan, konsekuensi, implikatur wacana). Penolakan terhadap linearitas teks baik dalam proses penyajiannya kepada pembaca (yaitu selama membaca dan memahami) maupun dalam proses sintesis, menurut para ahli teori, akan berkontribusi pada “pembebasan” pemikiran dan bahkan munculnya pemikirannya. bentuk-bentuk baru.

Dalam sistem komputer, hypertext disajikan dalam bentuk grafik, yang simpulnya berisi teks tradisional atau fragmennya, gambar, tabel, video, dll. Node-node tersebut dihubungkan oleh berbagai hubungan, yang jenisnya ditentukan oleh pengembang perangkat lunak hypertext atau oleh pembaca itu sendiri. Hubungan menentukan kemungkinan potensial pergerakan, atau navigasi melalui hypertext. Hubungan bisa bersifat satu arah atau dua arah. Oleh karena itu, panah dua arah memungkinkan pengguna untuk bergerak ke dua arah, sedangkan panah satu arah memungkinkan pengguna untuk bergerak hanya dalam satu arah. Rantai simpul yang dilalui pembaca saat melihat komponen teks membentuk jalur, atau rute.

Implementasi komputer dari hypertext dapat bersifat hierarkis atau jaringan. Struktur hiperteks yang hierarkis – seperti pohon – secara signifikan membatasi kemungkinan transisi antar komponennya. Dalam hypertext seperti itu, hubungan antar komponen menyerupai struktur tesaurus berdasarkan hubungan genus-spesies. Hypertext jaringan memungkinkan penggunaan berbagai jenis hubungan antar komponen, tidak terbatas pada hubungan genus-spesies. Menurut cara keberadaan hiperteks, hiperteks statis dan dinamis dibedakan. Hiperteks statis tidak berubah selama pengoperasian; di dalamnya pengguna dapat merekam komentarnya, tetapi komentar tersebut tidak mengubah inti permasalahan. Untuk hypertext dinamis, perubahan adalah bentuk keberadaan yang normal. Biasanya, hiperteks dinamis berfungsi ketika diperlukan untuk terus menganalisis aliran informasi, mis. dalam berbagai jenis layanan informasi. Hypertext, misalnya, adalah Arizona Information System (AAIS), yang diperbarui setiap bulan sebanyak 300–500 abstrak per bulan.

Hubungan antara elemen hypertext pada awalnya dapat diperbaiki oleh pembuatnya, atau dapat dihasilkan setiap kali pengguna mengakses hypertext. Dalam kasus pertama kita berbicara tentang hiperteks berstruktur keras, dan yang kedua – tentang hiperteks berstruktur lunak. Struktur kaku secara teknologi cukup dapat dimengerti. Teknologi pengorganisasian struktur lunak harus didasarkan pada analisis semantik kedekatan dokumen (atau sumber informasi lain) satu sama lain. Ini adalah tugas yang tidak sepele dalam linguistik komputasi. Saat ini, penggunaan teknologi struktur lunak pada kata kunci tersebar luas. Peralihan dari satu node ke node lainnya dalam jaringan hypertext dilakukan sebagai hasil pencarian kata kunci. Karena kumpulan kata kunci mungkin berbeda setiap saat, struktur hypertext berubah setiap saat.

Teknologi membangun sistem hypertext tidak membedakan informasi teks dan non teks. Sementara itu, penyertaan informasi visual dan audio (video, gambar, foto, rekaman suara, dll.) memerlukan perubahan signifikan pada antarmuka pengguna dan dukungan perangkat lunak dan komputer yang lebih kuat. Sistem seperti ini disebut hypermedia, atau multimedia. Visibilitas sistem multimedia telah menentukan penggunaannya secara luas dalam pendidikan dan dalam pembuatan ensiklopedia versi komputer. Misalnya, ada CD-rom yang diproduksi dengan indah dengan sistem multimedia berdasarkan ensiklopedia anak-anak yang diterbitkan oleh Dorlin Kindersley.

Dalam kerangka leksikografi komputer, teknologi komputer untuk menyusun dan mengoperasikan kamus sedang dikembangkan. Program khusus - database, lemari arsip komputer, program pengolah kata - memungkinkan Anda membuat entri kamus secara otomatis, menyimpan informasi kamus, dan memprosesnya. Banyak program leksikografis komputer yang berbeda dibagi menjadi dua kelompok besar: program untuk mendukung karya leksikografis dan kamus otomatis dari berbagai jenis, termasuk database leksikografis. Kamus otomatis adalah kamus dalam format mesin khusus yang dimaksudkan untuk digunakan pada komputer oleh pengguna atau program pengolah kata komputer. Dengan kata lain, terdapat perbedaan antara kamus otomatis untuk pengguna akhir manusia dan kamus otomatis untuk program pengolah kata. Kamus otomatis yang ditujukan untuk pengguna akhir berbeda secara signifikan dalam antarmuka dan struktur entri kamus dari kamus otomatis yang termasuk dalam sistem terjemahan mesin, sistem abstrak otomatis, sistem pengambilan informasi, dll. Paling sering itu adalah kamus konvensional terkenal versi komputer. Di pasar perangkat lunak terdapat analog komputer dari kamus penjelasan bahasa Inggris (Webster otomatis, kamus penjelasan otomatis bahasa Inggris yang diterbitkan oleh Collins, versi otomatis Kamus Besar Inggris-Rusia Baru yang diedit oleh Yu.D. Apresyan dan E.M. Mednikova), ada juga kamus Ozhegov versi komputer. Kamus otomatis untuk program pengolah kata dapat disebut kamus otomatis dalam arti sempit. Biasanya tidak ditujukan untuk pengguna rata-rata. Ciri-ciri struktur dan ruang lingkup materi kosa kata ditentukan oleh program yang berinteraksi dengannya.

Pemodelan komputer dari struktur plot adalah bidang linguistik komputer lain yang menjanjikan. Kajian struktur alur berkaitan dengan permasalahan kritik sastra struktural (dalam arti luas), semiotika, dan kajian budaya. Program komputer yang tersedia untuk pemodelan plot didasarkan pada tiga formalisme dasar untuk representasi plot - arah morfologis dan sintaksis representasi plot, serta pendekatan kognitif. Gagasan tentang struktur morfologi struktur plot kembali ke karya terkenal V.Ya. cm.) tentang dongeng Rusia. Propp memperhatikan bahwa dengan banyaknya tokoh dan peristiwa dalam dongeng, jumlah fungsi tokoh menjadi terbatas, dan ia mengusulkan suatu alat untuk mendeskripsikan fungsi-fungsi tersebut. Ide Propp menjadi dasar program komputer TALE, yang mensimulasikan pembuatan plot dongeng. Algoritma program TALE didasarkan pada urutan fungsi karakter dalam dongeng. Faktanya, fungsi Propp mendefinisikan serangkaian situasi yang diurutkan berdasarkan analisis materi empiris. Kemungkinan menghubungkan berbagai situasi dalam aturan generasi ditentukan oleh urutan fungsi yang khas - dalam bentuk yang dapat ditetapkan dari teks dongeng. Dalam program ini, rangkaian fungsi tipikal dideskripsikan sebagai skenario pertemuan karakter yang khas.

Landasan teori pendekatan sintaksis terhadap alur suatu teks adalah “tata bahasa cerita” atau “tata bahasa cerita”. Mereka muncul pada pertengahan tahun 1970-an sebagai hasil pengalihan gagasan tata bahasa generatif N. Chomsky ke dalam deskripsi struktur makro teks. Jika komponen terpenting dari struktur sintaksis dalam tata bahasa generatif adalah frasa kata kerja dan kata benda, maka di sebagian besar tata bahasa plot, eksposisi (setting), peristiwa, dan episode dipilih sebagai komponen dasar. Dalam teori tata bahasa alur, kondisi minimal, yaitu batasan-batasan yang menentukan status suatu rangkaian unsur alur sebagai alur normal, telah banyak dibahas. Namun ternyata hal ini tidak dapat dilakukan hanya dengan menggunakan metode linguistik. Banyak pembatasan yang bersifat sosiokultural. Tata bahasa plot, meskipun berbeda secara signifikan dalam kumpulan kategori di pohon generasi, memungkinkan seperangkat aturan yang sangat terbatas untuk mengubah struktur naratif.

Pada awal tahun 1980-an, salah satu murid R. Schenk, V. Lehnert, dalam karyanya menciptakan generator plot komputer, mengusulkan formalisme asli dari unit plot emosional (Affective Plot Units), yang ternyata merupakan sarana yang ampuh. mewakili struktur plot. Meskipun pada awalnya dikembangkan untuk sistem kecerdasan buatan, formalisme ini digunakan dalam studi teoritis murni. Inti dari pendekatan Lehnert adalah bahwa plot digambarkan sebagai perubahan berurutan dalam keadaan kognitif-emosional karakter. Dengan demikian, fokus formalisme Lehnert bukan pada komponen eksternal plot – eksposisi, peristiwa, episode, moralitas – tetapi pada karakteristik isinya. Dalam hal ini, formalisme Lehnert sebagian merupakan kembalinya gagasan Propp.

Kompetensi linguistik komputer juga mencakup penerjemahan mesin yang saat ini sedang mengalami kelahiran kembali.

Literatur:

Popov E.V. Komunikasi dengan komputer dalam bahasa alami. M., 1982
Sadur V.G. Komunikasi wicara dengan komputer elektronik dan masalah perkembangannya. – Dalam buku: Komunikasi wicara: masalah dan prospek. M., 1983
Baranov A.N. Kategori kecerdasan buatan dalam semantik linguistik. Bingkai dan skrip. M., 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. Pemodelan komunikasi dalam sistem manusia-mesin. – Dukungan linguistik sistem informasi. M., 1987
Olker H.R. Dongeng, tragedi dan cara menyajikan sejarah dunia. – Dalam buku: Bahasa dan pemodelan interaksi sosial. M., 1987
Gorodetsky B.Yu. Linguistik komputasi: pemodelan komunikasi bahasa
McQueen K. Strategi wacana untuk sintesis teks bahasa alami. – Baru dalam linguistik asing. Jil. XXIV, Linguistik Komputasi. M., 1989
Popov E.V., Preobrazhensky A.B. . Fitur implementasi sistem NL
Preobrazhensky A.B. Keadaan perkembangan sistem NL modern. - Kecerdasan buatan. Buku 1, Sistem komunikasi dan sistem pakar. M., 1990
Subbotin M.M. Hiperteks. Suatu bentuk baru komunikasi tertulis. – VINITI, Ser. Ilmu Komputer, 1994, jilid 18
Baranov A.N. Pengantar Linguistik Terapan. M., 2000



LINGUISTIK KOMPUTER (menelusuri dari bahasa Inggris komputasi linguistik), salah satu bidang linguistik terapan, di mana program komputer, teknologi komputer untuk mengatur dan memproses data dikembangkan dan digunakan untuk mempelajari bahasa dan memodelkan fungsi bahasa dalam kondisi, situasi dan masalah tertentu daerah. Di sisi lain, ini adalah bidang penerapan model bahasa komputer dalam linguistik dan disiplin ilmu terkait. Sebagai arah ilmiah khusus, linguistik komputasi mulai terbentuk dalam penelitian Eropa pada tahun 1960-an. Karena kata sifat komputasi dalam bahasa Inggris juga dapat diterjemahkan sebagai “komputasi”, istilah “linguistik komputasi” juga ditemukan dalam literatur, tetapi dalam sains Rusia istilah ini mempunyai arti yang lebih sempit, mendekati konsep “linguistik kuantitatif”.

Istilah “linguistik kuantitatif” sering disebut sebagai linguistik komputasi, yang mencirikan arah interdisipliner dalam penelitian terapan, di mana metode analisis kuantitatif atau statistik digunakan sebagai alat utama untuk mempelajari bahasa dan ucapan. Terkadang linguistik kuantitatif (atau kuantitatif) dikontraskan dengan linguistik kombinatorial. Dalam yang terakhir, peran dominan ditempati oleh peralatan matematika "non-kuantitatif" - teori himpunan, logika matematika, teori algoritma, dll. Dari sudut pandang teoritis, penggunaan metode statistik dalam linguistik memungkinkan untuk melengkapi model struktural bahasa dengan komponen probabilistik, yaitu menciptakan model struktural-probabilistik teoretis yang memiliki potensi penjelas yang signifikan. Dalam bidang terapan, linguistik kuantitatif diwakili, pertama-tama, dengan penggunaan fragmen model ini, yang digunakan untuk pemantauan linguistik terhadap fungsi bahasa, dekripsi teks berkode, otorisasi/atribusi teks, dll.

Istilah "linguistik komputer" dan permasalahan di bidang ini sering dikaitkan dengan pemodelan komunikasi, dan terutama dengan penyediaan interaksi manusia dengan komputer dalam bahasa alami atau bahasa alami terbatas (sistem pemrosesan bahasa alami khusus diciptakan untuk tujuan ini. ), serta dengan teori dan praktek teknologi informasi (IRS). Menyediakan komunikasi antara seseorang dan komputer dalam bahasa alami kadang-kadang disebut sebagai “pemrosesan bahasa alami” (terjemahan dari bahasa Inggris dari istilah Natural Language Processing). Bidang linguistik komputer ini muncul pada akhir tahun 1960-an di luar negeri dan berkembang dalam kerangka disiplin ilmu pengetahuan dan teknologi yang disebut kecerdasan buatan (karya R. Schenk, M. Lebowitz, T. Winograd, dll.). Artinya, frasa “pemrosesan bahasa alami” harus mencakup semua area di mana komputer digunakan untuk memproses data bahasa. Namun dalam praktiknya, pemahaman yang lebih sempit tentang istilah tersebut telah terjadi - pengembangan metode, teknologi, dan sistem khusus yang memastikan komunikasi manusia dengan komputer dalam bahasa alami atau bahasa alami terbatas.

Sampai batas tertentu, linguistik komputer dapat mencakup pekerjaan di bidang pembuatan sistem hypertext, yang dianggap sebagai cara khusus untuk mengatur teks dan bahkan sebagai jenis teks yang pada dasarnya baru, yang dalam banyak sifatnya kontras dengan teks biasa yang dibentuk dalam tradisi Gutenberg. pencetakan (lihat Gutenberg).

Kompetensi linguistik komputasi juga mencakup penerjemahan otomatis.

Dalam kerangka linguistik komputasi, telah muncul arah yang relatif baru, yang telah aktif berkembang sejak tahun 1980-90an - linguistik korpus, di mana prinsip-prinsip umum untuk membangun korpora data linguistik (khususnya korpora teks) menggunakan teknologi komputer modern sedang dikembangkan. . Korpora teks adalah kumpulan teks yang dipilih secara khusus dari buku, majalah, surat kabar, dll., ditransfer ke media komputer dan dimaksudkan untuk diproses secara otomatis. Salah satu kumpulan teks pertama dibuat untuk Bahasa Inggris Amerika di Brown University (yang disebut Brown Corpus) pada tahun 1962-63 di bawah kepemimpinan W. Francis. Di Rusia, sejak awal tahun 2000-an, Institut Bahasa Rusia V. Vinogradov dari Akademi Ilmu Pengetahuan Rusia telah mengembangkan Korpus Nasional bahasa Rusia, yang terdiri dari sampel representatif teks berbahasa Rusia dengan volume sekitar 100 juta penggunaan kata. Selain konstruksi korpora data yang sebenarnya, linguistik korpus berkaitan dengan pembuatan alat komputer (program komputer) yang dirancang untuk mengekstrak berbagai informasi dari korpora teks. Dari sudut pandang pengguna, kumpulan teks harus memenuhi persyaratan keterwakilan, kelengkapan, dan ekonomis.

Linguistik komputer secara aktif berkembang baik di Rusia maupun di luar negeri. Aliran publikasi di bidang ini sangat besar. Selain koleksi tematik, jurnal Computational Linguistics telah diterbitkan setiap triwulan di Amerika Serikat sejak tahun 1984. Banyak pekerjaan organisasi dan ilmiah dilakukan oleh Asosiasi Linguistik Komputasi, yang memiliki struktur regional di seluruh dunia (khususnya, cabang Eropa). Konferensi internasional COLINT diadakan setiap dua tahun (pada tahun 2008 konferensi diadakan di Manchester). Arah utama linguistik komputasi juga dibahas pada konferensi internasional tahunan “Dialog”, yang diselenggarakan oleh Institut Penelitian Kecerdasan Buatan Rusia, Fakultas Filologi Universitas Negeri Moskow, Yandex dan sejumlah organisasi lainnya. Isu-isu terkait juga banyak terwakili di konferensi internasional tentang kecerdasan buatan di berbagai tingkatan.

Lit.: Zvegintsev V. A. Linguistik teoretis dan terapan. M., 1968; Piotrovsky R.G., Bektaev K.B., Piotrovskaya A. A. Linguistik matematika. M., 1977; Gorodetsky B. Yu. Masalah terkini linguistik terapan // Baru dalam linguistik asing. M., 1983. Edisi. 12; Kibrik A. E. Linguistik terapan // Kibrik A. E. Esai tentang masalah linguistik umum dan terapan. M., 1992; Kennedy G. Pengantar linguistik korpus. L., 1998; Bolshakov I.A., Gelbukh A. Linguistik komputasi: model, sumber daya, aplikasi. Mekh., 2004; Korpus Nasional Bahasa Rusia: 2003-2005. M., 2005; Baranov A. N. Pengantar linguistik terapan. edisi ke-3. M., 2007; Linguistik komputer dan teknologi intelektual. M., 2008. Edisi. 7.

perangkat lunak linguistik statistik linguistik

Sejarah perkembangan linguistik komputasi

Proses pembentukan dan pembentukan linguistik modern sebagai ilmu bahasa alami merupakan sejarah perkembangan ilmu linguistik yang panjang. Pengetahuan linguistik didasarkan pada unsur-unsur yang terbentuk dalam proses kegiatan yang tidak dapat dipisahkan dari perkembangan struktur tuturan lisan, kemunculan, pengembangan lebih lanjut dan penyempurnaan tulisan, pembelajaran menulis, serta penafsiran dan penguraian teks.

Bahasa alam sebagai objek linguistik menempati tempat sentral dalam ilmu ini. Dalam proses perkembangan bahasa, gagasan tentangnya pun berubah. Jika sebelumnya tidak ada kepentingan khusus yang diberikan pada organisasi internal bahasa, dan itu dianggap terutama dalam konteks hubungannya dengan dunia luar, maka, mulai dari akhir abad ke-19 - awal abad ke-20, peran khusus diberikan kepada internal. struktur formal bahasa. Pada periode inilah ahli bahasa Swiss terkenal Ferdinand de Saussure mengembangkan dasar-dasar ilmu-ilmu seperti semiologi dan linguistik struktural, dan menguraikannya secara rinci dalam bukunya A Course in General Linguistics (1916).

Ilmuwan mendapat ide untuk menganggap bahasa sebagai mekanisme tunggal, sistem tanda yang integral, yang pada gilirannya memungkinkan untuk menggambarkan bahasa secara matematis. Saussure adalah orang pertama yang mengemukakan pendekatan struktural terhadap bahasa, yaitu: deskripsi bahasa dengan mempelajari hubungan antar unit-unitnya. Berdasarkan satuan, atau “tanda”, ia memahami sebuah kata yang menggabungkan makna dan bunyi. Konsep yang dikemukakan oleh ilmuwan Swiss ini didasarkan pada teori bahasa sebagai suatu sistem tanda yang terdiri dari tiga bagian: bahasa (dari bahasa Perancis langue), ucapan (dari bahasa Perancis parole) dan aktivitas bicara (dari bahasa Perancis langage).

Ilmuwan itu sendiri mendefinisikan ilmu yang diciptakannya, semiologi, sebagai “ilmu yang mempelajari kehidupan tanda-tanda dalam kerangka kehidupan masyarakat”. Karena bahasa merupakan suatu sistem tanda, maka dalam mencari jawaban atas pertanyaan apa kedudukan linguistik di antara ilmu-ilmu lainnya, Saussure berpendapat bahwa linguistik merupakan bagian dari semiologi. Secara umum diterima bahwa filolog Swiss-lah yang meletakkan landasan teoretis bagi arah baru dalam linguistik, menjadi pendiri dan “bapak” linguistik modern.

Konsep yang dikemukakan oleh F. de Saussure dikembangkan lebih lanjut dalam karya banyak ilmuwan terkemuka: di Denmark - L. Hjelmslev, di Republik Ceko - N. Trubetskoy, di AS - L. Bloomfield, Z. Harris, N. Chomsky. Adapun di negara kita, di sini linguistik struktural mulai berkembang pada periode waktu yang kira-kira sama dengan di Barat - pada pergantian abad ke-19-20. - dalam karya F. Fortunatov dan I. Baudouin de Courtenay. Perlu dicatat bahwa I. Baudouin de Courtenay bekerja sama dengan F. de Saussure. Jika Saussure meletakkan landasan teori linguistik struktural, maka Baudouin de Courtenay dapat dianggap sebagai orang yang meletakkan dasar bagi penerapan praktis metode yang dikemukakan oleh ilmuwan Swiss tersebut. Dialah yang mendefinisikan linguistik sebagai ilmu yang menggunakan metode statistik dan ketergantungan fungsional, serta memisahkannya dari filologi. Pengalaman pertama penerapan metode matematika dalam linguistik adalah fonologi - ilmu tentang struktur bunyi suatu bahasa.

Perlu dicatat bahwa dalil-dalil yang dikemukakan oleh F. de Saussure mampu tercermin dalam permasalahan linguistik yang relevan pada pertengahan abad ke-20. Pada periode inilah terdapat kecenderungan yang jelas terhadap matematisasi ilmu bahasa. Di hampir semua negara besar, perkembangan pesat ilmu pengetahuan dan teknologi komputer dimulai, yang pada gilirannya membutuhkan landasan linguistik yang semakin baru. Hasil dari semua ini adalah konvergensi yang cepat antara ilmu-ilmu eksakta dan humaniora, serta interaksi aktif antara matematika dan linguistik, yang menemukan penerapan praktis dalam memecahkan masalah-masalah ilmiah yang mendesak.

Pada tahun 50-an abad ke-20, di persimpangan ilmu-ilmu seperti matematika, linguistik, ilmu komputer, dan kecerdasan buatan, muncul cabang ilmu baru - linguistik komputer (juga dikenal sebagai linguistik mesin atau pemrosesan teks otomatis dalam bahasa alami). Tahapan utama pengembangan arah ini terjadi dengan latar belakang evolusi metode kecerdasan buatan. Dorongan kuat bagi perkembangan linguistik komputer adalah penciptaan komputer pertama. Namun, dengan munculnya komputer dan bahasa pemrograman generasi baru di tahun 60an, tahap baru yang mendasar dalam pengembangan ilmu ini dimulai. Perlu juga dicatat bahwa asal usul linguistik komputasional berasal dari karya ahli bahasa Amerika terkenal N. Chomsky di bidang formalisasi struktur bahasa. Hasil penelitiannya yang diperoleh pada titik temu antara linguistik dan matematika menjadi landasan bagi berkembangnya teori bahasa dan tata bahasa formal (tata bahasa generatif atau generatif), yang banyak digunakan untuk menggambarkan alam dan buatan. bahasa, khususnya bahasa pemrograman. Lebih tepatnya, teori ini sepenuhnya merupakan disiplin matematika. Ini dapat dianggap sebagai salah satu yang pertama dalam arah linguistik terapan seperti linguistik matematika.

Eksperimen pertama dan perkembangan pertama dalam linguistik komputasi berkaitan dengan penciptaan sistem terjemahan mesin, serta sistem yang memodelkan kemampuan bahasa manusia. Pada akhir tahun 80an, dengan munculnya dan perkembangan aktif Internet, terjadi pertumbuhan pesat dalam jumlah informasi teks yang tersedia dalam bentuk elektronik. Hal ini mengarah pada fakta bahwa teknologi pencarian informasi telah berpindah ke tahap perkembangan yang secara kualitatif baru. Ada kebutuhan untuk pemrosesan teks secara otomatis dalam bahasa alami, dan tugas serta teknologi yang benar-benar baru pun muncul. Para ilmuwan dihadapkan pada masalah dalam memproses sejumlah besar data tidak terstruktur dengan cepat. Untuk menemukan solusi terhadap masalah ini, pengembangan dan penerapan metode statistik di bidang pemrosesan teks otomatis sangat penting. Dengan bantuan mereka, menjadi mungkin untuk memecahkan masalah seperti membagi teks menjadi kelompok-kelompok yang disatukan oleh tema yang sama, menyorot bagian-bagian tertentu dalam teks, dll. Selain itu, penggunaan metode statistik matematika dan pembelajaran mesin memungkinkan pemecahan masalah pengenalan suara dan pembuatan mesin pencari.

Para ilmuwan tidak berhenti pada hasil yang dicapai: mereka terus menetapkan tujuan dan sasaran baru, mengembangkan teknik dan metode penelitian baru. Semua ini mengarah pada fakta bahwa linguistik mulai bertindak sebagai ilmu terapan, menggabungkan sejumlah ilmu lain, peran utama di antaranya adalah matematika dengan keragaman metode kuantitatif dan kemampuan menggunakannya untuk pemahaman yang lebih dalam tentang fenomena tersebut. sedang dipelajari. Dari sinilah linguistik matematika memulai pembentukan dan perkembangannya. Saat ini merupakan ilmu yang cukup “muda” (sudah ada sekitar lima puluh tahun), namun meskipun usianya sangat “muda”, ilmu ini merupakan bidang ilmu pengetahuan yang sudah mapan dengan banyak prestasi yang berhasil.