Antarmuka modern dalam linguistik komputasi. Linguistik komputasi. Bidang Linguistik Komputasi


1. Kegiatan memformalkan pengetahuan tentang bahasa alami pada berbagai tingkatan untuk tujuan penggunaan teknologi komputer. 2. Bidang pengetahuan yang memecahkan masalah komunikasi antara manusia dan komputer dalam bahasa alami. 3. Berbagai macam penggunaan alat komputer - program, teknologi komputer untuk mengatur dan memproses data - untuk memodelkan fungsi bahasa dalam kondisi, situasi, area masalah tertentu.


Kecerdasan buatan adalah cabang ilmu komputer yang tujuannya adalah untuk mengembangkan sistem komputer yang mampu melakukan fungsi-fungsi yang secara tradisional dianggap intelektual - memahami bahasa alami, inferensi logis, menggunakan akumulasi pengetahuan, pembelajaran, perencanaan tindakan, dll.






3. Konstruksi algoritma analisis linguistik - pengembangan algoritma untuk analisis teks bahasa alami pada semua tingkat bahasa: fonemik, morfemik, morfologi, sintaksis, pragmatis. Membangun pohon ketergantungan sintaksis (proyek Pemrosesan Teks Otomatis)


4. Linguistik korpus – berkaitan dengan pengembangan, penciptaan dan penggunaan korpora teks (linguistik). Halaman beranda situs web Corpus Nasional Bahasa Rusia


5. Terjemahan mesin adalah arah penelitian ilmiah yang berkaitan dengan pembangunan sistem otomatis untuk menerjemahkan teks dari satu bahasa alami ke bahasa lain. Halaman beranda situs penerjemah Google


6. Abstrak otomatis – pembuatan program untuk presentasi terkompresi teks bahasa alami. Layanan untuk membuat abstrak di situs Visual World


7. Pengambilan informasi teks lengkap – pengembangan sistem pencarian informasi dengan analisis linguistik teks susunan informasi dan permintaan pengguna. Halaman beranda sistem pencarian informasi Yandex











Linguistik (dari bahasa Latin lingua -
bahasa), linguistik, linguistik - sains,
mempelajari bahasa.
Inilah ilmu tentang bahasa alami manusia pada umumnya
dan tentang semua bahasa di dunia seperti miliknya
perwakilan individu.
Dalam arti luas, linguistik
dibagi menjadi ilmiah dan praktis. Lebih sering
yang dimaksud dengan linguistik adalah tepatnya
linguistik ilmiah. Ini adalah bagian dari semiotika sebagai
ilmu tanda.
Linguistik dipelajari secara profesional oleh para ilmuwan linguistik.

Linguistik dan Ilmu Komputer.
Sistem otomatis memegang peranan penting dalam kehidupan masyarakat modern.
teknologi Informasi. Namun perkembangan teknologi informasi sedang terjadi
sangat tidak merata: jika tingkat teknologi komputer modern dan
sarana komunikasi memukau imajinasi, kemudian di bidang pemrosesan semantik
informasi, keberhasilannya jauh lebih sederhana. Keberhasilan ini pertama-tama bergantung pada
prestasi dalam studi proses berpikir manusia, proses bicara
komunikasi antara manusia dan kemampuan untuk mensimulasikan proses ini di komputer. Dan ini adalah tugas yang sangat rumit dalam hal menciptakan hal yang menjanjikan
teknologi informasi, kemudian masalah pengolahan teks otomatis
informasi yang disajikan dalam bahasa alami mengemuka.
Hal ini ditentukan oleh kenyataan bahwa pemikiran seseorang erat kaitannya dengan bahasanya. Lagi
Selain itu, bahasa alami adalah alat berpikir. Dia juga
sarana komunikasi universal antar manusia - sarana persepsi,
akumulasi, penyimpanan, pemrosesan dan transmisi informasi.
Masalah penggunaan bahasa alami secara otomatis
Ilmu linguistik komputer berkaitan dengan pemrosesan informasi. Ilmu ini
muncul relatif baru - pada pergantian tahun lima puluhan dan enam puluhan
abad terakhir. Pada mulanya pada masa pembentukannya bermacam-macam
judul: linguistik matematika, linguistik komputasi, teknik
ilmu bahasa. Namun pada awal tahun delapan puluhan, nama itu diberikan padanya
linguistik komputasi.

Linguistik komputasional adalah bidang ilmu yang berkaitan dengan pemecahan masalah
pemrosesan otomatis informasi yang disajikan dalam bahasa alami.
Masalah ilmiah utama dari linguistik komputasi adalah masalahnya
memodelkan proses pemahaman makna teks (transisi dari teks ke
representasi formal dari maknanya) dan masalah sintesis ucapan (transisi dari
representasi makna yang diformalkan pada teks dalam bahasa alami). Masalah-masalah ini
muncul ketika memecahkan sejumlah masalah terapan:
1) deteksi otomatis dan koreksi kesalahan saat memasukkan teks ke komputer,
2) analisis otomatis dan sintesis pidato lisan,
3) terjemahan otomatis teks dari satu bahasa ke bahasa lain,
4) komunikasi dengan komputer dalam bahasa alami,
5) klasifikasi otomatis dan pengindeksan dokumen teks, miliknya
abstraksi otomatis, mencari dokumen dalam database teks lengkap.
Selama setengah abad terakhir di bidang linguistik komputasional telah diperoleh banyak hal
hasil ilmiah dan praktis yang signifikan: sistem mesin diciptakan
terjemahan teks dari satu bahasa alami ke bahasa lain, sistem otomatis
mencari informasi dalam teks, sistem untuk analisis otomatis dan sintesis pidato lisan dan
banyak lainnya. Namun ada juga kekecewaan. Misalnya saja masalah terjemahan mesin
teks dari satu bahasa ke bahasa lain ternyata jauh lebih sulit dari yang dibayangkan
pelopor terjemahan mesin dan pengikutnya. Hal yang sama dapat dikatakan tentang
pencarian otomatis informasi dalam teks dan tugas analisis dan sintesis lisan
pidato. Para ilmuwan dan insinyur tampaknya harus bekerja lebih keras untuk mencapainya
mencapai hasil yang diinginkan.

Pemrosesan bahasa alami; sintaksis,
analisis morfologis, semantik teks). Ini juga termasuk:
Linguistik korpus, pembuatan dan penggunaan korpora teks elektronik
Pembuatan kamus elektronik, tesauri, ontologi. Misalnya, Lingvo. Kamus
digunakan, misalnya, untuk terjemahan otomatis dan pemeriksaan ejaan.
Terjemahan otomatis teks. Populer di kalangan penerjemah Rusia
adalah Promt. Di antara yang gratis adalah Google Translate.
Ekstraksi fakta secara otomatis dari teks (ekstraksi informasi)
ekstraksi, penambangan teks)
Peringkasan teks otomatis. Fitur ini diaktifkan
misalnya di Microsoft Word.
Membangun sistem manajemen pengetahuan. Lihat Sistem Pakar
Penciptaan sistem penjawab pertanyaan.
Pengenalan karakter optik (OCR). Misalnya saja program FineReader
Pengenalan Ucapan Otomatis (ASR). Ada perangkat lunak berbayar dan gratis
Sintesis ucapan otomatis

Perkenalan

Apa itu linguistik komputasi?

LINGUISTIK KOMPUTER , suatu arah dalam linguistik terapan, yang berfokus pada penggunaan alat komputer - program, teknologi komputer untuk mengatur dan memproses data - untuk memodelkan fungsi bahasa dalam kondisi, situasi, area masalah tertentu, dll., serta seluruh ruang lingkup bahasa penerapan model bahasa komputer dalam linguistik dan disiplin ilmu terkait. Sebenarnya, hanya dalam kasus terakhir kita berbicara tentang linguistik terapan dalam arti sempit, karena pemodelan bahasa komputer juga dapat dianggap sebagai bidang penerapan ilmu komputer dan teori pemrograman untuk memecahkan masalah dalam ilmu bahasa. Namun dalam praktiknya, linguistik komputasional mencakup hampir semua hal yang berkaitan dengan penggunaan komputer dalam linguistik.

Linguistik komputasional mulai terbentuk sebagai bidang ilmiah khusus pada tahun 1960an. Istilah Rusia "linguistik komputer" adalah terjemahan dari linguistik komputasi bahasa Inggris. Karena kata sifat komputasi dalam bahasa Rusia juga dapat diterjemahkan sebagai “komputasi”, istilah “linguistik komputasi” juga ditemukan dalam literatur, namun dalam sains Rusia, istilah ini mempunyai arti yang lebih sempit, mendekati konsep “linguistik kuantitatif”. Aliran publikasi di bidang ini sangat besar. Selain koleksi tematik, jurnal Computer Linguistics diterbitkan setiap triwulan di Amerika. Banyak pekerjaan organisasi dan ilmiah dilakukan oleh Asosiasi Linguistik Komputasi, yang memiliki struktur regional (khususnya, cabang Eropa). Setiap dua tahun, konferensi internasional tentang linguistik komputasi – COLING – diadakan. Isu-isu terkait biasanya terwakili secara luas di berbagai konferensi tentang kecerdasan buatan.

Tugas

Linguistik komputasi mengambil masalah linguistik aktual dari pemodelan komputer aktivitas bahasa. Tujuannya adalah untuk membangun model linguistik yang lebih akurat dan lengkap serta algoritma analisis dan sintesis yang lebih maju.

Arahan utama dapat diidentifikasi:

1) Interaksi antara manusia dan komputer: kontrol - bahasa pemrograman, transfer informasi - antarmuka.

2) Bekerja dengan teks: pengindeksan, analisis dan klasifikasi, pengeditan otomatis (koreksi kesalahan), identifikasi pengetahuan, terjemahan mesin.

Cerita

Generasi sederhana dari subset bahasa Inggris untuk mengakses database disediakan oleh salah satu sistem awal Amerika LIFER (Fasilitas Antarmuka Bahasa yang Elipsis dan Rekursi), yang dibuat pada tahun 70an. Setelah itu, sistem lain yang lebih fleksibel muncul di pasar komputer, menyediakan antarmuka bahasa alami yang terbatas dengan komputer.

Pada tahun 80-an, sejumlah perusahaan dibentuk di Amerika Serikat yang bergerak dalam pengembangan dan penjualan antarmuka bahasa alami dengan database dan sistem pakar. Pada tahun 1985 Semantek Corporation menyajikan paket perangkat lunak Tanya Jawab, dan perusahaan Grup Carnegie menawarkan paket LanguageCraft serupa.

Pekerjaan aktif sedang dilakukan untuk menciptakan sistem terjemahan otomatis. Sistem terjemahan otomatis SYSTRAN, yang dikembangkan di bawah kepemimpinan D. Tom untuk Angkatan Udara AS, telah tersebar luas. Selama tahun 1974 - 1975 Sistem ini digunakan oleh asosiasi kedirgantaraan NASA untuk menerjemahkan dokumen untuk proyek Apollo-Soyuz. Saat ini, dia menerjemahkan sekitar 100.000 halaman setiap tahunnya dari beberapa bahasa.

Di Eropa, upaya menciptakan sistem penerjemahan komputer dirangsang oleh pembentukan Jaringan Informasi Eropa (EURONET DIANA). Pada tahun 1982, Komunitas Ekonomi Eropa mengumumkan pembuatan program Eropa EUROTRA, yang tujuannya adalah untuk mengembangkan sistem terjemahan berbantuan komputer untuk semua bahasa Eropa. Proyek ini awalnya diperkirakan bernilai $12 juta; pada tahun 1987, para ahli menentukan total biaya proyek ini lebih dari $160 juta.

Di Jepang, penelitian di bidang linguistik komputasi berpusat pada program komputer generasi kelima yang diumumkan secara nasional pada tahun 1981.

Ada sejumlah proyek militer untuk menciptakan antarmuka manusia-mesin dalam bahasa alami. Di Amerika Serikat, hal ini dilakukan terutama dalam kerangka Inisiatif Komputer Strategis, sebuah program sepuluh tahun yang diadopsi oleh Departemen Pertahanan pada tahun 1983. Tujuannya adalah untuk menciptakan senjata dan sistem militer “cerdas” generasi baru di negara tersebut. untuk memastikan keunggulan teknologi jangka panjang Amerika Serikat.

Tentu saja, para spesialis kecerdasan buatan, yang berpengalaman dalam komputer dan bahasa pemrograman, dengan penuh semangat mulai memecahkan masalah pemahaman bahasa dengan menggunakan metode mereka sendiri. Ada pencarian algoritma bahasa alami. Program pemahaman bahasa yang kompleks telah dibuat untuk bidang khusus yang sangat sempit, program terjemahan mesin sebagian dan sejumlah lainnya telah diterapkan. Namun tidak ada kemajuan yang menentukan dalam memecahkan masalah pemahaman bahasa. Bahasa dan manusia sangat terhubung sehingga para ilmuwan harus mengatasi masalah pemahaman manusia terhadap dunia. Dan ini sudah menjadi bidang filsafat.

Konsep dasar linguistik

Sejak 2012, Institut Linguistik Universitas Negeri Rusia untuk Kemanusiaan telah melatih master dalam program master. Linguistik komputasi(arah Linguistik dasar dan terapan). Program ini dirancang untuk mempersiapkan profesional ahli bahasa yang menguasai dasar-dasar linguistik dan metode penelitian modern, ahli-analitis, pekerjaan teknik dan mampu berpartisipasi secara efektif dalam pengembangan teknologi komputer bahasa yang inovatif.

Pengembang penelitian besar dan sistem komersial di bidang pemrosesan teks otomatis berpartisipasi dalam proses pendidikan, yang memastikan hubungan pelatihan master dengan arus utama linguistik komputer modern. Perhatian khusus diberikan pada partisipasi para master dalam konferensi Rusia dan internasional.

Di antara para guru adalah penulis buku teks dasar tentang spesialisasi linguistik, spesialis kelas dunia, manajer proyek sistem pemrosesan bahasa otomatis yang besar: Ya.G. Testelet, I.M. Boguslavsky, V.I. Belikov, V.I. Podlesskaya, V.P. Selegey, L.L. Iomdin, A.S. Starostin, S.A. Sharov, serta karyawan perusahaan yang merupakan pemimpin dunia di bidang linguistik komputasi: IBM (sistem Watson), Yandex, ABBYY (Lingvo, FineReader, sistem Compreno).

Dasar pelatihan master dalam program ini adalah pendekatan proyek. Keterlibatan mahasiswa magister dalam pekerjaan penelitian di bidang linguistik komputasi terjadi atas dasar Universitas Negeri Rusia untuk Kemanusiaan dan atas dasar perusahaan yang mengembangkan program di bidang AOT (ABBYY, IBM, dll.), yang , tentu saja, merupakan nilai tambah yang besar baik bagi para master itu sendiri maupun bagi calon majikan mereka. Secara khusus, master yang ditargetkan diterima di program master, yang pelatihannya diberikan oleh pemberi kerja di masa depan.

Tes masuk: "Model formal dan metode linguistik modern." Informasi akurat tentang waktu ujian dapat diperoleh di situs web Departemen Magister Universitas Negeri Rusia untuk Kemanusiaan.

Kepala magistrasi - kepala. Pusat Pendidikan dan Ilmiah Linguistik Komputasi, Direktur Penelitian Linguistik di ABBYY Vladimir Pavlovich Selegey dan Doktor Filologi, Profesor Vera Isaakovna Podleskaya .

Program ujian masuk dan wawancara dalam disiplin "Model formal dan metode linguistik modern".

Komentar pada program ini

  • Setiap pertanyaan program dapat disertai dengan tugas yang berkaitan dengan deskripsi fenomena linguistik tertentu yang terkait dengan bagian pertanyaan: konstruksi struktur, deskripsi batasan, kemungkinan algoritma untuk konstruksi dan/atau identifikasi.
  • Pertanyaan yang ditandai dengan tanda bintang bersifat opsional (muncul di bawah nomor 3 pada tiket). Pengetahuan tentang materi yang relevan merupakan bonus besar bagi kandidat, namun tidak diperlukan.
  • Selain pertanyaan teoretis, tiket ujian akan menawarkan sebagian kecil teks (linguistik) khusus dalam bahasa Inggris untuk diterjemahkan dan didiskusikan. Pelamar diharuskan untuk menunjukkan tingkat kemahiran yang memuaskan dalam terminologi ilmiah bahasa Inggris dan keterampilan analisis teks ilmiah. Sebagai contoh teks yang tidak menimbulkan kesulitan serius bagi pemohon, berikut penggalan artikel https://en.wikipedia.org/wiki/Anafora_(linguistik):

Dalam linguistik, anafora (/əˈnæfərə/) adalah penggunaan ekspresi yang penafsirannya bergantung pada ekspresi lain dalam konteks (sebelumnya atau setelahnya). Dalam pengertian yang lebih sempit, anafora adalah penggunaan ungkapan yang bergantung secara spesifik pada ungkapan pendahulunya dan dengan demikian dikontraskan dengan katafora, yaitu penggunaan ungkapan yang bergantung pada ungkapan sesudahnya. Istilah anaforis (merujuk) disebut anafor. Misalnya, dalam kalimat Sally tiba, tetapi tidak ada yang melihatnya, kata ganti dia adalah anafora, merujuk kembali ke pendahulunya Sally. Dalam kalimat Sebelum kedatangannya, tidak ada yang melihat Sally, kata ganti dia mengacu pada Sally yang pascaseden, jadi dia sekarang menjadi katafora (dan anafora dalam arti yang lebih luas, tetapi bukan yang lebih sempit). Biasanya, ekspresi anaforis adalah bentuk proform atau ekspresi deiktik lainnya (bergantung pada kontekstual). Baik anafora maupun katafora adalah spesies endofora, mengacu pada sesuatu yang disebutkan di tempat lain dalam dialog atau teks.

Anaphora merupakan sebuah konsep penting karena berbagai alasan dan tingkatan yang berbeda: pertama, anafora menunjukkan bagaimana wacana dikonstruksi dan dipelihara; kedua, anafora mengikat unsur-unsur sintaksis yang berbeda menjadi satu pada tataran kalimat; ketiga, anafora menghadirkan tantangan terhadap pemrosesan bahasa alami dalam linguistik komputasi, karena identifikasi referensi bisa jadi sulit; dan keempat, anafora menceritakan beberapa hal tentang bagaimana bahasa dipahami dan diproses, yang relevan dengan bidang linguistik yang tertarik pada psikologi kognitif.

MASALAH TEORITIS

MASALAH UMUM LINGUISTIKA

  • Objek linguistik. Bahasa dan ucapan. Sinkronisasi dan diakroni.
  • Tingkatan bahasa. Model formal tingkat bahasa.
  • Sintagmatik dan paradigmatik. Konsep distribusi.
  • Landasan perbandingan antarbahasa: linguistik tipologis, silsilah, dan areal.
  • *Linguistik matematika: objek dan metode penelitian

FONETIK

  • Mata pelajaran fonetik. Fonetik artikulasi dan akustik.
  • Fonetik segmental dan suprasegmental. Prosodi dan intonasi.
  • Konsep dasar fonologi. Tipologi sistem fonologi dan implementasi fonetiknya.
  • *Alat komputer dan metode penelitian fonetik
  • *Analisis dan sintesis ucapan.

MORFOLOGI

  • Pokok bahasan morfologi. Morf, morfem, alomorf.
  • Infleksi dan pembentukan kata.
  • Makna gramatikal dan cara penerapannya. Kategori tata bahasa dan tata bahasa. Makna gramatikal morfologis dan sintaksis.
  • Konsep bentuk kata, batang, lemma dan paradigma.
  • Bagian dari pidato; pendekatan dasar untuk mengidentifikasi bagian-bagian pidato.
  • *Model formal untuk mendeskripsikan infleksi dan pembentukan kata.
  • *Morfologi dalam tugas pemrosesan bahasa otomatis: pemeriksaan ejaan, lemmatisasi, penandaan POS

SINTAKSIS

  • Subjek sintaksis. Cara mengekspresikan hubungan sintaksis.
  • Cara merepresentasikan struktur sintaksis sebuah kalimat. Keuntungan dan kerugian dari pohon ketergantungan dan komponen.
  • Cara untuk menggambarkan tatanan linier. Kurangnya proyektivitas dan pecahnya komponen. Konsep transformasi; transformasi yang berhubungan dengan tatanan linier.
  • Hubungan antara sintaksis dan semantik: valensi, model kendali, aktan dan sirkonstan.
  • Diatesis dan jaminan. Derivasi aktan.
  • Organisasi ucapan yang komunikatif. Tema dan rima, yang ada dan yang baru, kontras.
  • *Teori sintaksis utama: MST, generativisme, tata bahasa fungsional, HPSG
  • *Model sintaksis matematika: klasifikasi bahasa formal menurut Chomsky, algoritma pengenalan dan kompleksitasnya.

SEMANTIK

  • Pokok bahasan semantik. Gambaran linguistik dunia yang naif dan ilmiah. Hipotesis Sapir – Whorf.
  • Makna dalam bahasa dan ucapan: makna dan rujukan. Jenis referensi (status denotatif).
  • Semantik leksikal. Cara untuk mendeskripsikan semantik suatu kata.
  • Semantik tata bahasa. Kategori utama menggunakan contoh bahasa Rusia.
  • Semantik kalimat. Komponen proposisional. Deiksis dan anafora. Pengukur dan penghubung. Pengandaian.
  • Hierarki dan sistematika makna leksikal. Polisemi dan homonimi. Struktur semantik kata polisemantik. Konsep invarian dan prototipe.
  • Hubungan paradigmatik dan sintagmatik dalam kosa kata. Fungsi leksikal.
  • Penafsiran. Bahasa interpretasi. Sekolah Semantik Moskow
  • Semantik dan logika. Nilai kebenaran pernyataan tersebut.
  • Teori tindak tutur. Ucapan dan kekuatan ilokusinya. Performatif. Klasifikasi tindak tutur.
  • Fraseologi: inventarisasi dan metode mendeskripsikan unit fraseologis.
  • *Model dan metode semantik formal.
  • *Model semantik dalam linguistik komputasi modern.
  • *Semantik distributif dan operasional.
  • *Ide dasar tata bahasa konstruksi.

TIPOLOGI

  • Klasifikasi tipologi tradisional bahasa.
  • Tipologi kategori gramatikal kata benda dan kata kerja.
  • Tipologi kalimat sederhana. Jenis konstruksi utama: akusatif, ergatif, aktif.
  • Tipologi urutan kata dan korelasi Greenberg. Bahasa bercabang kiri dan kanan.

LEKSIKOGRAFI

  • Kosakata sebagai inventarisasi budaya; variasi sosial kosakata, penggunaan leksikal, norma, kodifikasi.
  • Tipologi kamus (pada materi Rusia). Refleksi kosa kata dalam kamus berbagai jenis.
  • Leksikografi bilingual menggunakan bahasa Rusia.
  • Leksikografi deskriptif dan preskriptif. Kamus linguistik profesional.
  • Spesifik dari kamus penjelasan utama Rusia. Struktur entri kamus. Interpretasi dan informasi ensiklopedis.
  • Kosakata dan tata bahasa. Gagasan tentang model bahasa integral di Sekolah Semantik Moskow.
  • *Metodologi seorang leksikografer.
  • *Metode korpus dalam leksikografi.

LINGUISTIK TEKS DAN WACANA

  • Konsep teks dan wacana.
  • Mekanisme komunikasi interfrase. Jenis sarana utama implementasi linguistiknya.
  • Kalimat sebagai satuan bahasa dan sebagai unsur teks.
  • Kesatuan superfrase, prinsip pembentukan dan isolasinya, sifat dasar.
  • Kategori utama klasifikasi teks (genre, gaya, register, bidang subjek, dll.)
  • *Metode untuk klasifikasi genre otomatis.

SOSIOLINGUISTIKA

  • Masalah pokok bahasan dan batasan sosiolinguistik, sifat interdisiplinernya. Konsep dasar sosiologi dan demografi. Tingkatan struktur linguistik dan sosiolinguistik. Konsep dasar dan arah sosiolinguistik.
  • Kontak bahasa. Bilingualisme dan diglosia. Proses divergen dan konvergen dalam sejarah bahasa.
  • Diferensiasi sosial bahasa. Bentuk-bentuk keberadaan bahasa. Bahasa sastra: kodifikasi-norma-penggunaan. Bidang fungsional bahasa.
  • Sosialisasi bahasa. Sifat hierarki identitas sosial dan linguistik. Perilaku linguistik seseorang dan repertoar komunikatifnya.
  • Metode penelitian sosiolinguistik.

LINGUISTIK KOMPUTER

  • Tugas dan metode linguistik komputasi.
  • Linguistik korpus. Karakteristik utama dari kasus ini.
  • Representasi pengetahuan. Ide dasar teori bingkai oleh M. Minsky. sistem FrameNet.
  • Tesaurus dan ontologi. Jaringan Kata.
  • Dasar-dasar analisis teks statistik. Kamus frekuensi. Analisis kolokasi.
  • *Konsep pembelajaran mesin.

LITERATUR

Pendidikan (tingkat dasar)

Baranov A.N. Pengantar Linguistik Terapan. M.: Redaksi URRS, 2001.

Baranov A.N., Dobrovolsky D.O. Dasar-dasar fraseologi (kursus singkat) Panduan belajar. edisi ke-2. Moskow: Flinta, 2014.

Belikov V.A., Krysin L.P. Sosiolinguistik. M., Universitas Negeri Rusia untuk Kemanusiaan, 2001.

Burlak S.A., Starostin S.A. Linguistik sejarah komparatif. M.: Akademi. 2005

Vakhtin N.B., Golovko E.V.. Sosiolinguistik dan sosiologi bahasa. Sankt Peterburg, 2004.

Knyazev S.V., Pozharitskaya S.K. Bahasa sastra Rusia modern: Fonetik, grafik, ejaan, ejaan. edisi ke-2. M., 2010

Kobozeva I.M. Semantik linguistik. M.: Redaksi URSS. 2004.

Kodzasov S.V., Krivnova O.F. Fonetik umum. M.: RSUH, 2001.

Krongauz M.A. Semantik. M.: RSUH. 2001.

Krongauz M.A. Semantik: Tugas, tugas, teks. M.: Akademi. 2006..

Maslov Yu.S. Pengantar linguistik. Ed. 6, terhapus. M.: Akademi, Fil. palsu. Universitas Negeri St.Petersburg,

Plungyan V.A. Morfologi umum: Pengantar pokok bahasan. Ed. ke-2. M.: Redaksi URSS, 2003.

Testelet Ya.G. Pengantar sintaksis umum. M., 2001.

Shaikevich A.Ya. Pengantar linguistik. M.: Akademi. 2005.

Ilmiah dan referensi

Apresyan Yu.D. Karya terpilih, volume I. Semantik leksikal: edisi ke-2, bahasa Spanyol. dan tambahan M.: Sekolah "Bahasa Budaya Rusia", 1995.

Apresyan Yu.D. Karya Terpilih, Jilid II. Deskripsi integral bahasa dan leksikografi sistem. M.: Sekolah "Bahasa Budaya Rusia", 1995.

Apresyan Yu.D.(ed.) Kamus penjelasan baru tentang sinonim bahasa Rusia. Moskow - Wina: "Bahasa Budaya Rusia", Wiener Slavistischer Almanach, Sonderband 60, 2004.

Apresyan Yu.D.(ed.) Gambaran linguistik dunia dan leksikografi sistem (ed. Yu. D. Apresyan). M.: "Bahasa Budaya Slavia", 2006, Kata Pengantar dan bab. 1, hal.26 -- 74.

Bulygina T.V., Shmelev A.D. Konseptualisasi linguistik dunia (berdasarkan tata bahasa Rusia). M.: Sekolah "Bahasa Budaya Rusia", 1997.

Weinreich W.Sejarah pertemuanWeinreich W. Kontak bahasa. Kiev, 1983.

Vezhbitskaya A. Universal semantik dan deskripsi bahasa. M.: Sekolah "Bahasa Budaya Rusia". 1999.

Galperin I.R. Teks sebagai objek penelitian linguistik. edisi ke-6. M.: LKI, 2008 (“Warisan Linguistik Abad XX”)

Zaliznyak A.A.“Infleksi nominal Rusia” dengan penerapan karya-karya pilihan tentang bahasa Rusia modern dan linguistik umum. M.: Bahasa budaya Slavia, 2002.

Zaliznyak A.A., Paducheva E.V. Menuju tipologi klausa relatif. / Semiotika dan ilmu komputer, vol. 35.M., 1997, hal. 59-107.

Ivanov Vyach. Matahari.. Linguistik milenium ketiga. Pertanyaan untuk masa depan. M., 2004. P. 89-100 (11. Situasi bahasa di dunia dan perkiraan dalam waktu dekat).

Kibrik A.E. Esai tentang masalah linguistik umum dan terapan. M.: Rumah Penerbitan Universitas Negeri Moskow, 1992.

Kibrik A.E. Konstanta dan variabel bahasa. Sankt Peterburg: Aletheya, 2003.

Labov U. Tentang mekanisme perubahan bahasa // Baru dalam linguistik. Edisi 7. M., 1975.Hal.320-335.

Lyons J. Semantik linguistik: Pendahuluan. M.: Bahasa budaya Slavia. 2003.

Lyons John. Bahasa dan linguistik. Kursus pengantar. G: URSS, 2004

Lakoff J. Wanita, api, dan hal-hal berbahaya: Apa yang disampaikan oleh kategori-kategori bahasa tentang pemikiran. M.: Bahasa budaya Slavia. 2004.

Lakoff J, Johnson M. Metafora yang kita jalani. Per. dari bahasa Inggris Edisi 2. M.: URSS. 2008.

Kamus Ensiklopedis Linguistik / Ed. DALAM DAN. Yartseva. M.: Penerbitan ilmiah "Ensiklopedia Besar Rusia", 2002.

Melchuk I.A. Mata kuliah morfologi umum. Tt. I-IV. Moskow-Wina: "Bahasa budaya Slavia", Wiener Slavistischer Almanach, Sonderband 38/1-38/4, 1997-2001.

Melchuk I.A. Pengalaman teori model linguistik “MAKNA ↔ TEKS”. M.: Sekolah "Bahasa Budaya Rusia", 1999.

Fedorova L.L. Semiotika. M., 2004.

Filippov K.A. Linguistik teks: Kursus perkuliahan - edisi ke-2, bahasa Spanyol. dan tambahan Ed. Sankt Peterburg Universitas, 2007.

Haspelmath, M., dkk. (ed.). Atlas Struktur Bahasa Dunia. Oxford, 2005.

Pengering, M.S. dan Haspelmath, M.(eds.) Atlas Dunia Struktur Bahasa Online. Leipzig: Institut Max Planck untuk Antropologi Evolusioner, 2013. (http://wals.info)

Croft W. Tipologi dan Universal. Cambridge: Pers Universitas Cambridge, 2003. Belanja, T. (ed.). Tipologi Bahasa dan Deskripsi Sintaksis. edisi ke-2. Cambridge, 2007.

V.I.Belikov. Tentang kamus “berisi norma-norma bahasa sastra Rusia modern ketika digunakan sebagai bahasa negara Federasi Rusia.” 2010 // Portal Gramota.Ru (http://gramota.ru/biblio/research/slovari-norm)

Linguistik komputer dan teknologi intelektual: Berdasarkan materi “Dialog” Konferensi Internasional tahunan. Jil. 1-11. - M.: Penerbitan Nauka, dari Universitas Negeri Rusia untuk Kemanusiaan, 2002-2012. (Artikel tentang linguistik komputasi, http://www.dialog-21.ru).

Korpus Nasional Bahasa Rusia: 2006-2008. Hasil dan prospek baru. / Ulangan. ed. V.A.Plungyan. - SPb.: Nestor-Sejarah, 2009.

Baru dalam linguistik asing. Jil. XXIV, Linguistik komputasi / Komp. B.Yu. M.: Kemajuan, 1989.

Shimchuk E. G. Leksikografi Rusia: Buku Teks. M.: Akademi, 2009.

Korpus Nasional Bahasa Rusia: 2003-2005. Intisari artikel. M. : Indrik, 2005.

Untuk kontak:

Pusat Pendidikan dan Ilmiah untuk Linguistik Komputasi dari Institut Linguistik Universitas Negeri Rusia untuk Kemanusiaan

Linguistik komputasi modern sangat fokus pada penggunaan model matematika. Bahkan ada kepercayaan umum bahwa ahli bahasa tidak terlalu dibutuhkan untuk pemodelan bahasa alami otomatis. Ada ungkapan terkenal dari Frederick Jelinek, kepala pusat pengenalan suara di Universitas Johns Hopkins: " Setiap kali seorang ahli bahasa meninggalkan grup, tingkat pengenalannya akan meningkat"- setiap kali seorang ahli bahasa meninggalkan kelompok kerja, kualitas pengenalannya meningkat.

Namun, semakin kompleks dan multi-level masalah pemodelan linguistik yang dihadapi pengembang sistem otomatis, semakin jelas bahwa solusinya tidak mungkin dilakukan tanpa memperhitungkan teori linguistik, pemahaman tentang fungsi bahasa, dan kompetensi ahli linguistik. Pada saat yang sama, menjadi jelas bahwa metode otomatis untuk menganalisis dan memodelkan data bahasa dapat secara signifikan memperkaya penelitian linguistik teoretis, baik sebagai sarana untuk mengumpulkan data bahasa maupun sebagai alat untuk menguji validitas hipotesis linguistik tertentu.

Forum Evaluasi Sistem Pengolahan Teks Otomatis

S.Yu.Toldova, O.N. Lyashevskaya, A.A. Bonch-Osmolovsky

Bagaimana cara memformalkan makna leksikal dan membuatnya “dapat dibaca mesin”? Jawabannya diberikan oleh model bahasa distribusional, di mana makna sebuah kata adalah penjumlahan dari konteksnya dalam suatu korpus yang cukup besar. Jaringan saraf tiruan memungkinkan pelatihan model semacam itu dengan cepat dan efisien.

Denis Kiryanov, Tanya Panova (pengawas ilmiah B.V. Orekhov)

Program ini memiliki dua fungsi: a) normalisasi teks Yiddish, b) transliterasi dari aksara persegi ke aksara Latin. Masalah-masalah ini sangat relevan: sampai saat ini, tidak ada satu pun normalizer yang ada, kecuali jika Anda menghitung pemeriksa ejaan. Sementara itu, hampir setiap penerbit yang menerbitkan buku dalam bahasa Yiddish mengikuti praktik ejaannya masing-masing. Normalizer diperlukan untuk mengerjakan korpus bahasa Yiddish: untuk mereduksi semua teks menjadi satu ejaan yang dikenali oleh parser. Transliterasi akan memungkinkan para ahli tipologi untuk bekerja dengan materi bahasa Yiddish.

VIDEO staf Sekolah Linguistik:

Secara opsional; Tahun ke-3, 2, 3 modul

Diperlukan; Tahun pertama, modul ke-2

Secara opsional; Tahun ke-3, modul ke-3

Diperlukan; Tahun ke-4, 1-3 modul

Diperlukan; Tahun ke-4, 2 modul

Diperlukan; Tahun ke-2, modul 1, 2, 4