Словарь существительных слов. Частотный словарь русского языка. Одушевленные и неодушевленные имена существительные

Проза это антоним стиха и поэзии, формально - обычная речь, не разделенная на обособленные соизмеримые ритмические отрезки - стихи, в эмоционально-смысловом плане - нечто приземленное, обыкновенное, заурядное; фактически же доминирующая форма в европейских литературах начиная с 18 века (в отношении распространенности беллетристики даже с 17 века); в русской - со второй трети 19 века, хотя на протяжении всего 19 века художественную словесность, включая прозаическую, продолжали называть поэзией. В 19-20 веках проза - безусловно преобладающая форма эпоса и драматургии, гораздо реже встречаются прозаические лирические произведения («стихотворения в прозе»). В разговорной речи 20 века, проникшей и в нестрогий язык истории литературы и критики, теоретически четкая триада «эпос - лирика - драма» практически вытеснена триадой «проза - поэзия - драматургия». В литературном смысле прозаическим формам предшествует поэзия.

Проза в античности

В античности проза, в отличие от поэзии, регулировавшейся правилами поэтики, регулировалась правилами риторики. Как и поэтическая стихотворная речь, она определенным образом украшалась, но приемы этого украшения были иными, чем в поэзии. Западноевропейское Средневековье продолжало относить к поэзии только стихи, но расширение читательской аудитории повлекло за собой распространение более безыскусственной прозы: с середины 13 века начинается прозаическая обработка стихотворных романов, поющиеся стихи перемежаются с прозой в повести первой трети 13 века «Окассен и Николет», затем в «Новой жизни» (1292) Данте прозаическая автобиография включает в себя созданную автором в 1283-90 стихотворную лирику с комментарием. Эпоха Возрождения ознаменована расцветом новеллы, прежде всего это - «Декамерон» (1350-53) Дж.Боккаччо. Среди наиболее выдающихся произведений ренессансной литературы - смеховая эпопея Ф.Рабле «Гаргантюа и Пантагрюэль» (1533-64), но она близка к неофициальной народной карнавальной культуре, не входит в иерархию традиционных жанров и лишь условно именуется романом. Далеким предвестием будущего торжества романного жанра явился «Дон Кихот» (1605-1615) М.Сервантеса. В главе XIVII ч.1 священник, порицая рыцарские романы, все же высоко оценивает возможности их формы (здесь в косвенной речи Сервантес фактически утверждает форму своего собственного произведения как достойную признания современной ему теорией литературы).

Проза постепенно отвоевывала позиции у стиха . В шекспировской трагедии, тем более комедии, их смешение было нормой, хотя проза использовалась преимущественно в «низких» эпизодах. В 17 веке активно создавался испанский плутовской , аналоги которого появлялись и в других странах. Несмотря на то, что классицизм попрежнему числил прозу по ведомству риторики и признавал ее лишь в философском диалоге, историческом повествовании или описании, публицистике, исповеди, роман же допускал как жанр периферийный, развлекательный, лишенный моральной цели и адресованный неискушенному читателю - даже во Франции, законодательнице классицистических норм и вкусов, проза проникала в различные жанры. Еще в 16 веке появились первая французская оригинальная комедия в прозе («Соперники» Ж.де Ла Тайя, 1573), трагикомедия («Люсель» Л.Лежара, 1676). На рубеже 16-17 веков девять прозаических комедий написал П.де Лариве. Строгий теоретик классицизма Ж.Шаплен высказался за «свободную» речь в драме и считал абсурдным рифмованный текст на сцене, ссылаясь на образцы итальянских пьес в прозе. Мольер создал в прозе несколько лучших своих комедий, включая «Дон Жуана» (1665), «Скупого» (1668), «Мещанина во дворянстве» (1670), что было высоко оценено некоторыми современниками, однако на практике долгое время не получало продолжения. В споре о «древних» и «новых», начавшемся в 1684, последние защищали права прозы. Английскую прозу конца 17 - начала 18 века представляли переводной «героический» и краткий новеллистический (А.Бен, У. Конгрив) роман, историко-легендарное повествование (Р.Бойль), в Германии 17 века господствовал поверхностный галантно-приключенческий роман о любовных историях в придворной среде, обращенный к читателям, которые к ней не принадлежали.

18 век - время утверждения прозы в развитых европейских литературах. В Англии это сатира Дж.Свифта, «комические эпопеи» Г.Фиддинга и других писателей, сентиментальный и готический романы, в Германии - произведения И.В. Гёте, во Франции - творчество Ш.Л.Монтескье, А.Ф.Прево д’Экзиль, Вольтера, Ж.Ж.Руссо и др. Иногда жанровые границы поэзии и прозы намеренно стирались: Монтескье, объявив в «Персидских письмах» (1721) стихотворца смешной и гротескной фигурой, создал две поэмы в прозе, А.де Ла Мотт Удар написал оду в прозе Аббат Прево в 1735 заявил, что рифма порочит саму идею поэзии, разрушает поэтический дар. Но защитники стиха были сильнее. Самым значительным из них оказался прозаик Вольтер, явно относивший свои философские повести более к философии, чем к литературе. В «Храме вкуса» (1731) он высмеял теорию поэмы в прозе, на что Ламотт-Удар безуспешно возражал. Вплоть до начала 19 века господствовавшие теории не признавали прозу. Даже И.Ф.Шиллер в 1797 не одобрил «Года учения Вильгельма Мейстера» (1795-96) Гёте; последний согласился с ним и в «Максимах и рефлек сиях» назвал роман «субъективной эпопеей, в которой автор испрашивает дозволения на свой лад перетолковывать мир» (Собрание сочинений: В 10 томах), что имело у Гёте четкую антиромантическую направленность.

Тем не менее 18 век - век решительного наступления прозы и более снисходительного отношения теории к роману. Для своего времени принципиальное значение имел аллегорический философско-политический роман Ф.Фенелона «Приключения Телемака» (1693-94), а также произведение шотландского автора 17 века, писавшего по-латыни, Дж.Барклая (Баркли) «Аргенида» (1621). В послепетровской России, где еще долго предстояло совершенствовать стих в ущерб художественной прозе, то и другое привлекло внимание В.К.Тредиаковского. Роман Фенелона он переложил гекзаметрами, но «Аргениду» перевел в 1751 прозу, а ранее в «Новом и кратком способе к сложению российских стихов…» (1735) сообщал: «Эпических остроумных, удивительных, а иногда Гомера и Вергилия превосходящих вымышлений прозою написанных, не надеюсь, чтоб больше было на другом каком языке, нежели сколько их есть на французском, которые у них романами называются. Однако все таковые романы насилу могут ли перевесить хорошеством одну Барклаиеву Аргениду». Наличие подобных образцов сделало возможным появление в России таких ориентированных явно не на «низового читателя» произведений, как масонские романы М.М.Хераскова (60-90-е 18 века). Но высшие достижения русской прозы 18 столетия до Н.М.Карамзина принадлежат к области сатиры в разных родах (комедии Д.И.Фонвизина, повесть И. А.Крылова «Каиб», 1792, и беллетризированная публицистика «Путешествие из Петербурга в Москву», 1790, А.Н.Радищева). Карамзин своими сентиментальными повестями 1790-х впервые ввел прозу в высокую литературу. Ранее проза считалась несопоставимой с поэзией , хотя читателей у нее было больше (особой популярностью пользовались переводные, а с 1763, когда появились первые произведения Ф. А.Эмина, и отечественные романы); карамзинская проза была признана наиболее образованным и искушенным, а в то же время довольно широким читателем.

Западноевропейский романтизм принес известное равновесие стихов и прозы: хотя сильнейшее эмоциональное воздействие оказывала поэзия, самым популярным в Европе и России писателем был В.Скотт как исторический романист. Впоследствии авторитет прозы поддерживали позднеромантические произведения В.Гюго, Ж.Санд. Среди русских романтиков сравнительно недолгой славой пользовался беллетрист А.А.Бестужев (Марлинский), однако высшие достижения романтизма в России - поэтические. В 1830-е, несколько позже чем на Западе, происходит эпохальный перелом: А.С.Пушкин пишет больше прозы, чем стихов, появляется проза Н.В.Гоголя, в 1840 - первый русский социально-психологический и философский роман «Герой нашего времени» М.Ю.Лермонтова. В дальнейшем возникает плеяда великих прозаиков, среди которых Л.Н.Толстой и Ф.М.Достоевский. Как и на Западе, господство прозы в России стало безоговорочным, за исключением начала 20 века, когда достижения поэзии в целом были выше, хотя и проза, особенно модернистская, принципиально обновилась. В конце 20 века поэзия практически во всем мире уходит на периферию литературы, становится достоянием сравнительно немногих любителей и даже внешне подражает прозе: во многих странах почти вся она создается свободным стихом.

У прозы есть свои структурные преимущества . Гораздо менее способная, чем стих, воздействовать на читателя с помощью специфических ритмико-мелодических приемов, функции которых раскрыл Ю.Н.Тынянов в книге «Проблема стихотворного языка» (1924), проза более свободна в выборе смысловых нюансов, оттенков речи, в передаче «голосов» разных людей. «Разноречие», по М.М.Бахтину, присуще прозе гораздо больше, чем стихам. Ученый выделял следующие «типы прозаического слова» (точнее, всякого повествовательного, но преимущественно прозаического). Первый - прямое непосредственно направленное на свой предмет слово, обычное обозначение, называние чего-либо. Второй тип - объектное слово, слово изображенного лица, отличное от авторского, передающее социальную, национальную, культурную, возрастную и прочую специфику речи персонажей, которая в традиционалистских литературах была представлена мало или вовсе не представлена. Третий тип, по Бахтину, - слово «двуголосое», с установкой на чужое слово; «двуголосое» слово бывает и авторским, и словом персонажа. Здесь три разновидности. Первая - оценочно «однонаправленное» двуголосое слово: стилизация, рассказ рассказчика, необъектное слово героя - носителя авторских замыслов, повествование от первого лица. «Слово» говорящего, персонажа, не отрицательного для автора, более или менее сливается с авторским «словом». Если же говорящий (пишущий) не одобряется или высмеивается посредством якобы его же собственной речи, возникает «разнонаправленное», преимущественно пародийное, двуголосое слово. Третья разновидность двуголосого слова определяется Бахтиным как «активный тип», или отраженное чужое слово. По репликам одного участника диалога можно догадываться о содержании и эмоциональной окраске реплик другого. В том же ряду - скрытая внутренняя полемика (персонаж чтото себе доказывает, споря с самим собой), полемически окрашенная автобиография и исповедь, скрытый диалог и вообще всякое слово с «оглядкой» на чужое слово (с разными собеседниками разговор ведется неодинаково). «Активный тип» более всего характерен Для Достоевского, которого объектное слово (второй тип) интересует меньше: индивидуальные или социальные признаки речи не так значимы, как смысловая полемика персонажей с собой и другими; по Бахтину, автор участвует в борьбе точек зрения - в плане организации повествования, а не общей идеи произведения - на равных с персонажами, ничего им догматически не навязывая. Проза имеет собственный ритм, отличный от стихотворного, а иногда и метр, превращаясь в метризованную прозу.

Слово проза произошло от латинского prosa, от prosa oratio, что в переводе означает - прямо направленная, простая речь.

Вторая версия частотного списка

На этой странице Вы можете получить списки наиболее частотных слов русского языка. До настоящего времени Частотный словарь русского языка под ред. Л.Н.Засориной (1977) чаще всего использовался в качестве источника информации о частоте русских слов. Однако корпус, на основе которого была подсчитана частота слов в этом словаре, по современным стандартам очень мал (около миллиона слов). Кроме того, список существенно устарел: он соответствует частоте использования слов в период с 20-х до 60-х годов. В результате корпус включает большое число идеологических источников, например, произведения Ленина и Калинина, Материалы 22 и 23 съездов КПСС, советские газеты. Слова советский и товарищ входят в первую сотню русских слов, наряду со служебными словами (они встречаются чаще слов где, здесь, ваш ), слова партия, революция, коммунистический встречаются чаще чем назад, около, лучше и т.д. Наконец, список слов из словаря Засориной не существует в электронном виде.

Список слов, доступный с этой страницы, содержит примерно 35000 слов с частотой большей 1 ipm (вхождений на миллион слов, instances per million words). Имеется также более короткий список из 5000 наиболее частотных русских слов. Списки используют кодировку кириллицы utf8 и упакованы утилитой WinZip (пользователи Linux или Mac могут использовать StuffIt для распаковки).

Структура списков соответствует формату лемматизированных списков из British National Corpus (BNC) , созданных Адамом Килгарифом, а именно:
порядковый номер, частота (ipm), лемма, часть речи (классификация BNC).

Слова с частотой больше 1 ipm

  • - словоформы, отсортированные по частоте

Список 5000 наиболее частых слов

Некоторые статистические данные об использовании русских слов

  • Средняя длина слова 5.28 символа.
  • Средняя длина предложения 10.38 слов.
  • 1000 наиболее частотных лемм покрывает 64.0708% текста.
  • 2000 наиболее частотных лемм покрывают 71.9521% текста.
  • 3000 наиболее частотных лемм покрывают 76.5104% текста.
  • 5000 наиболее частотных лемм покрывают 82.0604% текста.

Более полная информация о соответствии между частотой слова и покрытием корпуса находится .

Список построен на основе представительного корпуса современного русского языка. Он включает в себя подборку современной прозы, политических мемуаров, современных газет и научно-популярной литературы (около 40 миллионов слов, проза составляет примерно чуть больше половины объема). Все тексты корпуса были написаны на русском в промежутке между 1970 и 2002; большинство между 1980 и 1995, газетный корпус 1997-1999 (корпус основан на текстах из Библиотеки Мошкова и корпуса современной публицистики А.В.Баранова).

Хорошо известно, что большие тексты представляют проблему для составления частотных списков, поскольке относительно длинный текст может содержать большое количество вхождений некоторого редкого слова, что существенно увеличит его частоту в итоговом списке. Например, корпус, использованный для составления данного списка, содержит вариацию на тему Толкиеновского "Повелителя Колец" (автор Ник Перумов). Несмотря на то, что длина этого романа составляет 250 тыс.слов, менее одного процента всего корпуса, частота использования слова хоббит в этом романе ставит его в первую тысячу русских слов, если частоту считать по всем текстам без ограничений на их длину. По этой причине частотные списки были составлены при условии, что выборка из больших текстов ограничена 10 тыс. слов, и выборка из текстов одного автора составляет менее 100 тыс. слов. В результате подмножество полного корпуса, использованное при подсчете частоты, составляет около 16 миллионов слов.

Распределение слов в текстах далеко от равномерного. Некоторые слова (например, предлоги) встречаются во многих текстах с вполне предсказуемой частотой. Частота других (например, местоимений или ментальных глаголов) существенно зависит от автора или жанра текста, в то время как многие слова относятся к "заразным": если это слово (например, имя собственное, обозначение человека по званию или должности или технический термин) встретилось в тексте один раз, весьма вероятно, что оно повторится там еще много раз, таким образом, существенно повышая его частоту в документе. Сушествуют разные способы измерения такой вариации (Church, K. and Gale, W. (1995) Poisson Mixtures, Journal of Natural Language Engineering , 1:2). Простейший способ для оценки поведения слова: посчитать коэффициент вариации, который вычисляется как среднеквадратичное отклонение, поделенное на среднее значение. Среднеквадратичное отклонение дает абсолютное значение вариации набора данных (оно увеличивается для слов с большей средней частотой), в то время как коэффициент вариации позволяет сравнить распределение слов с неравной средней частотой. Значения отклонений для 5000 наиболее частотных слов можно посмотреть . Структура файла:
лемма, средняя частота (ipm), число текстов, в которых это слово встречается, среднеквадратичное отклонение частоты по все текстам, коэффициент вариации, дисперсия.

Корпус, средства для работы с ним, а также параллельный англо-русский корпус (выравнение на основе предложения) описаны, в частности, в следующей публикации автора:

Sharoff, Serge, (2002). Meaning as use: exploitation of aligned corpora for the contrastive study of lexical semantics. Proc. of Language Resources and Evaluation Conference (LREC02). May, 2002, Las Palmas, Spain.

Также отдельные частотные списки есть для следующих классов слов:

Создание корпуса, разработка соответствующих программных средств и частотных списков были поддержаны грантом, предоставленным автору Фондом имени Гумбольдта, Германия. Лемматизация для анализа словоформ в корпусе была проведена с помощью морфологического анализатора Диалинг. Поскольку многие словоформы неоднозначны (например, дорогой, были, стали, для, три, уже ), частота некоторых слов не вполне достоверна, например, для рассматривалось как глагол, только если за ним не следует существительное, прилагательное или местоимение, стали всегда рассматривалось как существительное, для супруги всегда выбиралось супруга при возможных супруг и супруги (мн.ч). Критериями для выбора словоформы служили:

  1. частота соответствующей леммы (забрал, стану, подать в качестве существительного крайне маловероятно, поэтому в этих случаях выбирается глагол);
  2. сравнительная частота конкретной формы (обе леммы для стали достаточно частотны, но существительное в отличие от глагола очень часто употребляется именно в этой форме; форму пора приходится считать в предикативном употреблении, в то время как существительное выступает во всех своих остальных формах).
Подобно словарю Засориной фамилии, имена и отчества были отфильтрованы из лемматизированных частотных списков, но географические названия оставлены, поскольку сложно оправдать почему в словаре Засориной оставлены московский или американский , но не Москва и Америка . Частотный список словоформ отфильтрован не был.