ru.wikipedia.org

Частотность — Википедия

Не следует путать с частотой — физической величиной.

Частотность (или относительная частотность) — отношение количества экземпляров данного объекта полному количеству экземпляров всех объектов в данном множестве. Иногда количество экземпляров данного объекта называют абсолютной частотностью этого объекта. В лингвистике и лексикостатистике в качестве таких объектов понимаются слова, буквы, словосочетания, в криптографии и информатике - также сочетания букв и просто любые символы. Под множеством может пониматься какой-либо текст, совокупность текстов (корпус) или даже язык.

Расчёт частотности слов осуществляется по формуле:

{\displaystyle {\text{Freq}}_{x}={\frac {Q_{x}}{Q_{\text{all}}}},}

где {\displaystyle {\text{Freq}}_{x}} — частотность слова {\displaystyle x},
{\displaystyle Q_{x}} — количество употреблений слова {\displaystyle x},
{\displaystyle Q_{\text{all}}} — количество употреблений всех слов.

В большинстве случаев частотность выражается в процентах. В словарях частотность слов может отражаться пометками — употребительное, малоупотребительное и т. д.

Аналогичным образом определяется частотность для букв. Бо́льшая частотность согласных на данном отрезке текста (например, в стихотворениях) является одним из признаков аллитерации (наряду с позиционными характеристиками). Высокие показатели частотности гласных в тексте косвенно свидетельствуют об ассонансе. Частотный анализ используется в криптографии для выявления наиболее частотных букв того или иного языка.

Частотность слов и букв являлась важнейшим инструментов криптоанализа в эпоху до повсеместного распространения блочных шифров.

Статистика частотности букв русского языка (на материале НКРЯ):[1]

буква ранг употреблений частотность
а 3 40487008 8,01%
б 21 8051767 1,59%
в 9 22930719 4,54%
г 19 8564640 1,70%
д 13 15052118 2,98%
е 2 42691213 8,45%
ё 33 184928 0,04%
ж 25 4746916 0,94%
з 20 8329904 1,65%
и 4 37153142 7,35%
й 23 6106262 1,21%
к 11 17653469 3,49%
л 10 22230174 4,40%
м 12 16203060 3,21%
н 5 33838881 6,70%
о 1 55414481 10,97%
п 14 14201572 2,81%
р 8 23916825 4,73%
с 7 27627040 5,47%
т 6 31620970 6,26%
у 15 13245712 2,62%
ф 31 1335747 0,26%
х 24 4904176 0,97%
ц 28 2438807 0,48%
ч 22 7300193 1,44%
ш 26 3678738 0,73%
щ 29 1822476 0,36%
ъ 32 185452 0,04%
ы 17 9595941 1,90%
ь 18 8784613 1,74%
э 30 1610107 0,32%
ю 27 3220715 0,64%
я 16 10139085 2,01%
  1. О. Н. Ляшевская, С. А. Шаров. Новый частотный словарь русской лексики Архивная копия от 9 мая 2021 на Wayback Machine (Дата обращения: 23 апреля 2017)