Russian frequency lists
Serge Sharoff, June 2008
Это прототип частотных списков по жанрам для будущего частотного словаря русского языка на основе НКРЯ. Лемматизация проведена Алексеем Сокирко на основе модели триграмм (см. описание его программы). Значимая лексика считается на основе лог.правдоподобия (Log-likelihood). Кодировка - utf8.
А также частотный словарь лемм с частеречными кодами (описание кодов)
Словари по жанрам:
- Частотный словарь худ.лит., значимая лексика
- Частотный словарь публицистики, значимая лексика
- Частотный словарь устной непубличной речи, значимая лексика
- Частотный словарь устной публичной речи, значимая лексика
- Частотный словарь административных текстов, значимая лексика
- Частотный словарь рекламных текстов, значимая лексика
- Частотный словарь электронной коммуникации, значимая лексика (гл.обр. форумы и чат)
- Частотный словарь религиозных текстов, значимая лексика
- Частотный словарь научной речи, значимая лексика
- Частотный словарь производственно-технических текстов, значимая лексика
- Частотный словарь бытовой письменной речи, значимая лексика (гл.обр. опубликованная личная переписка)
Словари по десятилетиям:
- Частотный словарь 50-х, значимая лексика
- Частотный словарь 60-х, значимая лексика
- Частотный словарь 70-х, значимая лексика
- Частотный словарь 80-х, значимая лексика
- Частотный словарь 90-х, значимая лексика
- Частотный словарь 2000-х, значимая лексика
Примеры подсписков:
Списки букв алфавита