Что делает этот инструмент?

Он читает любой блок текста, подсчитывает каждое отдельное слово и ранжирует их от самых частых к самым редким. Вы увидите ранжированную таблицу, анимированную гистограмму, масштабированную по первому слову, облако слов с размером шрифта по квадратному корню и статистику лексического разнообразия. Вы можете скачать результаты в формате CSV.

Зачем фильтровать стоп-слова?

В английском языке топ-5 слов ('the', 'of', 'and', 'a', 'to') заглушают все, что действительно несет смысл (в русском это предлоги и союзы). Списки стоп-слов удаляют эти высокочастотные служебные слова, чтобы отчет выявил слова, о которых на самом деле ваш текст. Мы предлагаем курируемые списки для английского, испанского, французского, немецкого, итальянского и португальского языков, и вы можете добавлять пользовательские стоп-слова, такие как имена персонажей или бренды продуктов.

Что такое коэффициент типа-токена?

Коэффициент типа-токена (TTR) = уникальные слова / всего слов. Это классическая мера лексического разнообразия. В короткой новостной статье он составляет около 0.5-0.7, в длинном романе часто падает до 0.1-0.2, потому что общие слова повторяются. Более высокий TTR означает более богатый словарный запас на уровне, который вы анализировали.

Что такое гапакс легомена?

Слова, которые встречаются ровно один раз. Они являются сильным сигналом богатства словарного запаса. В полном собрании сочинений Шекспира примерно 14 000 из 31 000 отдельных слов являются гапаксами. Высокий процент гапаксов означает много разовых идей; низкий процент означает частое повторное использование небольшого словарного запаса.

Почему облако слов масштабируется по квадратному корню, а не по количеству?

Если самое частое слово появляется 200 раз, а следующее за ним — 20 раз, линейное масштабирование делает первое слово в 10 раз выше, что визуально разрушает облако, и вы не можете прочитать ничего другого. Масштабирование по квадратному корню сжимает разницу примерно до 3 раз, поэтому облако остается читаемым, при этом подчеркивая доминирующие слова. Именно так всегда работали серьезные инструменты для создания облаков слов.

Сохраняет ли анализатор мой текст?

Нет. Ваш текст обрабатывается в оперативной памяти для рендеринга этой страницы и никогда не записывается на диск. Живая мини-статистика во время ввода работает полностью в вашем браузере. Никакого стороннего отслеживания контента, который вы вставляете, не ведется.

Анализатор частотности слов

Вставьте любой текст и мгновенно узнайте, какие слова встречаются чаще всего. Получите упорядоченную таблицу частотности, анимированную гистограмму, интерактивное облако тегов, показатель лексического разнообразия и дополнительную фильтрацию стоп-слов для 6 языков. Экспорт результатов в формат CSV.

📚 Попробовать пример

Ваш текст Вставьте любую прозу — статью, эссе, расшифровку или даже целую главу романа. До 200 000 символов за один раз.

Список стоп-слов

Мин. длина слова

Показать первые

Пользовательские стоп-слова (опционально) Добавьте имена персонажей, названия брендов или любые слова, которые нужно отфильтровать, разделяя их запятыми или пробелами.

Учитывать регистр Базовая лемматизация (бегал → бегать) Считать числа

Embed Анализатор частотности слов Widget

О Анализатор частотности слов

Анализатор Частотности Слов отвечает на простой вопрос с удивительной глубиной: какие слова этот текст действительно использует чаще всего? Вставьте любой блок прозы — пост в блоге, расшифровку, главу, описание вакансии, речь — и он ранжирует каждое отдельное слово по частоте его появления, построит диаграмму распределения и визуализирует интерактивное облако слов, размеры которого зависят от частотности. Этот инструмент создан для писателей, проверяющих текст на случайные повторения слов, SEO-специалистов, ищущих естественную плотность ключевых слов, студентов, изучающих лексику автора, исследователей, проводящих быструю проверку лексического разнообразия, а также для переводчиков и лингвистов, исследующих незнакомый текст. Всё работает в вашем браузере или на нашем сервере и никогда нигде не сохраняется.

Что делает этот анализатор особенным

Живой просмотр по мере ввода. Боковая панель мгновенно обновляет количество уникальных слов, общее количество слов, TTR (лексическое разнообразие) и живой топ-5 — без необходимости нажимать кнопку «Проанализировать». Вы можете подбирать фильтры за считанные секунды.
Списки стоп-слов для шести языков. Английский, испанский, французский, немецкий, итальянский и португальский — тщательно отобранные списки, а не раздутые дампы. Плюс текстовое поле для пользовательских стоп-слов, чтобы исключать имена персонажей, названия брендов или шаблонные фразы.
Облако слов с масштабированием по квадратному корню. Большинство генераторов облаков масштабируют слова по обычному количеству повторений, из-за чего самое частое слово может быть в 50 раз выше слов среднего ранга, визуально подавляя всё облако. Масштабирование по квадратному корню сохраняет облако читаемым и является отраслевым стандартом со времен Wordle (2009).
Режим подиума «Топ-3». Один взгляд на золотую, серебряную и бронзовую карточки подскажет вам, на какие слова ваш текст опирается сильнее всего — это первое, что нужно проверить при подозрении на непреднамеренные повторы.
Метрики лексического разнообразия. Коэффициент типа-токена (TTR) и количество гапакс легомена дают оценку богатства текста, а не просто сухой список частотности. Короткая проза с TTR > 0.6 считается богатой; TTR ниже 0.2 в длинном документе указывает на частые повторы.
Экспорт в CSV в один клик. Скачивайте или копируйте полную ранжированную таблицу для последующего анализа в электронных таблицах.

Как использовать этот инструмент

Вставьте ваш текст. До 200 000 символов — примерно 30 000 слов, что соответствует длине большой главы романа или нескольким совмещенным постам в блоге.
Выберите язык стоп-слов. Если вы не отфильтруете стоп-слова, верхние строчки таблицы займут предлоги, союзы и местоимения — это информативно ровно один раз. Выберите язык вашего текста или выберите «Нет» для получения подлинного сырого подсчета частотности.
Установите минимальную длину слова. Установите значение 3 или 4, если хотите пропустить предлоги и союзы вроде «и», «в», «не», «но». Установите значение 1, чтобы сохранить абсолютно всё.
Выберите количество отображаемых результатов. Топ-50 — золотая середина для большинства текстов; Топ-500 покажет вам весь длинный хвост распределения.
Дополнительные переключатели. Включите чувствительность к регистру, если вам важна разница между словами «Париж» и «париж». Включите базовую лемматизацию, чтобы объединить формы слов (например, «бегал», «бежит», «бегающий» превратятся в «бегать»). Включите подсчет чисел, если номера версий, годы и статистические данные имеют значение в вашем тексте.
Нажмите «Проанализировать». Изучите подиум, просмотрите таблицу с гистограммой, оцените облако слов и экспортируйте CSV-файл, если хотите углубиться в анализ.

Математика, стоящая за метриками

Частотность и процентное соотношение

Для каждого отдельного слова \( w \) количество — это число его упоминаний в списке сохраненных токенов, а процент рассчитывается как \( \text{count}(w) / N \), где \( N \) — общее количество сохраненных токенов. Ширина полосы гистограммы привязана к самому частому слову, чтобы вы могли мгновенно оценить форму распределения.

Коэффициент типа-токена (TTR)

\( \text{TTR} = U / N \), где \( U \) — количество уникальных слов (типов), а \( N \) — общее число подсчитанных токенов. TTR — это простейшая мера лексического разнообразия. Короткая новостная сводка обычно имеет показатель 0.5–0.7; длинный роман опускается до 0.15–0.25, поскольку общие слова постоянно повторяются. TTR чувствителен к длине: длинные тексты всегда имеют более низкий TTR, чем короткие, поэтому не сравнивайте TTR документов, сильно различающихся по размеру.

Гапакс легомена

Гапакс легомен (в переводе с греческого «сказанное однажды») — это слово, которое встречается в тексте ровно один раз. Количество гапаксов и их процентное соотношение являются классическими индикаторами богатства словарного запаса. В полном собрании сочинений Шекспира примерно 14 000 из 31 000 уникальных слов являются гапаксами — около 45%. Современный пост в блоге часто достигает 60% и более гапаксов, так как объема текста просто недостаточно для регулярного повторения слов.

Размер шрифта в облаке слов

Размер шрифта для слова \( w \) в облаке использует масштабирование по квадратному корню между минимальным и максимальным отображаемым количеством повторений:

\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)

Это сжимает динамический диапазон, благодаря чему слово с частотой 200× визуально примерно в 3 раза выше слова с частотой 20×, а не в 10 раз. Без такого сжатия в облаке доминировали бы одно-два гигантских слова.

Цветовые уровни частотности

Полосы гистограммы и слова в облаке разделены по цветам в зависимости от их ранга, чтобы вы могли с одного взгляда понять структуру распределения:

Уровень 1 — ранги 1–55 слов, на которые ваш текст опирается сильнее всего. Если сюда попало значимое смысловое слово — это и есть главная тема.

Уровень 2 — ранги 6–15Второстепенный состав. Повторяющиеся существительные и глаголы, которые вы используете для развития основной мысли.

Уровень 3 — ранги 16–40Более широкий словарный запас, окружающий ваши ключевые темы.

Уровень 4 — ранги 41–100Специализированные или конкретные термины — имена собственные, жаргон, именованные сущности.

Уровень 5 — ранги 101+Длинный хвост. Слова, использованные один или два раза. Именно здесь часто скрывается самая интересная лексика.

Варианты использования

Для писателей — отслеживание нежелательных повторов

Вы удивитесь, как часто какое-то одно слово («быстро», «действительно», «по сути» или имя персонажа) незаметно пробирается на самый верх вашего черновика. Вставьте главу и посмотрите на золотой, серебряный и бронзовый подиумы. Если там оказалось значимое слово, на котором вы не планировали делать осознанный акцент, это стилистический недочет, требующий редактуры.

SEO и контент-маркетинг

Настройте фильтр стоп-слов и минимальную длину, а затем изучите топ-25. Это именно те слова, которые поисковые системы будут сильнее всего ассоциировать с вашей страницей. Если они не соответствуют вашему целевому кластеру ключевых слов, поисковое продвижение страницы будет неэффективным. Избегайте переоптимизации — современные алгоритмы наказывают за неестественную плотность ключей. Здоровый ориентир составляет около 1–2% для вашего главного ключевого слова.

Литературоведение и стилистика

Вставьте для сравнения главу Диккенса и главу Хемингуэя, сопоставив TTR, процент гапаксов и среднюю длину слова. Статистические отпечатки авторских стилей остаются удивительно стабильными на протяжении всего их творчества — это лежит в основе компьютерной стилометрии.

Анализ речей и расшифровок выступлений

У политиков и топ-менеджеров есть свои любимые слова. Пропустите речь через анализатор с удаленными стоп-словами, и топ-15 наглядно продемонстрируют стратегию подачи информации. Сравните два выступления одного и того же спикера, чтобы увидеть, как изменились его акценты.

Перевод и изучение языков

При работе над переводом сначала прогоните исходный текст через анализатор, чтобы понять, какие значимые слова в нем доминируют. Убедитесь, что ваш перевод сохраняет те же смысловые акценты. Для изучающих язык: разбор статьи из 200 слов без фильтрации стоп-слов наглядно покажет, какие служебные слова вам необходимо распознавать в первую очередь.

Научные исследования и академическое письмо

Многие научные журналы требуют контролируемого использования терминологии в аннотациях. Проверка частотности перед отправкой статьи убережет от случайного злоупотребления терминами. Исследователи, занимающиеся корпусной лингвистикой, используют списки частотности как отправную точку для работы с коллокациями, n-граммами и тематическим моделированием — этот инструмент как раз генерирует такие данные.

Документ	Стоп-слова	Мин. длина	Топ N	Лемматизация
Пост в блоге / статья	Английский (или ваш язык)	3	50	Выкл
Глава романа	Английский	3	100	Вкл (объединять словоформы)
Научная работа	Английский	4	100	Вкл
Тред в Twitter / короткий пост	Нет	1	25	Выкл
SEO-исследование	Английский	3	50	Вкл
Расшифровка речи	Английский	3	25	Выкл (нужна точная формулировка)
Иноязычный текст	Соответствующий язык	1	50	Выкл (лемматизатор только для EN)

Часто задаваемые вопросы

Что считается «словом»?

Токенизатор сопоставляет одну или несколько букв Юникода, опционально соединенных апострофами или дефисами. Так, don't, state-of-the-art и l'ovvio считаются за одно слово. Числа по умолчанию исключаются — включите опцию «Считать числа», если хотите учесть их. Токенизатор корректно работает с латиницей, кириллицей, греческим письмом и иероглифами CJK.

Что делает базовая лемматизация и чего она не делает?

Она выполняет три легкие трансформации: убирает притяжательное окончание 's, сводит воедино стандартные глагольные окончания (-ing, -ed) и простые формы множественного числа (-s, -es, -ies → -y). Она не выполняет полноценную морфологическую лемматизацию (например, формы better → good или went → go не объединяются). Полная лемматизация потребовала бы интеграции лексической базы WordNet, что избыточно для анализа частотности, где зачастую важно видеть именно точные формы слов. Такой консервативный подход также позволяет избежать серьезных ошибок стемминга, когда объединяются семантически совершенно разные слова (например, «университет» и «вселенная» имеют одинаковую основу в стеммере Портера).

Почему результаты живого просмотра и сервера могут немного отличаться?

Живой просмотр фильтрует стоп-слова только для английского языка на стороне клиента, чтобы скрипт оставался крошечным — другие языки полноценно отфильтровываются уже на сервере. Кроме того, сервер применяет базовую лемматизацию, если она включена. При этом общее количество найденных токенов в обоих случаях всегда совпадает.

Поддерживает ли инструмент нелатинские шрифты?

Да — токенизатор использует классы символов Юникода, поэтому тексты на кириллице, греческом, арабском, иврите, китайском, японском и корейском языках разбиваются на токены корректно. Поскольку в китайском и японском языках пробелы между словами не используются, каждая непрерывная последовательность иероглифов CJK обрабатывается как один «токен» — для подлинной сегментации слов в этих языках потребовался бы специализированный токенизатор, такой как jieba (для китайского) или MeCab (для японского).

Каково верхнее ограничение на размер текста?

200 000 символов за один раз — это около 30 000 английских слов или стандартная глава романа. Выход за эти рамки может перегрузить память браузера и превысить лимиты на размер запроса; в таких случаях разделяйте текст на части.

Является ли мой текст приватным?

Да. Текст обрабатывается исключительно в оперативной памяти для формирования результирующей страницы и никогда не сохраняется на диск. Живая статистика во время ввода работает целиком и полностью в вашем браузере. Мы не логируем, не храним и не анализируем вставляемый вами контент.

Краткая история частотного анализа слов

Списки частотности слов относятся к числу старейших инструментов в лингвистике. Первым в истории машинным частотным списком для английского языка стал труд отца Роберто Бузы Index Thomisticus (1949–1980 гг.), в котором каждое слово из трудов Фомы Аквинского подсчитывалось с помощью перфокартных машин IBM — этот проект по праву считается фундаментом цифровых гуманитарных наук. Брауновский корпус (1961) предоставил первый систематически скомпилированный список частотности на миллион слов для современного американского варианта английского языка. Сегодня абсолютно каждая поисковая система, система машинного перевода, большая языковая модель и SEO-инструмент масштабно опираются на статистику частотности слов и токенов. Тот самый простой алгоритм ранжирования на базе Counter, который вы видите в этом инструменте, является ядром всей этой технологической сферы.

Ссылайтесь на этот контент, страницу или инструмент так:

"Анализатор частотности слов" на сайте https://ru.miniWebtool.com/анализатор-частотности-слов/ от MiniWebtool, https://MiniWebtool.com/

от команды miniwebtool. Обновлено: 27 мая 2026 г.

Текстовая статистика:

Счетчик символов
Получить длину строки
Инструмент подсчета строк
Калькулятор оценки читаемости
Инструмент подсчета слов
Анализатор заголовков Новый
Детектор ИИ-контента Новый
Счётчик токенов ИИ Новый
Счетчик Слогов Новый
Счетчик Предложений Новый
Счётчик абзацев Новый
Калькулятор времени речи Новый
Калькулятор Времени Чтения Новый
Редактор Читаемости в Стиле Хемингуэя Новый
Анализатор вариативности длины предложений Новый
Анализатор частотности слов Новый

Анализатор частотности слов

О Анализатор частотности слов

Что делает этот анализатор особенным

Как использовать этот инструмент

Математика, стоящая за метриками

Частотность и процентное соотношение

Коэффициент типа-токена (TTR)

Гапакс легомена

Размер шрифта в облаке слов

Цветовые уровни частотности

Варианты использования

Для писателей — отслеживание нежелательных повторов

SEO и контент-маркетинг

Литературоведение и стилистика

Анализ речей и расшифровок выступлений

Перевод и изучение языков

Научные исследования и академическое письмо

Рекомендуемые настройки по типам документов

Часто задаваемые вопросы

Что считается «словом»?

Что делает базовая лемматизация и чего она не делает?

Почему результаты живого просмотра и сервера могут немного отличаться?

Поддерживает ли инструмент нелатинские шрифты?

Каково верхнее ограничение на размер текста?

Является ли мой текст приватным?

Краткая история частотного анализа слов

Текстовая статистика:

Избранные инструменты: