Анализатор частотности слов
Вставьте любой текст и мгновенно узнайте, какие слова встречаются чаще всего. Получите упорядоченную таблицу частотности, анимированную гистограмму, интерактивное облако тегов, показатель лексического разнообразия и дополнительную фильтрацию стоп-слов для 6 языков. Экспорт результатов в формат CSV.
Ваш блокировщик рекламы мешает показывать объявления
MiniWebtool бесплатен благодаря рекламе. Если этот инструмент помог, поддержите нас через Premium (без рекламы + быстрее) или добавьте MiniWebtool.com в исключения и обновите страницу.
- Или перейдите на Premium (без рекламы)
- Разрешите показ рекламы на MiniWebtool.com, затем перезагрузите страницу.
О Анализатор частотности слов
Анализатор Частотности Слов отвечает на простой вопрос с удивительной глубиной: какие слова этот текст действительно использует чаще всего? Вставьте любой блок прозы — пост в блоге, расшифровку, главу, описание вакансии, речь — и он ранжирует каждое отдельное слово по частоте его появления, построит диаграмму распределения и визуализирует интерактивное облако слов, размеры которого зависят от частотности. Этот инструмент создан для писателей, проверяющих текст на случайные повторения слов, SEO-специалистов, ищущих естественную плотность ключевых слов, студентов, изучающих лексику автора, исследователей, проводящих быструю проверку лексического разнообразия, а также для переводчиков и лингвистов, исследующих незнакомый текст. Всё работает в вашем браузере или на нашем сервере и никогда нигде не сохраняется.
Что делает этот анализатор особенным
- Живой просмотр по мере ввода. Боковая панель мгновенно обновляет количество уникальных слов, общее количество слов, TTR (лексическое разнообразие) и живой топ-5 — без необходимости нажимать кнопку «Проанализировать». Вы можете подбирать фильтры за считанные секунды.
- Списки стоп-слов для шести языков. Английский, испанский, французский, немецкий, итальянский и португальский — тщательно отобранные списки, а не раздутые дампы. Плюс текстовое поле для пользовательских стоп-слов, чтобы исключать имена персонажей, названия брендов или шаблонные фразы.
- Облако слов с масштабированием по квадратному корню. Большинство генераторов облаков масштабируют слова по обычному количеству повторений, из-за чего самое частое слово может быть в 50 раз выше слов среднего ранга, визуально подавляя всё облако. Масштабирование по квадратному корню сохраняет облако читаемым и является отраслевым стандартом со времен Wordle (2009).
- Режим подиума «Топ-3». Один взгляд на золотую, серебряную и бронзовую карточки подскажет вам, на какие слова ваш текст опирается сильнее всего — это первое, что нужно проверить при подозрении на непреднамеренные повторы.
- Метрики лексического разнообразия. Коэффициент типа-токена (TTR) и количество гапакс легомена дают оценку богатства текста, а не просто сухой список частотности. Короткая проза с TTR > 0.6 считается богатой; TTR ниже 0.2 в длинном документе указывает на частые повторы.
- Экспорт в CSV в один клик. Скачивайте или копируйте полную ранжированную таблицу для последующего анализа в электронных таблицах.
Как использовать этот инструмент
- Вставьте ваш текст. До 200 000 символов — примерно 30 000 слов, что соответствует длине большой главы романа или нескольким совмещенным постам в блоге.
- Выберите язык стоп-слов. Если вы не отфильтруете стоп-слова, верхние строчки таблицы займут предлоги, союзы и местоимения — это информативно ровно один раз. Выберите язык вашего текста или выберите «Нет» для получения подлинного сырого подсчета частотности.
- Установите минимальную длину слова. Установите значение 3 или 4, если хотите пропустить предлоги и союзы вроде «и», «в», «не», «но». Установите значение 1, чтобы сохранить абсолютно всё.
- Выберите количество отображаемых результатов. Топ-50 — золотая середина для большинства текстов; Топ-500 покажет вам весь длинный хвост распределения.
- Дополнительные переключатели. Включите чувствительность к регистру, если вам важна разница между словами «Париж» и «париж». Включите базовую лемматизацию, чтобы объединить формы слов (например, «бегал», «бежит», «бегающий» превратятся в «бегать»). Включите подсчет чисел, если номера версий, годы и статистические данные имеют значение в вашем тексте.
- Нажмите «Проанализировать». Изучите подиум, просмотрите таблицу с гистограммой, оцените облако слов и экспортируйте CSV-файл, если хотите углубиться в анализ.
Математика, стоящая за метриками
Частотность и процентное соотношение
Для каждого отдельного слова \( w \) количество — это число его упоминаний в списке сохраненных токенов, а процент рассчитывается как \( \text{count}(w) / N \), где \( N \) — общее количество сохраненных токенов. Ширина полосы гистограммы привязана к самому частому слову, чтобы вы могли мгновенно оценить форму распределения.
Коэффициент типа-токена (TTR)
\( \text{TTR} = U / N \), где \( U \) — количество уникальных слов (типов), а \( N \) — общее число подсчитанных токенов. TTR — это простейшая мера лексического разнообразия. Короткая новостная сводка обычно имеет показатель 0.5–0.7; длинный роман опускается до 0.15–0.25, поскольку общие слова постоянно повторяются. TTR чувствителен к длине: длинные тексты всегда имеют более низкий TTR, чем короткие, поэтому не сравнивайте TTR документов, сильно различающихся по размеру.
Гапакс легомена
Гапакс легомен (в переводе с греческого «сказанное однажды») — это слово, которое встречается в тексте ровно один раз. Количество гапаксов и их процентное соотношение являются классическими индикаторами богатства словарного запаса. В полном собрании сочинений Шекспира примерно 14 000 из 31 000 уникальных слов являются гапаксами — около 45%. Современный пост в блоге часто достигает 60% и более гапаксов, так как объема текста просто недостаточно для регулярного повторения слов.
Размер шрифта в облаке слов
Размер шрифта для слова \( w \) в облаке использует масштабирование по квадратному корню между минимальным и максимальным отображаемым количеством повторений:
\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)
Это сжимает динамический диапазон, благодаря чему слово с частотой 200× визуально примерно в 3 раза выше слова с частотой 20×, а не в 10 раз. Без такого сжатия в облаке доминировали бы одно-два гигантских слова.
Цветовые уровни частотности
Полосы гистограммы и слова в облаке разделены по цветам в зависимости от их ранга, чтобы вы могли с одного взгляда понять структуру распределения:
Варианты использования
Для писателей — отслеживание нежелательных повторов
Вы удивитесь, как часто какое-то одно слово («быстро», «действительно», «по сути» или имя персонажа) незаметно пробирается на самый верх вашего черновика. Вставьте главу и посмотрите на золотой, серебряный и бронзовый подиумы. Если там оказалось значимое слово, на котором вы не планировали делать осознанный акцент, это стилистический недочет, требующий редактуры.
SEO и контент-маркетинг
Настройте фильтр стоп-слов и минимальную длину, а затем изучите топ-25. Это именно те слова, которые поисковые системы будут сильнее всего ассоциировать с вашей страницей. Если они не соответствуют вашему целевому кластеру ключевых слов, поисковое продвижение страницы будет неэффективным. Избегайте переоптимизации — современные алгоритмы наказывают за неестественную плотность ключей. Здоровый ориентир составляет около 1–2% для вашего главного ключевого слова.
Литературоведение и стилистика
Вставьте для сравнения главу Диккенса и главу Хемингуэя, сопоставив TTR, процент гапаксов и среднюю длину слова. Статистические отпечатки авторских стилей остаются удивительно стабильными на протяжении всего их творчества — это лежит в основе компьютерной стилометрии.
Анализ речей и расшифровок выступлений
У политиков и топ-менеджеров есть свои любимые слова. Пропустите речь через анализатор с удаленными стоп-словами, и топ-15 наглядно продемонстрируют стратегию подачи информации. Сравните два выступления одного и того же спикера, чтобы увидеть, как изменились его акценты.
Перевод и изучение языков
При работе над переводом сначала прогоните исходный текст через анализатор, чтобы понять, какие значимые слова в нем доминируют. Убедитесь, что ваш перевод сохраняет те же смысловые акценты. Для изучающих язык: разбор статьи из 200 слов без фильтрации стоп-слов наглядно покажет, какие служебные слова вам необходимо распознавать в первую очередь.
Научные исследования и академическое письмо
Многие научные журналы требуют контролируемого использования терминологии в аннотациях. Проверка частотности перед отправкой статьи убережет от случайного злоупотребления терминами. Исследователи, занимающиеся корпусной лингвистикой, используют списки частотности как отправную точку для работы с коллокациями, n-граммами и тематическим моделированием — этот инструмент как раз генерирует такие данные.
Рекомендуемые настройки по типам документов
| Документ | Стоп-слова | Мин. длина | Топ N | Лемматизация |
|---|---|---|---|---|
| Пост в блоге / статья | Английский (или ваш язык) | 3 | 50 | Выкл |
| Глава романа | Английский | 3 | 100 | Вкл (объединять словоформы) |
| Научная работа | Английский | 4 | 100 | Вкл |
| Тред в Twitter / короткий пост | Нет | 1 | 25 | Выкл |
| SEO-исследование | Английский | 3 | 50 | Вкл |
| Расшифровка речи | Английский | 3 | 25 | Выкл (нужна точная формулировка) |
| Иноязычный текст | Соответствующий язык | 1 | 50 | Выкл (лемматизатор только для EN) |
Часто задаваемые вопросы
Что считается «словом»?
Токенизатор сопоставляет одну или несколько букв Юникода, опционально соединенных апострофами или дефисами. Так, don't, state-of-the-art и l'ovvio считаются за одно слово. Числа по умолчанию исключаются — включите опцию «Считать числа», если хотите учесть их. Токенизатор корректно работает с латиницей, кириллицей, греческим письмом и иероглифами CJK.
Что делает базовая лемматизация и чего она не делает?
Она выполняет три легкие трансформации: убирает притяжательное окончание 's, сводит воедино стандартные глагольные окончания (-ing, -ed) и простые формы множественного числа (-s, -es, -ies → -y). Она не выполняет полноценную морфологическую лемматизацию (например, формы better → good или went → go не объединяются). Полная лемматизация потребовала бы интеграции лексической базы WordNet, что избыточно для анализа частотности, где зачастую важно видеть именно точные формы слов. Такой консервативный подход также позволяет избежать серьезных ошибок стемминга, когда объединяются семантически совершенно разные слова (например, «университет» и «вселенная» имеют одинаковую основу в стеммере Портера).
Почему результаты живого просмотра и сервера могут немного отличаться?
Живой просмотр фильтрует стоп-слова только для английского языка на стороне клиента, чтобы скрипт оставался крошечным — другие языки полноценно отфильтровываются уже на сервере. Кроме того, сервер применяет базовую лемматизацию, если она включена. При этом общее количество найденных токенов в обоих случаях всегда совпадает.
Поддерживает ли инструмент нелатинские шрифты?
Да — токенизатор использует классы символов Юникода, поэтому тексты на кириллице, греческом, арабском, иврите, китайском, японском и корейском языках разбиваются на токены корректно. Поскольку в китайском и японском языках пробелы между словами не используются, каждая непрерывная последовательность иероглифов CJK обрабатывается как один «токен» — для подлинной сегментации слов в этих языках потребовался бы специализированный токенизатор, такой как jieba (для китайского) или MeCab (для японского).
Каково верхнее ограничение на размер текста?
200 000 символов за один раз — это около 30 000 английских слов или стандартная глава романа. Выход за эти рамки может перегрузить память браузера и превысить лимиты на размер запроса; в таких случаях разделяйте текст на части.
Является ли мой текст приватным?
Да. Текст обрабатывается исключительно в оперативной памяти для формирования результирующей страницы и никогда не сохраняется на диск. Живая статистика во время ввода работает целиком и полностью в вашем браузере. Мы не логируем, не храним и не анализируем вставляемый вами контент.
Краткая история частотного анализа слов
Списки частотности слов относятся к числу старейших инструментов в лингвистике. Первым в истории машинным частотным списком для английского языка стал труд отца Роберто Бузы Index Thomisticus (1949–1980 гг.), в котором каждое слово из трудов Фомы Аквинского подсчитывалось с помощью перфокартных машин IBM — этот проект по праву считается фундаментом цифровых гуманитарных наук. Брауновский корпус (1961) предоставил первый систематически скомпилированный список частотности на миллион слов для современного американского варианта английского языка. Сегодня абсолютно каждая поисковая система, система машинного перевода, большая языковая модель и SEO-инструмент масштабно опираются на статистику частотности слов и токенов. Тот самый простой алгоритм ранжирования на базе Counter, который вы видите в этом инструменте, является ядром всей этой технологической сферы.
Ссылайтесь на этот контент, страницу или инструмент так:
"Анализатор частотности слов" на сайте https://ru.miniWebtool.com// от MiniWebtool, https://MiniWebtool.com/
от команды miniwebtool. Обновлено: 27 мая 2026 г.