Первоначальный список участников рейтинга сформирован на основе собственного анализа рынка, данные взяты из открытых источников.
Под тиражной платной CMS понимается универсальная отчуждаемая CMS, распространяемая на коммерческой основе, развивающая партнерскую сеть.
К бесплатным системам управления в рамках рейтинга относятся CMS, распространяемые на некоммерческой основе (под свободными лицензиями), бесплатные сайт-конструкторы (uCoz), и иные CMS, доля которых высока, но которые по тем или иным параметрам нельзя отнести к платным тиражным CMS.
В ходе исследования анализируются все домены второго уровня в зоне ru. На каждом домене программа-робот пытается обнаружить CMS из списка участников.
Алгоритм основан на поиске явных признаков установок CMS. Для опознания CMS используются так называемые fingerprints («отпечатки пальцев»). Отпечатком является определенная строка текста, размещенная по определенному адресу (URL). Поиск отпечатка осуществляется в заголовке и теле страницы.
Опрос осуществляется по следующему алгоритму:
- Подготавливается свежий список доменов зоны ru.
- Отпечатки CMS упорядочиваются в соответствии с адресом страницы таким образом, чтобы более популярные системы определялись на первых итерациях сканирования.
- Осуществляется поэтапное сканирование сайтов: робот «обходит» все домены, проверяя отпечаток, а затем переходит к следующему отпечатку, получается более 40 проходов.
- Домен считается ответившим ошибкой, если при первом проходе (главной страницы) было обнаружено, что домен не делегирован, домен не отвечает или таймаут ответа составил более 30 секунд. При последующих проходах возникающие ошибки не приводят к завершению сканирования домена.
- В случае, если домен отвечает перенаправлением на такой же домен, но с адресом www., робот переходит на новый адрес и продолжат сканирование. Перенаправления на остальные домены обрабатываются как ошибка. Внутренние редиректы не обрабатываются, в этом случае робот просто продолжает сканирование.
Данная методика позволяет добиться очень высокой точности определения: первый дополнительный проход уточняет на 1-2%, а последующие — всего лишь на доли процента.
Полученные результаты по каждой CMS проверяются вручную проверкой 100 случайно выбранных доменов.
Точность определения CMS зависит от отпечатков, полученных нами от разработчиков CMS.