логитехникаанализ

Серверные логи для SEO: что искать и какие инсайты можно достать

Серверные логи — это рентген сайта для SEO. Показывают, что реально делают Googlebot и Я.Бот. Объясняю, как читать и какие выводы делать.

Зачем читать логи для SEO

Большинство SEO-специалистов смотрят только Google Search Console и Я.Вебмастер. Это даёт поверхностные данные.

Серверные логи дают глубокий вид:

  • На какие страницы заходит Googlebot и Я.Бот реально
  • Сколько раз в день обходит ключевые разделы
  • Какие 404, 500, 301 происходят (Search Console показывает не все)
  • Какой crawl budget тратится на мусор
  • Какие User-Agent ходят (включая фейковых ботов)

Это рентген SEO-здоровья сайта.

Где брать логи

nginx access.log

По умолчанию:

/var/log/nginx/access.log

Формат:

1.2.3.4 - - [13/Jun/2026:12:34:56 +0300] "GET /products/macbook-pro HTTP/1.1" 200 12345 "https://google.com/" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Apache access.log

/var/log/apache2/access.log

Vercel / serverless

В Dashboard → Logs → Function Logs или через Vercel CLI.

Cloudflare

Logpush в Dashboard. Бесплатно для Pro+.

Главные инсайты из логов

1. Какие страницы реально обходит Googlebot

Фильтр по User-Agent:

grep "Googlebot" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20

Покажет топ-20 URL, на которые реально заходит Google. Сравните со списком, который вы хотели бы видеть.

Типичные сюрпризы:

  • 30% crawl budget тратится на UTM-параметры
  • 20% — на 404 от старых URL
  • 10% — на админку через robots.txt дыры

2. 404 и 500 ошибки

grep " 404 " access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -50
grep " 5[0-9][0-9] " access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -50

Найдёте:

  • URL, которые кто-то линкует на ваш сайт, а у вас 404
  • 5xx ошибки на отдельных URL
  • Битые внутренние ссылки

3. Цепочки редиректов

grep " 30[12] " access.log | awk '{print $7}' | sort | uniq -c | sort -rn

Покажет популярные редиректы. Если 301 происходит на 30к запросов в день — это плохо, лучше обновить внутренние ссылки.

4. Фейковые боты

Многие «User-Agent: Googlebot» — не Googlebot. Это спам-боты, парсеры, сканеры уязвимостей.

grep "Googlebot" access.log | awk '{print $1}' | sort | uniq -c | sort -rn | head -20

Реальные IP Googlebot можно проверить через reverse DNS:

host 66.249.66.1
# должно вернуть *.googlebot.com

Если не возвращает — фейк.

5. Crawl budget по разделам

grep "Googlebot" access.log | awk '{print $7}' | cut -d'/' -f2 | sort | uniq -c | sort -rn

Покажет, какие разделы Googlebot обходит больше всего. Возможно вы тратите crawl budget не там, где важно.

6. Скорость ответа сервера для бота

В access.log нужен дополнительный параметр $request_time:

log_format with_time '$remote_addr - $remote_user [$time_local] '
  '"$request" $status $body_bytes_sent "$http_referer" '
  '"$http_user_agent" $request_time';

Анализ среднего времени для Googlebot:

grep "Googlebot" access.log | awk '{print $NF}' | awk '{sum+=$1; cnt+=1} END {print sum/cnt}'

Если больше 1 секунды в среднем — у бота проблемы со скоростью на вашем сайте.

Инструменты для анализа логов

GoAccess

Бесплатный, open-source. Превращает логи в визуальные отчёты.

goaccess access.log -o report.html --log-format=COMBINED

Получаете HTML с дашбордами.

Screaming Frog Log File Analyzer

Десктоп, $149/год. Специально для SEO:

  • Сравнение бот-обхода со sitemap
  • Поиск orphan-страниц
  • Анализ 404 и редиректов

Splunk / ELK Stack (Elastic)

Для крупных проектов. Полноценная аналитика логов.

Botify Log Analyzer

Платно, от $399/мес. Промышленный SEO-инструмент. Полная аналитика бот-поведения.

Готовые запросы

Топ-10 страниц по обходу Googlebot

grep "Googlebot" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -10

Сколько 404 за день

grep " 404 " access.log | wc -l

IP-адреса с максимальным количеством запросов

awk '{print $1}' access.log | sort | uniq -c | sort -rn | head -20

Найдёте парсеров и спам-ботов.

Запросы за последний час

awk -v d=$(date '+%d/%b/%Y:%H' -d '1 hour ago') '$4 ~ d' access.log | wc -l

Средний размер ответа Googlebot

grep "Googlebot" access.log | awk '{sum+=$10; cnt+=1} END {print sum/cnt}'

Большой средний размер = тяжёлые страницы для бота.

Типичные проблемы из логов

Проблема 1: Googlebot тратит 50% на /api/ endpoints

Симптом: в топе по обходу — /api/...

Причина: в robots.txt нет Disallow: /api/

Решение: закрыть в robots.txt.

Проблема 2: 30% обхода — это 301 редиректы

Симптом: много 301 кодов в логах.

Причина: внутренние ссылки ведут на старые URL.

Решение: обновить все внутренние ссылки на финальные URL.

Проблема 3: Googlebot не обходит важные страницы

Симптом: новая категория каталога в логах не встречается.

Причина: нет внутренних ссылок, не в sitemap.

Решение: добавить ссылки + в sitemap.

Проблема 4: Резкий рост 404

Симптом: в логах 404 ошибки выросли в 5-10 раз за неделю.

Причина: обычно — обновление CMS сломало URL-маппинг.

Решение: провести аудит, добавить 301 со старых URL.

Проблема 5: 5xx ошибки только для Googlebot

Симптом: обычные пользователи получают 200, Googlebot — иногда 500.

Причина: rate limiting сервера срабатывает на бота.

Решение: проверить настройки WAF, лимитов.

Частота анализа

Для среднего SEO-сайта:

  • Раз в неделю — топ-10 проблем (404, 5xx, фейк-боты)
  • Раз в месяц — глубокий анализ crawl budget
  • Раз в квартал — полный логовый аудит

Чек-лист

  • [ ] Логи nginx/Apache доступны
  • [ ] Формат логов включает User-Agent и Referer
  • [ ] Регулярный анализ 404 и 5xx
  • [ ] Проверка реальности Googlebot через reverse DNS
  • [ ] Анализ crawl budget по разделам
  • [ ] Использование GoAccess или Screaming Frog Log Analyzer
  • [ ] Мониторинг изменений после релизов

Итог

Серверные логи — это продвинутый уровень SEO. Дают глубокие инсайты, которые не видны в Search Console. Раз в месяц — обязательное упражнение для крупных проектов.

Прогнать SEO-аудит с анализом обхода →

Получить SEO-аудит своего сайта

Бесплатно. Без регистрации. Топ-проблемы и план роста позиций за 60 секунд.

Проверить сайт →