Зачем читать логи для SEO
Большинство SEO-специалистов смотрят только Google Search Console и Я.Вебмастер. Это даёт поверхностные данные.
Серверные логи дают глубокий вид:
- На какие страницы заходит Googlebot и Я.Бот реально
- Сколько раз в день обходит ключевые разделы
- Какие 404, 500, 301 происходят (Search Console показывает не все)
- Какой crawl budget тратится на мусор
- Какие User-Agent ходят (включая фейковых ботов)
Это рентген SEO-здоровья сайта.
Где брать логи
nginx access.log
По умолчанию:
/var/log/nginx/access.logФормат:
1.2.3.4 - - [13/Jun/2026:12:34:56 +0300] "GET /products/macbook-pro HTTP/1.1" 200 12345 "https://google.com/" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"Apache access.log
/var/log/apache2/access.logVercel / serverless
В Dashboard → Logs → Function Logs или через Vercel CLI.
Cloudflare
Logpush в Dashboard. Бесплатно для Pro+.
Главные инсайты из логов
1. Какие страницы реально обходит Googlebot
Фильтр по User-Agent:
grep "Googlebot" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20Покажет топ-20 URL, на которые реально заходит Google. Сравните со списком, который вы хотели бы видеть.
Типичные сюрпризы:
- 30% crawl budget тратится на UTM-параметры
- 20% — на 404 от старых URL
- 10% — на админку через robots.txt дыры
2. 404 и 500 ошибки
grep " 404 " access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -50
grep " 5[0-9][0-9] " access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -50Найдёте:
- URL, которые кто-то линкует на ваш сайт, а у вас 404
- 5xx ошибки на отдельных URL
- Битые внутренние ссылки
3. Цепочки редиректов
grep " 30[12] " access.log | awk '{print $7}' | sort | uniq -c | sort -rnПокажет популярные редиректы. Если 301 происходит на 30к запросов в день — это плохо, лучше обновить внутренние ссылки.
4. Фейковые боты
Многие «User-Agent: Googlebot» — не Googlebot. Это спам-боты, парсеры, сканеры уязвимостей.
grep "Googlebot" access.log | awk '{print $1}' | sort | uniq -c | sort -rn | head -20Реальные IP Googlebot можно проверить через reverse DNS:
host 66.249.66.1
# должно вернуть *.googlebot.comЕсли не возвращает — фейк.
5. Crawl budget по разделам
grep "Googlebot" access.log | awk '{print $7}' | cut -d'/' -f2 | sort | uniq -c | sort -rnПокажет, какие разделы Googlebot обходит больше всего. Возможно вы тратите crawl budget не там, где важно.
6. Скорость ответа сервера для бота
В access.log нужен дополнительный параметр $request_time:
log_format with_time '$remote_addr - $remote_user [$time_local] '
'"$request" $status $body_bytes_sent "$http_referer" '
'"$http_user_agent" $request_time';Анализ среднего времени для Googlebot:
grep "Googlebot" access.log | awk '{print $NF}' | awk '{sum+=$1; cnt+=1} END {print sum/cnt}'Если больше 1 секунды в среднем — у бота проблемы со скоростью на вашем сайте.
Инструменты для анализа логов
GoAccess
Бесплатный, open-source. Превращает логи в визуальные отчёты.
goaccess access.log -o report.html --log-format=COMBINEDПолучаете HTML с дашбордами.
Screaming Frog Log File Analyzer
Десктоп, $149/год. Специально для SEO:
- Сравнение бот-обхода со sitemap
- Поиск orphan-страниц
- Анализ 404 и редиректов
Splunk / ELK Stack (Elastic)
Для крупных проектов. Полноценная аналитика логов.
Botify Log Analyzer
Платно, от $399/мес. Промышленный SEO-инструмент. Полная аналитика бот-поведения.
Готовые запросы
Топ-10 страниц по обходу Googlebot
grep "Googlebot" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -10Сколько 404 за день
grep " 404 " access.log | wc -lIP-адреса с максимальным количеством запросов
awk '{print $1}' access.log | sort | uniq -c | sort -rn | head -20Найдёте парсеров и спам-ботов.
Запросы за последний час
awk -v d=$(date '+%d/%b/%Y:%H' -d '1 hour ago') '$4 ~ d' access.log | wc -lСредний размер ответа Googlebot
grep "Googlebot" access.log | awk '{sum+=$10; cnt+=1} END {print sum/cnt}'Большой средний размер = тяжёлые страницы для бота.
Типичные проблемы из логов
Проблема 1: Googlebot тратит 50% на /api/ endpoints
Симптом: в топе по обходу — /api/...
Причина: в robots.txt нет Disallow: /api/
Решение: закрыть в robots.txt.
Проблема 2: 30% обхода — это 301 редиректы
Симптом: много 301 кодов в логах.
Причина: внутренние ссылки ведут на старые URL.
Решение: обновить все внутренние ссылки на финальные URL.
Проблема 3: Googlebot не обходит важные страницы
Симптом: новая категория каталога в логах не встречается.
Причина: нет внутренних ссылок, не в sitemap.
Решение: добавить ссылки + в sitemap.
Проблема 4: Резкий рост 404
Симптом: в логах 404 ошибки выросли в 5-10 раз за неделю.
Причина: обычно — обновление CMS сломало URL-маппинг.
Решение: провести аудит, добавить 301 со старых URL.
Проблема 5: 5xx ошибки только для Googlebot
Симптом: обычные пользователи получают 200, Googlebot — иногда 500.
Причина: rate limiting сервера срабатывает на бота.
Решение: проверить настройки WAF, лимитов.
Частота анализа
Для среднего SEO-сайта:
- Раз в неделю — топ-10 проблем (404, 5xx, фейк-боты)
- Раз в месяц — глубокий анализ crawl budget
- Раз в квартал — полный логовый аудит
Чек-лист
- [ ] Логи nginx/Apache доступны
- [ ] Формат логов включает User-Agent и Referer
- [ ] Регулярный анализ 404 и 5xx
- [ ] Проверка реальности Googlebot через reverse DNS
- [ ] Анализ crawl budget по разделам
- [ ] Использование GoAccess или Screaming Frog Log Analyzer
- [ ] Мониторинг изменений после релизов
Итог
Серверные логи — это продвинутый уровень SEO. Дают глубокие инсайты, которые не видны в Search Console. Раз в месяц — обязательное упражнение для крупных проектов.