[Перевод] Анализ файлов robots.txt крупнейших сайтов

Интернет-маркетинг | 6 ноября 2017 3 146

SEO на Хабрахабре, seo, habrahabr.ru, Поисковые технологии

[Перевод] Анализ файлов robots.txt крупнейших сайтов
Robots.txt указывает веб-краулерам мира, какие файлы можно или нельзя скачивать с сервера. Он как первый сторож в интернете — не блокирует запросы, а просит не делать их. Интересно, что файлы robots.txt проявляют предположения веб-мастеров, как автоматизированным процессам следует работать с сайтом. Хотя бот легко может их игнорировать, но они указывают идеализированное поведение, как следует действовать краулеру. По существу, это довольно важные файлы. Так что я решил скачать файл robots.txt с каждого из 1 миллиона самых посещаемых сайтов на планете и посмотреть, какие шаблоны удастся обнаружить. Я взял список 1 млн крупнейших сайтов от Alexa и написал маленькую программу для скачивания файла robots.txt с каждого домена. После скачивания всех данных я пропустил каждый файл через питоновский пакет urllib.robotparser и начал изучать результаты. Найдено в yangteacher.ru/robots.txt Читать дальше →
SiteAnalyzer 2.6 — Произвольные HTTP-заголовки и виртуальный Robots.txt

Всем привет! Новый релиз SiteAnalyzer заставил себя достаточно долго ждать, однако мы не сидели на месте и реализовали...

Подробнее
Как настроить SEO в Next.js так, чтобы проект реально индексировался

Во многих проектах на Next.js возможности для SEO остаются неиспользованными: страницы индексируются не полностью,...

Подробнее
SEO в разработке eCommerce проектов (20 правил для разработчика)

В последний год мы написали много статей по UX / UI проектированию eCommerce проектов и не только. Концепция проекта и...

Подробнее
Расширение для скачивания видео с VK в один клик. Теперь и для desktop-а

Всем привет! Недавно публиковал статью о создании браузерного расширения для скачивания любого видео загруженного во...

Подробнее
Web-разработка / Ссылка IIS Search Engine Optimization Toolkit

Вышла первая бета IIS Search Engine Optimization Toolkit. Это набор утилит, который позволяет анализировать свой (и не...

Подробнее
Сколько сайтов деиндексируется в результате Google апдейтов? Моё исследование на основе открытых данных

Это исследование родилось, когда я готовилась к докладу на конференции ITSConf со своим материалом по трендам в...

Подробнее

💬 Комментарии

В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.

🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.

💡 Хотите обсудить материал?

Присоединяйтесь к нашему Telegram-каналу:

https://t.me/tcsecms/

Нажмите кнопку ниже — и вы сразу попадёте в чат с комментариями