[Перевод] Анализ файлов robots.txt крупнейших сайтов

Интернет-маркетинг | 6 ноября 2017

SEO на Хабрахабре, seo, habrahabr.ru, Поисковые технологии

[Перевод] Анализ файлов robots.txt крупнейших сайтов
Robots.txt указывает веб-краулерам мира, какие файлы можно или нельзя скачивать с сервера. Он как первый сторож в интернете — не блокирует запросы, а просит не делать их. Интересно, что файлы robots.txt проявляют предположения веб-мастеров, как автоматизированным процессам следует работать с сайтом. Хотя бот легко может их игнорировать, но они указывают идеализированное поведение, как следует действовать краулеру. По существу, это довольно важные файлы. Так что я решил скачать файл robots.txt с каждого из 1 миллиона самых посещаемых сайтов на планете и посмотреть, какие шаблоны удастся обнаружить. Я взял список 1 млн крупнейших сайтов от Alexa и написал маленькую программу для скачивания файла robots.txt с каждого домена. После скачивания всех данных я пропустил каждый файл через питоновский пакет urllib.robotparser и начал изучать результаты. Найдено в yangteacher.ru/robots.txt Читать дальше →
SEO в разработке eCommerce проектов (20 правил для разработчика)

В последний год мы написали много статей по UX / UI проектированию eCommerce проектов и не только. Концепция проекта и...

Подробнее
Web-разработка / Ссылка IIS Search Engine Optimization Toolkit

Вышла первая бета IIS Search Engine Optimization Toolkit. Это набор утилит, который позволяет анализировать свой (и не...

Подробнее
Блог им. ekwo / Привязываем иконку к каждому типу файлов на CSS

Предположим, что нам нужно сделать страничку, на которой будут выкладываться файлы разных типов (архивы, картинки,...

Подробнее
Web-разработка / Странное ограничение IE на количество внешних CSS

Разрабатывая проект наткнулся на странный глюк в IE. Некоторые стили просто не применялись к странице. Т.к. проект...

Подробнее
[Перевод - recovery mode ] Import() из webpack вскоре освоит JS+CSS, а вот как вы можете пользоваться этим уже сейчас

Полтора месяца назад создатель webpack Тобиас Копперс выпустил “Большой план” для CSS в Webpack в своей статье "Новый...

Подробнее
[Из песочницы] Поле загрузки файлов, которое мы заслужили

Все течет, все меняется, но только input[type=file] как портил нервы всем начинающим веб-разработчикам, так и...

Подробнее

💬 Комментарии

В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.

🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.

💡 Хотите обсудить материал?

Присоединяйтесь к нашему Telegram-каналу:

https://t.me/tcsecms/

Нажмите кнопку ниже — и вы сразу попадёте в чат с комментариями