Перевод Анализ файлов robots.txt крупнейших сайтов

Robots.txt указывает веб-краулерам мира, какие файлы можно или нельзя скачивать с сервера. Он как первый сторож в интернете — не блокирует запросы, а просит не делать их. Интересно, что файлы robots.txt проявляют предположения веб-мастеров, как автоматизированным процессам следует работать с сайтом. Хотя бот легко может их игнорировать, но они указывают идеализированное поведение, как следует действовать краулеру. По существу, это довольно важные файлы. Так что я решил скачать файл robots.txt с каждого из 1 миллиона самых посещаемых сайтов на планете и посмотреть, какие шаблоны удастся обнаружить. Я взял список 1 млн крупнейших сайтов от Alexa и написал маленькую программу для скачивания файла robots.txt с каждого домена. После скачивания всех данных я пропустил каждый файл через питоновский пакет urllib.robotparser и начал изучать результаты. Найдено в yangteacher.ru/robots.txt Читать дальше →

Источник: SEO на Хабрахабре

SEO в разработке eCommerce проектов (20 правил для разработчика)

В последний год мы написали много статей по UX / UI проектированию eCommerce проектов и не только. Концепция проекта и...

Подробнее

Web-разработка / Ссылка IIS Search Engine Optimization Toolkit

Вышла первая бета IIS Search Engine Optimization Toolkit. Это набор утилит, который позволяет анализировать свой (и не...

Подробнее

Блог им. ekwo / Привязываем иконку к каждому типу файлов на CSS

Предположим, что нам нужно сделать страничку, на которой будут выкладываться файлы разных типов (архивы, картинки,...

Подробнее

Web-разработка / Странное ограничение IE на количество внешних CSS

Разрабатывая проект наткнулся на странный глюк в IE. Некоторые стили просто не применялись к странице. Т.к. проект...

Подробнее

[Перевод - recovery mode ] Import() из webpack вскоре освоит JS+CSS, а вот как вы можете пользоваться этим уже сейчас

Полтора месяца назад создатель webpack Тобиас Копперс выпустил “Большой план” для CSS в Webpack в своей статье "Новый...

Подробнее

[Из песочницы] Поле загрузки файлов, которое мы заслужили

Все течет, все меняется, но только input[type=file] как портил нервы всем начинающим веб-разработчикам, так и...

Подробнее

[Перевод] Анализ файлов robots.txt крупнейших сайтов

SEO в разработке eCommerce проектов (20 правил для разработчика)

Web-разработка / Ссылка IIS Search Engine Optimization Toolkit

Блог им. ekwo / Привязываем иконку к каждому типу файлов на CSS

Web-разработка / Странное ограничение IE на количество внешних CSS

[Перевод - recovery mode ] Import() из webpack вскоре освоит JS+CSS, а вот как вы можете пользоваться этим уже сейчас

[Из песочницы] Поле загрузки файлов, которое мы заслужили

💬 Комментарии

💡 Хотите обсудить материал?

Заявка на товар