Пишем краулер на раз-два 1.0

Интернет-маркетинг | 5 марта 2019 1 521

SEO на Хабрахабре, seo, habrahabr.ru, Блог компании SEMrush

Пишем краулер на раз-два 1.0
Веб-краулер (или веб-паук) — это важная составная часть поисковых систем для обхода веб-страниц с целью занесения информации о них в базы данных, в основном, для их дальнейшей индексации. Такая штука есть у поисковиков (Google, Yandex, Bing), а также у SEO-продуктов (SEMrush, MOZ, ahrefs) и не только. И штука эта — довольно интересная: как в плане потенциала и вариантов использования, так и для технической реализации. Этой статьей мы начнем итеративно создавать свой велосипед краулер, разбирая многие особенности и встречая подводные камни. От простой рекурсивной функции до масштабируемого и расширяемого сервиса. Должно быть интересно! Читать дальше →
Как поисковики индексируют контент нейросетей? Что ждет Google, Yandex и Bing?

Вопрос индексации и ранжирования в поисковых системах беспокоит многих, кто пользуется нейросетями для генерации...

Подробнее
Поисковая оптимизация / [Из песочницы] Подбор ключевых слов с помощью базы Пастухова

Периодически задаюсь вопросом как облегчить труд нашим менеджерам по продажам. В этот раз речь зашла о подборе...

Подробнее
[recovery mode] Как ранжируются сайты в тематике «Спорттовары»

«Спорттовары» – ниша с высокой конкуренцией и с относительно узким товарным ассортиментом. Данное исследование поможет...

Подробнее
[Перевод] Как Google обрабатывает JavaScript в процессе индексации веб-страниц

Понимание того, как поисковые системы изучают, рендерят и индексируют веб-страницы, имеет решающее значение для...

Подробнее
Google и Yandex SEO оптимизация для SPA приложений

Google и Yandex утверждают, что что-то уже могут по индексированию SPA приложений. В статье показаны результаты...

Подробнее
16 сервисов для работы с семантическим ядром

Хабр, привет! Сделал подборку из 16 сервисов для сбора и работы с семантическим ядром. 1. SemRush У сервиса большой...

Подробнее

💬 Комментарии

В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.

🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.

💡 Хотите обсудить материал?

Присоединяйтесь к нашему Telegram-каналу:

https://t.me/tcsecms/

Нажмите кнопку ниже — и вы сразу попадёте в чат с комментариями