Рубрика: SEO начинающим

Поисковые системы Интернет: Яндекс, Google, Mail, Bing, Рамблер

Поисковые системы Интернет можно назвать связующим звеном между пользователем и информацией в Интернет. Именно они (поисковики) собирают, обрабатывают и отдают информацию пользователю по сделанному запросу. Именно от их алгоритмов зависит актуальность, правдивость, подлинность получаемой в выдаче информации.

Вступление

Вопрос работы поисковых систем является утилитарным и для создания сайта не имеет практического значения. Однако, понимание принципа работы того или иного поисковика, могут помочь в продвижении сайта по выдаче этого поисковика.

Что такое поисковик

Вопрос, что такое поисковик не корректный. Более корректно, говорить поисковая система интеренет. Поисковиком принято называть, робота (роботов) поисковой системы, осуществляющего обход и сканирование сайтов открытых для обхода в Интернет.

Поисковые системы интернет это набор программ и технических возможностей, объединенных для генерации контента выдачи по поисковому запросу пользователя.

Программы поисковой системы

Программы поисковой системы выполняют три базовые задачи, чаще с подзадачами:

Сканируют веб-ресурсы в Интернет. Сканирование производится роботами (ботами, пауками) поисковых систем.
Составляют из сканеров сайтов индексы. Индекс сайта похож на краткое описание сайта, только созданное для машин по уникальным алгоритмам поисковых систем.
Формируют из индекса сайтов поисковую выдачу, по сделанному поисковому запросу.

Нужно понимать, все поисковые системы интернет, для выполнения этих трех задач, имеют не три, а десятки программ. Все они работают во взаимосвязи, но не делают лишь одного, они НЕ создают контент, а генерируют его из чужого контента. С философской точки зрения, выдача поисковой системы это веб-страница чужого контента, позаимствованного с десятка других сайтов. Всё бы было честно, если бы они эти страницы не монетизировали.

Технические средства поисковика

Кроме программных средств, любая ПС (поисковая система) имеет технические средства. Это реальные сервера разбросанные по всему миру или по всей стране. Еще раз акцентирую, сервера ПС не хранят сканы всех сайтов и не отдают в выдачу сайты со своих серверов. Хранят они только индексы веб-ресурсов, в том числе сайтов.

В отличие от каталогов сайтов, поисковые системы интернет это НЕ стационарные хранилища информации, а симбиоз нескольких программ и технических средств, позволяющих сканировать сайты в Интернет, составлять индекс сайта по своим алгоритмам и отдавать список соответствующих (релевантных) сайтов по запросу пользователя.

Вся работа search engine (поисковых систем), осуществляется по уникальным программам, которые мы знаем, поисковые алгоритмы. Суть этих программ скрыта за «семью печатями», а до нас доводят лишь общие правила новых алгоритмов.

На всякий случай напомню, что можно называть, но не нужно путать Яндекс и Яндекс.Поиск, а также Google и Google Search. Яндекс и Google это скорее бренды, а Яндекс.Поиск и Google Search это всего лишь, поисковые системы интернет этих «монстров».

Кстати, Google это корпорация «Гугл», Google LLC, созданная в 1998 году 04 сентября в США. Яндекс это компания (РТК — Российская транснациональная компания), созданная в 2000 году.

На примере именно этих компаний более подробно посмотрим работу поисковых систем.

Как работают поисковые системы интернет

Как я упомянул выше, работа поисковых систем строится на трех базовых этапах:

Сканирование веб-ресурсов;
Формирование индекса;
Предоставление выдачи ранжированной для поискового запроса.

Сканирование

Сканирование веб-ресурсов, осуществляют поисковые роботы (Spider, Crawler, Bot, Robot). Это специальные программы, которые периодически обходят веб-страницы, формируют из них индекс страниц, возможно, делают скан текста.

Обход страниц осуществляется с определенной периодичностью. Чаще других обходят страницы боты Google. Основанием для обхода являются гиперссылки на страницы. При обходе страниц все встречающиеся ссылки боты фиксируют, из ссылок формируются списки для следующих обходов.

Именно по этому, ссылка на новую страницу сайта с уже проиндексированной страницы ускоряет её индексацию. Также, наличие большого количества мертвых ссылок на сайте, формирует негативный образ сайта, и такой сайт обходится ботами реже. Кроме этого, поисковые роботы обращают внимание на sitemap сайта и используют его, как вспомогательный навигатор для поиска новых ссылок для обхода.

Индексирование

Из всех страниц, которые обходит Bot, формируется база данных поисковой системы. В базе данных находятся все страницы, которые боты «просеяли» через «крупное сито» и посчитали, возможно, интересными для выдачи.

Из этой базы данных, следующая группа программ, формирует индекс поисковой системы — те веб-страницы, которые будут показаны в выдаче.

Индексирование страниц происходит по уникальным алгоритмам поисковых систем. Алгоритмы индексирования часто меняются, особенно у Яндекс, из-за чего индекс поисковика может претерпевать серьезные изменения.

Однако есть базовые элементы структуры сайта, которые долгие годы остаются в алгоритмах попадания в индекс. Это, прежде всего:

Title (заголовок) веб-страницы;
Description (краткое описание) веб- страницы;
Body (главное содержание веб-страницы).
Некоторые поисковики (Bing) продолжают считывать keywords (ключевые слова заявленные автором).

Именно из этих элементов создается первый индекс страниц.

Для ранжирования страниц в выдаче, в индекс страниц попадают:

Наличие структуры страницы (абзацы, заголовки, подзаголовки) то есть, теги <p>, <h1>, <h2>…<h6>.
Alt теги у картинок;
Мета данные;
И другие элементы, относящиеся к поисковой оптимизации.

Ранжирование страниц и их выдача

Последняя группа программ, формируют из индекса поисковую выдачу по сделанному поисковому запросу.

Стоит отметить, что, несмотря на заявленные интеллектуальные способности некоторых поисковых алгоритмов, для релевантного поиска своему запросу, нужно пользоваться языком поисковых запросов. Записывая запрос специальным образом, вы более конкретно поясняете боту, что вам нужно.

Но даже без этого, программы ранжирования и выдачи, подбирают по сделанному запросу список веб-ресурсов, которые, по их мнению (алгоритму), соответствуют сделанному запросу. Расстановка ресурсов в списке выдачи называют ранжирование, а соответствие ресурса запросу, называют релевантностью.

О ранжировании

Перед, более детальном разговоре об конкретных поисковых системах, пару слов о ранжировании.

Программы ПС, которые формируют выдачу, кроме перечисленных выше элементов поисковой оптимизации, учитывают:

Плотность ключевых слов;
Разнос ключевых слов по телу статьи;
Наличие ключа в заголовке и тегах структуры;
Наличие ключей в альтернативном описании фото.

Важно обратить внимание, что алгоритмы поисковых систем разные, отсюда разная выдача по одному и тому же поисковому запросу.

Наиболее значимые поисковые системы Рунет

Меня мало интересуют поисковые системы интернет мира, о них вы найдете информацию в других источниках. Здесь базовые поисковики Рунет, которые знает весь мир.

Поисковая система Google

Базовый адрес страницы поиска Google: www.google.ru. Google Search известнейшая поисковая система, запрещенная в Китае (www. google.cn), но остающаяся основным конкурентом Яндекс в России.

поисковые системы интернет Google

Как работает поисковик Google

Google ведет поиск по всему Интернет, выбирая из своего индекса, наиболее релевантные веб-страницы. Обеспечивают поиск три взаимосвязанных процесса:

Сканирование;
Индексирование;
Показ поискового результата.

Сканирование или обход Интернет

Сканирование Интернет осуществляет главный робот Google под названием Googlebot. В его задачи входит обнаружение новых и обновленных страниц для внесения их в базу данных Google.

В задачи программ робота Googledot входят задачи, по которым нужно сканировать сайты, как часто и сколько страниц с каждого сайта.

При каждом сканировании Googlebot составляет список ссылок страниц для сканирования, обходит файлы Sitemap для поиска новых ссылок и набирает ссылки со сканируемых страниц.

Индексирование

Каждая сканируемая страница обрабатывается Googlebot и по этой обработке составляется индекс страницы. В индекс страницы Google входит:

Полный индекс всех слов на странице, с местами их расположения;
Данные тегов title, description и атрибутов alt.

Показ результатов поиска

По заданному запросу в поиске Google ищет наиболее подходящие (релевантные) страницы из индекса. Для определения релевантной страницы боты используют факторы релевантности из алгоритмов поисковика Google. Таких факторов более двухсот.

Типы поиска Google

На странице поиска Google мы видит несколько типов поиска:

Традиционный: поиск по веб-сайтам и веб-страницам;
Поиск «Мне повезёт: мотиватор поиска;
Картинки: поиск по базе данных фотографий Google.

Расширенный поиск Google

На странице результатов поиска есть кнопки расширенного или лучше сказать специального поиска. Это поиски:

Картинок;
Видео;
Новости;
Карты;
Покупки;
Книги;
Авиабилеты.

Здесь же поиск можно фильтровать (кнопка Настройки) по:

Языку (кнопка Инструменты — Выбор языка поиска);

В безопасном режиме (фильтр непристойных результатов);
Без персональных данных;
А также включить расширенный поиск.

Еще больше сузить фильтр поиска Google поможет кнопка «Инструменты». Здесь можно выбрать язык поиска, время появления информации, и результаты с точным попаданием запроса.

Поисковые роботы Google

Кроме основного поискового робота Googlebot, система имеет массу других программ более специального сканирования. Общий список их тут //support.google.com/webmasters/answer/1061943?hl=ru. Они могут понадобиться для составления файла robots.txt, мета-тегов robots, команд X-Robots-Tag HTTP. Вот названия нескольких из них (не путать с агентами пользователя):

Googlebot
Googlebot Images
Googlebot News
Googlebot Video
APIs-Google
AdSense
AdsBot Mobile Web Android
AdsBot Mobile Web
AdsBot

Основные поисковые системы Рунет

Основными поисковыми системами Рунет можно назвать: Яндекс, Рамблер, Апорт (Mail). Несомненно, большее внимание заслуживает самый популярный поисковик Рунет — Яндекс.

Поисковая система Яндекс

Страница Яндекс в сети, https://yandex.ru/. Эта страница не является страницей чистого поиска. Страница чистого поиска, очищенная от всей лишней информации тут: https://ya.ru/.

поисковые системы интернет Яндекс

В блоге Яндекс (https://yandex.ru/company/technologies) вы можете найти подробные статьи по каждому этапу работы поисковика Яндекс. Здесь, кратко.

Общий принцип работы поисковой системы Яндекс, можно разделить на два процесса. Первый это обход Интернет поисковыми роботами с целью сбора информации, а точнее сканирования веб-ресурсов. Второй это отдача ответа пользователю, по сделанному поисковому запросу.

Для обхода Интернет в Яндекс «работают» два робота. Основной индексирующий робот «YandexBot» и быстрый робот, который называют «Orange».

Orange ищет в сети самую свежую информацию в Интернет, возраст которой минуты и секунды.

Задачи YandexBot более глобальные. Он обходит Интернет по заданию (спискам ссылок), который формирует робот-планировщик. При обходе YandexBot делает сканы веб-страниц, внося их в свою базу данных.

Следующий этап индексирование

На следующем этапе, сканы веб-страниц, очищаются от разметки, разбираются, по словам и помещаются в индекс поисковика. У каждого слова есть метка, указывающая, где оно находится в Интернет. Основной слепок документа остается в основной базе Яндекс и удаляется от туда, только после удаления веб-страницы с сайта.

Индекс поиска Яндекс это данные про тип документа, его кодировка, язык, а также сохраненные копии документа вместе составляют поисковую базу.

Поиск Яндекс это часть документов из поисковой базы, очищенных от спама, дублей и другого мусора.

По сделанному запросу Яндекс ищет в своей базе данных подходящие слова (словоформы). У каждого слова в базе есть указатель, на какой веб-странице это слово «лежит».

Все найденные результаты Яндекс ранжирует по своему алгоритму и отдает пользователю в виде списка веб-ресурсов с заголовком, ссылкой и описанием.

Стоит отметить, что основной обход (поиск «пакетами») происходит в основном ночью, 2-3 раза в неделю. Робот Orange работает в режиме реального времени.

Особенности поиска Яндекс

У Яндекс есть свой язык поисковых запросов. Посмотреть его можно тут: yandex. ru/ya_detail. html. Совсем недавно он несколько сократился, читать тут (https://yandex.ru/support/search/query-language/qlanguage.html).

Главным отличием поиска Яндекс является географическая метка ресурсов, которая позволяет создавать и различать гео зависимые (30%) и гео независимые запросы (70%).

Кроме этого, Яндекс может находить словоформы;
Различает регистр букв;
Можно выбрать одно место поиска (Каталог, Новости, Товары, Картинки, Энциклопедия);
Есть расширенный поиск;
Есть поиск по одному ресурсу.

Поисковик Rambler

Несмотря на то, что вы найдете страницу «чистого поиска» Рамблер тут: https://r0.ru/?mobile=true, поисковой системы Рамблер НЕ существует с 2011 года.

Есть медийный портал Рамблер, с массой новостей. Есть форма поиска, которая есть не что иное, как обрезанный поиск Яндекс. Самостоятельных роботов и программ у Рамблер нет.

Страница Рамблер: https://www. rambler.ru

Рамблер не входит в поисковые системы интернет

Стоит отметить, что остался сервис Рамблер ТОП 100, в котором участвуют (на сегодня) 169 999 сайтов. Работает он, как каталог сайтов по нему есть свой, можно сказать уникальный, поиск (https://top100.rambler.ru/).

Поиск Mail.ru

Страница поиска есть https://go.mail.ru/

поисковые системы интернет mail.ru

Своей поисковой системы у Mail нет. Работает некий симбиоз Google поиск на русском и Google поиск по всему миру. Часто можно встретить упоминание о не ком GoGo.ru.

Однако, огромное количество сервисов и проектов Mail, на каждом из которых есть форма поиска, позволяют поиску Mail держаться на третьем месте популярности в Рунет.

Замечу, что у Mail.ru есть свой инструмент веб-мастеров (https://webmaster.mail.ru/), где можно добавить и продвигать в Mail поиске свой ресурс.

Также не будем забывать по сервис Рейтинг Mail, https://top.mail.ru/, где можно не только отслеживать посещаемость своего сайта, но использовать поиск по рейтингу, как поиск по каталогу.

Поисковик Bing

Страница поиска https://www.bing.com/?cc=ru

поисковые системы интернет Bing

Данная поисковая система разработана компанией Microsoft. Она имеет свои уникальные алгоритмы индексирования и выдачи поиска.

В комплексе решаемых задач актуальность, соответствие, глубина поиска Bing уступает Google и Яндекс. Однако имеет своего преданного пользователя. Кроме основного поиска есть поиски:

Изображений (здесь они преуспели);
Видео,
Новостей,
Поиск в картах,
А также есть, журнал поиска, вкладка MSN и вкладка почты outlook.com.

Не будем забывать, что у Bing есть свой кабинет вебмастеров, который помогает продвигать ресурс в Bing выдаче. Все сервисы Bing давно имеют русскую локализацию.

Смотря на поиск и выдачу Bing, меня не покидает ощущение схожести Bing и Google поиска.

Кстати, Bing это единственный поисковик, который учитывает теги keywords в факторах ранжирования, а их отсутствие относит к негативным факторам.

Как добавить веб-ресурс (веб-страницу) в очередь на индексацию?

У каждого поисковика, есть возможность не ждать милости, а самостоятельно добавить веб-страницу в очередь на очередной обход роботом поисковой системы. Вот список, где это можно сделать:

Яндекс «Переобход страниц»: https://webmaster.yandex.ru/site/indexing/reindex/;
Google: //www.google.com/webmasters/tools/submit-url?hl=ru
Mail: https://webmaster.mail.ru/
Bing (добавить ресурс в bing): https://www.bing.com/toolbox/submit-site-url

Вывод

Общедоступной информации в Интернет настолько много, что для объективного результата поиска нужно использовать несколько поисковых систем. Мне удается находить нужную информацию, используя два поисковика, и редко картинки в Bing. Хотя, честно говоря, картинки я ищу совсем по-другому.

Объективно Google лучший поисковик для поиска по миру. Яндекс и Google.ru для поиска по России. У Бинг хорош поиск картинок. Mail поиск, просто «торчит» на всех своих социальных серверах.

К сожалению, в обзор поисковые системы интернет, не вошел поисковик DuckDuckGo https://duckduckgo.com/about с уникальным алгоритмом умного поиска, о нём в отдельной статье.