Что можно сделать, если поисковики в упор не видят ваш сайт — SEO на

Что можно сделать, если поисковики в упор не видят ваш сайт — SEO на

Что такое умные отзывы

Яндекс.Маркет показывает умные отзывы в карточках товаров. Отзывы состоят из двух частей: подробного комментария о товаре и набора ключевых характеристик, которые чаще всего отмечают пользователи. Например — качество сборки, дизайн и удобство, уровень шума.

Составлять отзывы помогает обученная Яндексом нейросеть. Если вкратце, это происходит вот как. Нейросеть смотрит карточки товаров на Яндекс.Маркете и выбирает те, у которых много отзывов покупателей. Она изучает отзывы для конкретной карточки и кластеризует предложения по смыслу.

Затем отбирает несколько самых крупных кластеров (то есть семантически похожие предложения, которые встречаются чаще всего) и из каждого кластера выделяет предложение, которое больше всего походит на все остальные в кластере. Это предложение нейросеть вставляет в отзыв — и так дальше. Предложение за предложением — и обобщённый отзыв готов.

Мой сайт не показывается в поиске. почему? | веб-находка

К нам много звонит людей и задают один и тот же вопрос: «Почему мой сайт (фото, документ, объявления) не показывают поисковые системы: Яндекс, Google, Mail, Bing?»

На что мы задаем ответный вопрос:  «А почему ваш сайт, фото, документ, объявление должны показывать поисковики?»

Ответ как правило один и тот же: «Мы опубликовали в интернете сайт (фото, документ, объявления)», и по понятиям звонивших их интернет-ресурс сразу же должен показываться в первых строках по запросам в поиске. 

Когда объясняешь что в первых строках показываются сайты (фото, документы, объявления) владельцы которых выложили несколько десятков, а иногда  даже и сотен тысяч рублей на рекламу, продвижение, SEO оптимизацию, все сразу же сникают, и спрашивают что делать?


На самом деле ничего страшного нет, ваш сайт просто еще не проиндексирован. То-есть поисковые системы о нем попросту не знают, им же никто не рассказал о вашем сайте. И наша студия в этом может помочь! Хотя со временем интернет-ресурс поисковые системы найдут, но не так быстро как хотелось бы!

Что происходит после публикации сайта в сети интернет?  Мы когда создаем новый сайт для клиента, на нашем сайте размещаем ссылки на новый сайт, и когда поисковые роботы заглядывают к нам, они по ссылкам узнают о том, какие новые сайты еще появились. Можно, конечно, ограничиться и этим, однако, в таком случае процесс может затянуться на несколько недель.

Более надежный способ — зарегистрировать свой сайт в поисковых системах самостоятельно. Первым делом сообщить о новом сайте Яндексу, Google, Bing, Mail. Если на этих сервисах есть аккаунты, необходимо обратиться к инструментам для вебмастеров. Если нет учетной записи, вот ссылки: добавление сайта в Яндекс, добавление сайта в Google, добавление сайта в Mail, добавление сайта в Bing, добавить сайт в Baidu,

Как проверить, проиндексирован наш сайт или нет?

Откройте поисковую систему, прямо в строку поиска введите имя site.ru (конечно, вместо site.ru.ru должен стоять адрес вашего сайта). Если поисковая выдача что-то показала с вашим доменом, то сайт проиндексирован.

Сайт проиндексирован, но ввожу название, а его все равно не видно

В этом случае (если мы говорим о новом сайте) скорее всего причина в том, что сайт не оптимизирован. То есть поисковик не понимает, по каким словам ваш сайт нужно выводить в поиске. И в этом наша студия может Вам помочь!

Консультации по поисковой оптимизации и продвижению

Дорогие наши пользователи, мы очень хотели бы помочь каждому из вас в нелегком деле продвижения сайтов. Однако поисковая оптимизация — тема обширная и сугубо индивидуальная для каждого сайта. Все, что мы можем дать — общие понятия и вопросы оптимизации, а также специальные инструменты, которые немного помогут вам оптимизировать ваши сайты. Обратите внимание, что служба технической поддержки НЕ консультирует по вопросам поисковой оптимизации (какой домен лучше, как склеить домены, как индексируются, почему сайт не ищется, какой счетчик статистики лучше, какие теги прописать и так далее). Мы только занимаемся поисковой оптимизацией для клиентов заказавших у нас разработку и создание сайта.


Начнем с простого: сайт полностью скрыт

Если сайт отсутствует в поиске и вы хотите разобраться, почему так происходит, начните с причин, которые проще всего проверить.

Убедитесь, что поисковик знает о сайте

Индексация наступает естественным образом, когда поисковик сам приходит на ваш сайт по ссылкам с других ресурсов.

А можно прямым текстом сказать: «Пора индексировать мой сайт!». Это делается для каждого поисковика в отдельности с помощью соответствующего сервиса:

Что можно сделать, если поисковики в упор не видят ваш сайт — SEO на

Это очень полезные ресурсы. Можно не только отправить запрос на индексацию сайта, но и следить за этим процессом, получать уведомления об ошибках, а также советы по улучшению технической стороны сайта.

Рекомендуем завести аккаунты в сервисах веб-мастеров.

Проверьте файл robots.txt

Файл robots.txt (размещается в корневом каталоге вашего сайта: site.ru/robots.txt) предназначен для того, чтобы давать инструкции роботам-индексаторам из поисковых систем.

С его помощью вы можете скрыть страницы вашего сайта от индексации (например, личный кабинет, корзину покупателя и другие).

Однако если вы видите в robots.txt строки:

User-agent: *
Disallow: /

— значит роботам запрещено посещать ваш сайт.

Дело в том, что веб-студии запрещают поисковикам заходить на ещё не готовый сайт — чтобы он был скрыт от поиска. Ведь лучше, если люди придут смотреть на готовый проект, чем на стройку. Намерения — благие.

Затем этот файл просто забывается (а иногда — оставляется из «вредности»), и заказчик не может понять, что в чем же он ошибся при продвижении сайта, а на сайт приходят только с визиток.

Сейчас ищут техподдержку:  Горячая линия Емекс, как написать в службу поддержки - Горячая линия

Удалите этот файл, если он содержит только эти строки.

Сайт может быть под фильтром

Возможно, ваш сайт по каким-то причинам попал под фильтры поисковой системы. И в этом тоже необходимо разбираться, по какой причине сайт отфильтровывается поисковыми системами.

Benchmark


Давайте проверим, что у нас получилось. Я взял текст своей любимой статьи

, а именно содержимое узла #content html_format и сохранил его в отдельный файл.

Блокировка yandex бота в .htaccess

Здесь нужно проверять log-файлы сайта и анализировать, какие роботы посещают страницу. Как удобно анализировать log-файлы при помощи Power BI читайте в нашей статье.

Дубли

Если проблема не с целым сайтом, а всего лишь с одним или несколькими его важными документами, то причина может крыться в наличии дублей. Часто у страницы может просто быть дубль – страница с таким же содержанием, которая либо автоматически создана несовершенствами админки, либо умышленно (но редко встречается).

Запрещающие метатеги

Метатеги носят строгий характер для поисковых роботов, поэтому вам стоит тщательно проверить код неиндексируемых страниц на наличие таких конструкций:

Индексирование содержимого сайта

Что можно сделать, если поисковики в упор не видят ваш сайт — SEO на

Как уже говорилось выше, индексирование заметно ускоряет выполнение поискового запроса, так как поисковому движку не нужно обрабатывать контент каждый раз заново — поиск выполняется по индексу. Но что же все-таки происходит при индексировании? Если по порядку, то:

  • Сначала из текста формируется массив слов, и делается это с помощью метода get_words.
  • Согласно профилю, из текста отбрасываются незначимые части речи.
  • Значимые оцениваются по пятибальной шкале, с помощью метода weigh.
  • Для каждого сова выполняется поиск лемм, иначе говоря базовых форм.
  • Рассчитывается количество повторений каждого слова и суммарный ранг.
  • Все данные записываются в объект и в виде JSON записываются в базу данных.

В результате получается объект следующего формата:

{
	"range" : "<коэффициент значимости индексируемых данных>",
	"words" : [
		// Одно из слов //
		{
			"source" : "<базовая версия слова>",
			"range"  : "<суммарный ранг>",
			"count"  : "<количество повторений данного слова в тексте>",
			"weight" : "<ранг на основе части речи>",
			"basic"  : [
				// Варианты лемм слова //
			]
		}
	]
}

Пишем инициализатор и первый метод ядра поискового движка:

Теперь при добавлении или изменении данных в таблицах достаточно просто вызвать данную функцию, чтобы проиндексировать их, но это не обязательно: индексирование может быть и отложенным. Первым аргументом метода make_index является исходный текст, вторым — коэффициент значимости индексируемых данных. Ранг каждого слова, кстати, расчитывается по формуле:

Исключаем технические причины

В процессе поиска причин, почему Яндекс не ранжирует ваш сайт, нужно в первую очередь исключить проблему с индексированием.

Как убедиться в наличии/отсутствии страницы/сайта в индексе:

  • нет результатов при проверке страницы/сайта через операторы поисковой системы «site:», «host:»;
  • страница находится в списке исключённых документов в Яндекс.Вебмастере, в разделе «Страницы в поиске»;
  • страницы нет в выдаче при поиске по куску текста.

Лучше использовать все методы в комплексе, чтобы убедиться, что страница действительно не в индексе.

Как бороться с проблемой:

Нужно исключить все технические препятствия для нормальной индексации.

Механизм ранжирования на уровне морфологии

Давайте остановимся на такой единице языка, как предложение. Наиболее важной частью предложения является основа в виде подлежащего и/или сказуемого. Чаще всего подлежащее выражается существительным, а сказуемое глаголом. Второстепенные члены в основном употребляются для уточнения смысла основы.

В разных предложениях одни и те же части речи порой имеют совершенно разное значение, и наиболее точно оценить это значение в контексте текста сегодня может только человек. Однако программно оценить значение какого-либо слова все-таки можно, хоть и не так точно.

При этом алгоритм ранжирования должен опираться на так называемый профиль текста, который определяется его автором. Профиль представляет из себя ассоциативный массив, ключами которого являются части речи, а значениями соответственно ранг (или вес) каждой из них.

Морфологический анализатор

Русский язык — довольно сложная штука, которая радует своим разнообразием и шокирует иностранцев конструкциями, типа «да нет, наверное». Научить машину понимать его, да и любой другой язык, — довольно непростая задача. Наиболее успешны в этом плане поисковые компании, типа Google и Яндекс, которые постоянно улучшают свои алгоритмы и держат их в секрете. Придется нам сделать что-то свое, попроще. К счастью, колесо изобретать не придется — все уже сделано за нас. Встречайте,

— морфологический анализатор, поддерживающий русский, английский и немецкий языки. Более подробную информацию можно получить

, однако нас интересуют только две его возможности: лемматизация, то есть получение базовой формы слова, и получение грамматической информации о слове (род, число, падеж, часть речи и т.д.).

Нужна библиотека и словарь для нее. Все это добро можно найти тут. Библиотека находится в одноименной папке «phpmorphy», словари расположены в «phpmorphy-dictionaries». Скачиваем последние версии в корневую папку проекта и распаковываем:

# Распаковываем библиотеку
$ unzip phpmorphy-0.3.7.zip
$ mv phpmorphy-0.3.7 phpmorphy

# Распаковываем словарь в phpmorphy/dicts
$ unzip morphy-0.3.x-ru_RU-withjo-utf-8.zip -d phpmorphy/dicts/

# Удаляем исходные архивы
$ rm phpmorphy-0.3.7.zip morphy-0.3.x-ru_RU-withjo-utf-8.zip

Отлично! Библиотека готова к использованию. Пришло время написать «оболочку», которая абстрагирует работу с phpMorphy. Для этого создадим еще один файл morphyus.php в корневой директории:

Пока реализовано только два метода. get_words разбивает текст на массив слов, фильтруя при этом HTML-теги и сущности типа “&nbsp;”. Метод lemmatize возвращает массив лемм слова, либо false, если таковых не нашлось.

Наличие дублей

Одинаково вероятная причина плохого ранжирования как для новых, так и для старых сайтов. Наличие дублей в целом негативно влияет на оценку сайта поисковиком, путает робота, который вынужден выбирать среди нескольких документов наиболее релевантный.

Сейчас ищут техподдержку:  Поиск по картинке с телефона Андроид [способы]

Проверить наличие технических дублей можно при помощи парсинга.

Выбирайте удобный для себя парсер при помощи нашей обзорной статьи «Обзор ТОП-6 парсеров сайтов».

Увидеть проблему с дублями можно в разделе «Страницы в поиске» – «Исключённые страницы» – фильтр «Дубли».

Недостаточно полная внутренняя оптимизация страницы

Внутренняя оптимизация включает в себя в первую очередь работу с количеством и характером запросов на странице.Здесь работа должна вестись без отрыва от анализа конкурентов по выдаче.

Как выбрать конкурентов узнайте из нашей статьи – «Как найти новые точки роста поискового трафика».

После вычисления конкурентов проведите сравнительный анализ полноты внутренней оптимизации своего сайта с конкурентами.

Внимание обращайте на такие основные элементы, задающие релевантность документа: Title, H1, анкоры внутренних ссылок, Alt-текст. Сравните, насколько полно оптимизированы ваши страницы, нет ли переспама.

Особое внимание стоит уделить seo-текстам на категориях интернет-магазинов:

  • Во-первых, есть ли в них необходимость – здесь ответит анализ конкурентов из ТОПа.
  • Во-вторых, насколько полезным является текст для пользователя. Здесь нужно прочитать текст и оценить, потеряет ли страница смысл, если текст удалить?
  • В-третьих, естественно ли внедрены ключи в текст.

Пример спамного текста, который приводит к Бадену:

Помните, что в случае с Яндексом – от seo-текста лучше отказаться. В случае в Google – лучше согласиться на него (если он есть у конкурентов).

Некорректные данные в сохранённой копии

Проблемное ранжирование сайта может быть обусловлено тем, что поисковик не видит какой-то контент, который виден пользователю. Либо, наоборот, может содержать избыточный, дублирующийся контент.

Поэтому проверяйте сохранённую копию страницы, особенно её текстовый вариант.

На примере ниже страница, текст которой открывается через кнопку «Подробнее».

А вот как эта же страница выглядит в текстовой сохранёнке Яндекса.

То есть полный вариант текста показывается роботу дважды.

Некорректный ответ сервера

Здесь речь даже не о стандартных случаях, когда у сайта проблемы с доступностью, то есть вы видите реальную 404-тую страницу, вместо главной, или частые уведомления о 5**-тых ошибках. А о том, что визуально сайт работает, но на самом деле сервер отдаёт 404-тый код поисковому роботу. Такие неочевидные ошибки можно выявить через инструмент «Проверка ответа сервера» в панели Яндекс.Вебмастера.

Неуникальный контент

Проблема с позициями может возникать, если ваш сайт повторяет контент других сайтов. Когда информационный ресурс не содержит добавочной ценности и намерен просто занимать место на серверах поисковиков, то у Яндекса нет оснований предоставлять ему место в ТОПах. Подробнее о ценности уникального контента для поисковых систем в статье.

Новые сайты «не любит» яндекс

Среди сеошного сообщества последние полгода ходит слух об аналоге «Песочницы» для новых сайтов. Суть в том, что новые сайты не ранжируются Яндексом. Что такое «не ранжируются» – не находятся даже в ТОП-500 тематики со слабой конкуренцией.

Для примера. Сайт был оптимизирован по технической части, внутренней и велись работы по внешней. Всё это не давало результата на протяжении 3 месяцев. Яндекс упорно не ранжировал сайт более чем по 200 целевым ключам.

Первые результаты появились только в середине сентября при том, что для индексации сайт был открыт ещё в июле.

То есть путь нашего целевого сайта к первым ТОПовым позициям составлял всего лишь три месяца. Но есть случаи, когда Яндекс пускает в первую десятку новые сайты только после шести месяцев. Здесь остаётся только запастись терпением и работать над комплексом факторов – внутренние, внешние, коммерческие и поведенческие. Последние особенно важны, если Яндекс использует свой алгоритм Многорукий бандит для вашего сайта.

Такая история возможна и для информационных ресурсов, и для коммерческих. В нашем примере был сайт услуг.

Подготовка

Задача поставлена, теперь можно перейти к делу. Я использую Linux в качестве рабочей ОС, однако постараюсь не использовать ее экзотических возможностей, чтобы любители Windows смогли «собрать» поисковый движок по аналогии. Все, что Вам нужно — это знание основ PHP и умение обращаться с MySQL. Поехали!

Наш проект будет состоять из ядра, где будут собраны все жизненно необходимые функции, а также модуля морфологического анализа и обработки текста. Для начала создадим корневую папку проекта firewind, а в ней создадим файл core.php — он и будет ядром.

$ mkdir firewind
$ cd firewind
$ touch core.php

Теперь вооружаемся своим любимым текстовым редактором и подготавливаем каркас:

Тут мы создали основной класс, который можно будет использовать на Ваших сайтах. На этом подготовительная часть заканчивается, пора двигаться дальше.

Принцип работы

Со стороны бэкенда поиск работает так:

  • содержимое сайта индексируется,
  • пользователь присылает запрос,
  • из запроса исключаются служебные части речи,
  • получившаяся строка разбивается на массив слов, переведенных в базовую форму,
  • поиск каждого слова полученного массива осуществляется в индексе,
  • результаты поиска ранжируются, сортируются и отдаются пользователю.

Реализация поиска

Остался последний и самый главный метод, метод поиска. В качестве первого аргумента метод принимает индекс поискового запроса, в качестве второго — индекс содержимого, в котором выполняется поиск. В результате выполнения возвращается суммарный ранг, рассчитанный на основе ранга найденных слов, либо 0, если ничего не нашлось. Это позволит сортировать поисковую выдачу.

Все! Поисковый движок готов к использованию. Но есть одно но… На самом деле это не джин-волшебник, и просто закинув его на свой сайт Вы не получите ничего. Его нужно интегрировать, причем этот процесс во многом зависит от архитектуры Вашего сайта. Рассмотрим этот процесс на примере небольшого интернет магазина.

Сейчас ищут техподдержку:  Сбербанк бизнес онлайн — телефон техподдержки

Реализация поиска на примере интернет-магазина

Допустим, информация о продаваемой продукции хранится в таблице production:

CREATE TABLE `production` (
	`uid`          INT         NOT NULL AUTO_INCREMENT, -- Уникальный идентификатор
	`name`         VARCHAR(45) NOT NULL, -- Название продукта
	`manufacturer` VARCHAR(45) NOT NULL, -- Производитель
	`price`        INT         NOT NULL, -- Стоимость продукта
	`keywords`     TEXT        NULL,     -- Индекс ключевых слов
	PRIMARY KEY ( `uid` )
);

SHOW COLUMNS FROM `production`;
 -------------- ------------- ------ ----- --------- ------- 
| Field        | Type        | Null | Key | Default | Extra |
 -------------- ------------- ------ ----- --------- ------- 
| uid          | int(11)     | NO   | PRI | NULL    |       |
| name         | varchar(45) | NO   |     | NULL    |       |
| manufacturer | varchar(45) | NO   |     | NULL    |       |
| price        | int(11)     | NO   |     | NULL    |       |
| keywords     | text        | YES  |     | NULL    |       |
 -------------- ------------- ------ ----- --------- ------- 

А описание в таблице description:

CREATE TABLE `description` (
	`uid`         INT      NOT NULL AUTO_INCREMENT, -- Уникальный идентификатор
	`fid`         INT      NOT NULL, -- Внешний ключ для привязки описания к продукту
	`description` LONGTEXT NOT NULL, -- Само описание
	`index`       TEXT     NULL,     -- Индексированное описание
	PRIMARY KEY ( `uid` )
);

SHOW COLUMNS FROM `description`;
 ------------- ---------- ------ ----- --------- ------- 
| Field       | Type     | Null | Key | Default | Extra |
 ------------- ---------- ------ ----- --------- ------- 
| uid         | int(11)  | NO   | PRI | NULL    |       |
| fid         | int(11)  | NO   |     | NULL    |       |
| description | longtext | NO   |     | NULL    |       |
| index       | text     | YES  |     | NULL    |       |
 ------------- ---------- ------ ----- --------- ------- 

Поле production.keywords будет содержать индекс ключевых слов продукта, description.index будет содержать индексированное описание. И все это будут храниться в формате JSON.

Вот пример функции добавления нового продукта:

Учиться, учиться и ещё раз учиться

Нейросеть умеет читать и пересказывать отзывы о любых товарах, будь то лыжи, противогаз, телевизор или крестовина фановой трубы. Но раз уж мы начали с электрочайника, то вот что нейросеть говорит про один из них: «Чайник работает тихо, это жирный плюс.

Единственное — не люблю этот уровень под ручкой, не заметил, при покупке думал, что компас температуры это и показатель жидкости. Покупкой очень доволен. Однозначно рекомендую к приобретению». Из отзыва можно сразу понять, что стоит присмотреться к этому тихому чайнику.

Но не ошибается только тот, кто ничего не делает. Нейросеть в безделье не упрекнёшь, поэтому она тоже может дать маху. К примеру, про умные часы она ляпнула такое: «Мне часы очень нравятся, они выглядят хорошо, с их возможностями чувствуешь себя очень уверенно и спокойно. Надо же как-то часы обсудить, а можно тогда не покупать». В общем, понятно, что ничего непонятно.

Фильтр

Сайт зафильтрован: чаще всего он в индексе, но не получает ожидаемого трафика. Здесь нужно проверять предупреждения в разделе «Диагностика» – «Безопасность и нарушения».

Если фильтр автоматический, то уведомлений в Вебмастере не будет. Выявить его можно только примерно. Определить, наложен ли фильтр, может помочь наш цикл статей.

Хранение индексированных данных

Очевидно, что индекс нужно где-нибудь хранить, да еще и привязать к исходным данным. Наиболее подходящим местом для них будет база данных. Если индексируется содержимое файлов, то можно создать отдельную таблицу в базе данных, которая будет содержать индекс название каждого файла, а для содержимого, которое уже хранится в базе, можно добавить еще одно поле типа в структуру таблиц. Такой подход позволит разделять типы содержимого при поиске, например, названия и описание статей в случае блога.

Нерешенным остался лишь вопрос формата индексированного содержимого, ведь make_index возвращает объект, и так просто в базу данных или файл его не запишешь. Можно использовать JSON и хранить его в полях типа LONGTEXT, можно BSON или CBOR, используя тип данных LONGBLOB. Два последних формата позволяют представлять данные в более компактном виде, чем первый.

Как говорится, «хозяин — барин», так-что решать, где и как все будет храниться, Вам.

Выводы

Что делать, если Яндекс упорно игнорирует ваши работы над сайтом? Выжимка рекомендаций для владельцев сайтов:

  1. Новый сайт не индексируется – проверьте технические запреты на индексирование.
  2. Новый сайт индексируется, но несколько месяцев не заходит в ТОП-100 Яндекса – проведите более глубокий анализ на технические дубли, полноту внутренней оптимизации. Перед запуском сайта рекомендуем проверить его с помощью «SEO чек-лист: что проверять перед запуском сайта?».
  3. Сайт с историей не индексируется – обновляйте контент, отправляйте на принудительную переиндексацию страницы.
  4. Сайт с историей не занимает желаемые позиции – смотреть пункт 2. Нужно также проверять полноту внутренней оптимизации посадочных страниц.

Еще по теме:

Заключение

В статье был описан один из вариантов реализации поиска для сайта. Это самая первая его версия, поэтому буду только рад узнать Ваши замечания, мнения и пожелания. Присоединяйтесь к моему проекту на Github:

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (1 оценок, среднее: 5,00 из 5)
Загрузка...

Оставьте комментарий

Adblock
detector