Оптимизация сайта — базовые знания
Собственно, без знания деталей и мелочей при оптимизация сайта и позиционировании его в поисковых системах по конкурентным запросам при продвижении сайта в интернете сегодня не обойтись. Но детали — это уже высшая математика. И как высшая математика не может обойтись без арифметики, так и хорошее позиционирование не может обойтись без основ оптимизация сайта.
Поисковых систем сегодня существует не один десяток. Они существовали еще до появления всемирной паутины, претерпели немалые изменения алгоритмов поиска в первые годы своей онлайн-жизни, нет причин полагать, что они не будут изменяться в будущем, и невозможно поручиться, что в момент написания данной статьи в какой-либо из поисковых систем не зреют грандиозные изменения. Так можно ли говорить о каких-то общих принципах безотносительно поисковой системы или даже поискового алгоритма? Определенно — да. Ученые еще со времен Галилея (а некоторые небезосновательно считают, что еще Леонардо да Винчи предвосхитил «резолютивный метод» Галилея) имеют в своем распоряжении целый арсенал методов и приемов, позволяющих не только изучать сложные объекты, процессы и явления, но и предсказывать их эволюцию.
Оптимизация сайта — начинаем с моделирования. В нашем случае выбор модели очевиден: т.к. любая поисковая система является инструментом, облегчающая человеку поиск, то алгоритм поиска текста по базе поисковой системы аналогичен поиску текста человеком в библиотеке. Неявно будем предполагать, что ищутся только тексты, а не какие-либо объекты. Памятуя об изречении, вынесенном в эпиграф, будем отдавать себе отчет в том, что поведение сферической модели лошади в вакууме несколько отличается от поведения беговой лошади на ипподроме.
Итак, сформулируем постановку задачи: какими свойствами должен обладать текст, чтобы человек, ищущий некоторый материал в библиотеке нашел именно этот, а не какой-либо другой текст. При решении ее мы будем опираться исключительно на собственный опыт поиска текстов в библиотеке.
Как вы думаете, с чего стоит начинать? Некоторые оптимизаторы любят поспорить на тему важности тех или иных параметров, влияющих на ранжирование, упуская из виду гораздо более важный фактор, кажущийся самоочевидным. Мой школьный учитель математики, раздавая контрольную, тихонько напевал себе под нос песенку «С чего начинается Родина?». Все в классе знали: Родина начинается с ОДЗ, т.е. с области допустимых значений. Какое условие должно выполнятся, независимо от того, какой именно человек ищет какой бы то ни было текст, в выбранной наугад библиотеке?
Правильно, этот текст должен присутствовать в этой библиотеке. Отсюда:
Совет 1. Убедитесь, что открытая часть оптимизируемого сайта полностью доступна поисковым системам.
Вам кажется этот совет банальным? Однако есть факты, позволяющие утверждать, что это далеко не так. В 2000-м году было проведено исследование, в результате которого было установлено, что поисковыми системами проиндексирована лишь малая толика документов, находящаяся на «поверхности» web. Большая же часть (до 500 млрд.) документов остается недоступной поисковикам, т.е. в глубине сети (deep web), несмотря на свою доступность для любого посетителя. Даже если предположить, что 3 года назад исследователи ошиблись в своих оценках раз в десять (пусть и с учетом роста web за это время), очевидно, что и сегодня ситуация не улучшилась кардинальным образом: каждый из лидеров поисковых систем по числу проиндексированных документов Google и AllTheWeb (FAST) «знает» не более 5 млрд. страниц, т.е. не более 10% от общедоступного контента.
Причин, по которым сайты остаются в deep web, несколько, остановимся на самых важных из них.
Недоступность документов по ссылкам.
Роботы поисковых систем могут узнать о существовании того или иного документа только при наличии ссылки на него, или же если веб-мастер добавит страницу вручную при помощи формы на сайте поисковой системы. Поскольку поисковики оперируют миллионами документов, а ведущие — миллиардами, они вынуждены экономить вычислительные ресурсы буквально на всем. Поэтому большинство из современных web-технологий им не доступно. Например, некоторые поисковики разбирают JavaScript, в поисках ссылок в нем, но в настоящий момент ни один из поисковиков эти скрипты не выполняет. Поэтому большая часть сайтов с, например, динамическим меню может оказаться недоступна поисковикам. Если форма с выбором раздела сайта или отдельной страницы содержит лишь параметры скрипта, но не содержит прямых ссылок на эти страницы/разделы, то они попадут в Deep Web.
Очень распространены ошибки при написании URL. Яндексу, например, известно более 33.5 тысяч ссылок на localhost! А сколько ссылок было потеряно при смене домена!.. Впрочем, такие документы будут недоступны не только поисковикам, но и обычным посетителям.
Эта проблема часто возникает при использовании абсолютных ссылок вместо относительных. Ссылкой на localhost иногда пользуются при разработке сайта, когда и клиент (браузер), и сервер (localhost) находятся на одном компьютере. А потом, выкладывая новый сайт в Сеть, просто забывают проверить систему ссылок и… поисковая система безуспешно пытается найти и проиндексировать страницы, которые давно уже «переехали» на другой, реальный адрес.
Динамически генерируемые URL.
Самая распространенная преграда индексации динамических (построенных на технологиях Perl, PHP, JSP, ASP и т.п.) сайтов — наличие динамически меняющейся части URL. Обычно для идентификации посетителей, которые отключают в браузерах поддержку Cookies, используются идентификаторы сессий в URL, но в некоторых случаях идентификаторы передаются всем посетителям подряд. В любом случае, робот поисковой системы Cookie не обрабатывает, а с учетом того, что с момента извлечения ссылок поисковой системой из уже проиндексированного документа, до момента визита робота по этим ссылкам проходит значительное время, идентификаторы, как правило, успевают устареть и меняются на новые — в итоге поисковик обречен ходить по замкнутому кругу, и просто не успевает проиндексировать все страницы сайта.
Проверить доступность страниц для роботов поисковых систем можно при помощи т.н. оффлайн-браузеров (программ, которые создают локальные зеркала сайтов), не поддерживающих или позволяющих отключать поддержку JavaScript и др. современные технологии вроде flash, например при при помощи wget
Ошибки в настройках сервера.
Очень часто при настройке собственного обработчика ошибок роботу возвращаются 30Х-е коды ответов сервера вместо 40Х при отсутствии документа на сервере. Для некоторых роботов камнем преткновения становится код ответа сервера, отличный от 200 или 404 при обращении к файлу /robots.txt. Часто сам этот файл содержит ошибки, в результате которых роботу запрещается индексировать целые разделы документов. Нередко от робота поисковика ожидают такой же функциональности, как и от браузера, в результате робот получает ответ сервера 406 Not Acceptable.
Правильность robots.txt можно проверить при помощи скрипта http://kako.yandex.ru/cgi-bin/test-robots
Продолжим составлять ОДЗ.
Так же как отсутствие книги (сайта) в библиотеке (в базе поисковика) не может сказаться положительным образом на ранжировании документа в результатах поиска, так и отсутствие текста по искомой теме в книге не сделает ее фаворитом поиска. Поскольку поисковые системы еще только учатся делать обобщения, строить семантические связи (т.е. подбирать синонимы, различать омонимы) и т.д. и т.п., то два запроса выглядящие идентичными для человека вполне могут оказаться абсолютно разными для поисковика, поэтому нельзя не дать следующий совет.
Совет 2. Подбирайте точные ключевые слова
Чтобы не «растекаться мыслью по древу», приведу несколько типичных ситуаций:
Предлагается оптимизировать промо-сайт нового энергетического напитка Х по различным запросам, в том числе и запросу «коктейли». На вопрос оптимизатора, почему именно коктейли, заказчик дает ответ: мол, на дискотеках, из нашего напитка коктейли делать будут. Желание клиента — закон, вот только поисковики не осведомлены настолько в ночной жизни современной молодежи. А на сайте коктейли ни словом не упоминаются.
Агентство недвижимости, занимающееся только жилыми помещениями в частном секторе, желает, чтобы сайт агентства находился по запросу «недвижимость». Все хорошо, кроме того, что на сайте слово «недвижимость» исчезло даже из заголовка титульной страницы, и абсолютно непонятно, сколько людей, желающих снять или сдать квартиры или даже комнаты, назовут их «недвижимостью»? Вопросы на засыпку: человек, набравший в поисковике «сниму однокомнатную квартиру», хочет снять жилплощадь или же ищет тех, кто снимает? Слово «агенство» встречается в различных поисковых запросах почти также часто, как и «агентство». Стоит ли пренебрегать неправильным написанием?
Для получения статистики встречаемости поисковых запросов, воспользуйтесь сервисами Яндекса — http://direct.yandex.ru/ (доступен только после регистрации) и Рамблера — http://banners.park.rambler.ru/cgi-bin/wmb.pl
Вы можете возразить, что общие вопросы задаются более часто, поэтому отдача от этих слов будет выше. Но(!), даже если не учитывать, что по популярным односложным запросам завоевать первые места гораздо сложнее, то практика показывает, что посетители по таким запросам проявляют гораздо меньшую активность на оптимизируемом сайте, чем по точным запросам. Более подробно этот эффект будет рассмотрен при ознакомлении с особенностями контекстной рекламы.
Кроме того, меньшую посещаемость по точным запросам можно компенсировать большим количеством этих запросов. Благо это не так уж и сложно сделать. В 2000-м году Андрей Иванов сделал программу «Штучка», которая автоматически, каждые 30 секунд снимала 20 запросов «Прямого Эфира» Яндекса. Таким образом была создана база поисковых запросов объемом около двух миллионов обращений. Из этой базы «Штучка» могла делать выборки запросов по произвольно выбранным ключевым словам и фразам, примерно так, как сейчас это делают открытые сервисы статистики Яндекс-Директа и Рамблера. Иванов стал изучать спрос на разные темы, писать об этом статьи и иллюстрировать их списками запросов. Сайт, куда выкладывались статьи и списки, без всяких усилий по оптимизации быстро набрал посещаемость до 5000 хостов в день. Поисковые системы хорошо ищут цитаты, а литературный язык сайтов довольно сильно отличается от реального языка запросов, поэтому списки запросов оказались фактически единственными страницами, обеспечивавшими результат по цитате (совпадению фразы), что и вызвало резкий взлет посещаемости.
В настоящее время идея получила развитие, и существует несколько разновидностей скриптов, позволяющие получать до 50 000 человек в день с поисковых систем (с Google, в основном). Посетители, правда, абсолютно не целевые, и многие поисковики вполне успешно научились противостоять подобным скриптам. Сайты выкидывают из поиска (банят) с формулировкой «автоматически сгенерированный контент».
Совет 3. Не применяйте досконально неизученных вами приемов и технологий на оптимизируемом сайте — результаты могут быть необратимы.
Вернемся, однако, к нашей модели.
Предположим, что мы нашли в библиотеке брошюру с тезисами докладов конференции на интересующую нас тему. Какую из публикаций мы предпочтем? Представим себя листающими такую брошюру. Сначала смотрим оглавление. Так, название не подходит, пропускаем. Ага, название обнадеживающее, посмотрим подробнее. Из краткого обзора становится понятным, что не то. Возвращаемся к оглавлению. Вот, по названию, точно то, что искали, посмотрим, посмотрим… Так, краткого обзора нет, в первом абзаце какие-то общие слова, пробежимся по следующим абзацам: вот, курсивом выделены слова, которые в точности совпадают с искомым. Вероятнее всего, это та публикация, которая нам будет интересна.
Вы, наверное, ожидаете перечисления HTML тэгов, которые придают вес документам при поиске по тем или иным словам? Напрасно, т.к. мы ведем речь обо всех поисковиках вместе, а не каком-то конкретном в частности. А то, что русскому хорошо, то немцу — смерть. Поэтому, ограничимся такой формулировкой:
Совет 4. Не пренебрегайте структурно-смысловым оформлением текста каждого документа таким образом, чтобы после изучения атрибутов документа и первых его абзацев было очевидно как посетителям, так и поисковым машинам, о чем идет речь в этом документе.
С посетителями все, вроде бы, понятно, а вот о понятии первых абзацев для поисковых систем стоит поговорить отдельно. Как говорилось выше, поисковые системы экономят свои вычислительные ресурсы буквально на всем. Поэтому они не занимаются размещением текста по странице так, как это делают браузеры, а обрабатывают текст по мере поступления.
Чтобы составить представление о том, как выглядит документ глазами робота, достаточно в браузере открыть HTML код документа. Или воспользоваться скриптом симулятора поисковой системы. http://www.delorie.com/web/ses.cgi. А очередной совет будет таким: