Эффективный метод удаления дублей страниц

Добрый день, уважаемые читатели! Сегодня мы поговорим об очень важном моменте в настройке блога: а именно удалении дублированного контента или дублей страниц и о правильной настройке блога, чтобы эти дубли больше не появлялись.

Я давно пыталась найти решение этой проблемы. Информации в Интернете много, но она однотипна и по большей части ошибочна.

Это я проверила на себе, так как использовала способы описанные в различных статьях, но от этого дублей меньше не становилось. Но благодаря одному блоггеру решение было найдено. Итак, обо всем по порядку.

Вы узнаете:

  • что такое дубли страниц;
  • как проверить блог на наличие дублей;
  • как от них избавиться.

Что такое дубли страниц

Дублированный контент создается, когда одна и та же страница доступна по нескольким адресам.

Дубли могут создаваться за счет внешних и внутренних факторов.

  • К внешним фактором относится — воровство контента. Когда кто-то скопировал Вашу статью, а она еще не успела проиндексироваться, то она становится дублем. Выход здесь один защищать свои статьи от копирования всеми возможными способами и ускорять их индексацию.
  • Но дубли создает и Ваш движок WordPress. Это классная платформа для ведения блога, но и у нее есть недостатки.

Если вы перейдете в рубрику, где находится нужная вам статья, то увидите следующую ссылку:

А если будете искать статью с помощью меток или тегов, то увидите следующее:

 А анонс на главной странице будет иметь следующий адрес:

 Все эти ссылки создают дубли страниц. И это еще не все проблемы с дубликатами страниц.

Как найти дубли страниц

В этом вам помогут инструменты для Вебмастеров от Яндекса и Гугл. О них я уже упоминала в этой статье. И если вы еще не зарегистрировали в них свой блог, то очень советую это сделать.

В Яндексе выбираете раздел «Индексирование сайта» →»Страницы в поиске»:

И смотрите, какие ссылки находятся в индексе и нет ли дублей. У меня было около 50 дублирующих ссылок. О том, что с ними делать, вы узнаете чуть позже.

Также не забудьте проверить ссылки и в инструментах для вебмастеров Google:

 Но если тут все в порядке, то это не значит, что дублей нет. Особенно это качается Гугл. У него кроме основного индекса есть еще и дополнительный (Supplemental Index или Сопли). И вот туда он отправляет очень много ссылок. Они не появляются в основной выдаче, но очень сильно мешают продвижению, так как Google может наложить фильтр за дублированный контент.

Чтобы проверить, есть ли у Вас дубли наберите в поисковой строке: site:domhozka.ru 

Разумеется Вы указываете домен Вашего блога.

Смотрите, что получается у меня:

Найдено 1890 ссылок, хотя должно быть всего 130 не более. Это значит, что на блоге полно дублей. Перейдите на последнюю страницу и нажмите «Отобразить скрытые данные»:

Снова перейдите ближе к концу и Вы увидите эти дубли:

На скриншоте Вы видите дубли, которые создаются, когда пользователи отвечают на чей-то комментарий. И если у Вас на блоге происходит активное общение, то дубли могут разрастаться, как снежный ком.

О том, как удалить дубли replytocom я расскажу отдельно чуть дальше.

Также Вы можете проанализировать Ваш сайт с помощью сервиса seolib.ru (экспресс-анализ). Он покажет сколько процентов ссылок находится в дополнительном индексе. И если Вы увидите такую картину:

То это опять же говорит, о наличии дублей.

Если в ссылке присутствуют переменные: replytocom, feed, trackback, attachement, attachement, page, category, то знайте, что это дубли. Чтобы проверить сколько ссылок с определенной переменной есть у Вас, добавьте после названия сайта переменную, например, site:domhozka.ru replytocom и нажмите на показать скрытые результаты. И так с каждой переменной.

Как удалить дублированный контент

В блогосфере было принято закрывать дубли с помощью файла robots.txt. Этим способом пользуются 99% блоггеров и пользовалась и я.

Но это не решает проблему, а наоборот создает ее. Так как Google не реагирует на команды в роботсе, вернее реагирует не так, как нам надо. Он видит, что страница закрыта от индексации и так как не знает, что это за страница на всякий случай отправляет ее в дополнительный индекс. Теперь Вы поняли откуда берутся дубли? Все из-за неправильного robots.txt.

Нельзя закрывать дубли с помощью robots.txt. Конечно, это не означает, что теперь этот файл стал не нужным.

Нет для того, чтобы Ваш блог индексировался, он необходим, но в нем должно быть как можно меньше информации. Мой robots.txt вы можете посмотреть здесь. А дубли стоит закрывать с помощью других инструментов.

О которых я сейчас и расскажу.

Главное зеркало сайта

Определите главное зеркало сайта. Зеркала — это сайты, которые являются полными или частичными копиями, например domhozka.ru и www.domhozka.ru.

Поисковые системы определяют данные зеркала, а затем склеивают их  и выбирают главное на свое усмотрение, если Вы не подсказали им, какой сайт Вы хотите сделать главным.

Для этого в файле robots прописывается директива: Host: domhozka.ru

Вы можете указать домен с www, если хотите сделать его главным зеркалом.

Далее Вы идете в инструменты Вебмастеров и указывает главное зеркало там. В Инструментах от Яндекса Вы выбираете:

Настройка индексирования → Главное зеркало:

В инструментах Гугл Вы нажимаете на шестеренку в правом верхнем углу и выбираете Настройки сайта:

Имейте в виду, что в роботсе и в инструментах должно быть указано одно и то же главное зеркало.

Кроме этого можно настроить редирект 301 в файле htaccess

Я использую следующий вариант редиректа с www. domhozka.ru на домен без www:

RewriteCond %{HTTP_HOST} ^www\.(.*) [NC]
RewriteRule ^(.*)$ http://%1/$1 [R=301,L]

301 редирект

Наиболее эффективный способ, но он требует специальных знаний. Если Вы ими не обладаете, то лучше всего будет обратиться к специалисту. Этот способ хорош еще и тем, что он помогает избавиться уже от существующих дублей.

Суть редиректа в том, что с помощью него происходит переадресация со страницы дубля на оригинальную.

Я настроила редиректы с помощью информации, полученной из курса А. Борисова «Блоггер Тысячник 3.0«

Канонический URL

Еще один вариант предупредить дубли, это указать ПС каноническую страницу, то есть страницу которая будет основной и которую нужно отправить в основной индекс

Для этого на странице следует прописать тег link с атрибутом rel=»canonical»

У меня это реализовано с помощью плагина Yoast WordPress Seo. Если Вы откроете код любой статьи, то увидите этот тег:

 Каноническая страница предотвращает появление дублей, но не приводит к удалению уже существующих.

Дубли для рубрик и тегов Вы также можете удалить с помощью seo плагина.  Заходите в Заголовки и метаданные → Таксономии и ставите галочку в строке Мета Robots в разделах Рубрики, Метки, Формат. Сохраняете изменения. Затем переходите во вкладку Остальное и отключаете Архивы автора и даты.

Дубли картинок

Теперь надо поработать над картинками. В Админ-панели WordPress зайдите в Настройки → Медиафайлы и везде поставьте 0. Это избавит Вас от дублей и сэкономит место на хостинге.

Этот способ подойдет не для всех. Сначала изучите, какие размеры картинок Вы используете на блоге. Например, если Вы выводите похожие записи с помощью миниатюр, то этот способ Вам не подойдет.

После вставки изображения в статью, удалите ссылку на нее здесь:

Эта ссылка позволяет открыть картинку в новом окне, но в большинстве случаев это необязательно. У меня на блоге я оставила ссылки только для фотографий  о Марокко, чтобы их было удобнее смотреть при желании.

У остальных изображений я эту ссылку удалила, так как нет необходимости открывать на отдельной странице, тем самым создавая дублирование контента.

В новой версии WordPress эту ссылку можно удалить сразу после загрузки изображения. Просто проследите, чтобы в Настройках изображения в графе Ссылка стояло: нет. 

Кроме этого стоит удалить ненужные картинки, которые накопились у Вас на хостинге. Сделать это очень легко с помощью плагина DNUI.

Но главную проблему представляют древовидные комментарии, так их больше всего.

Дубли Replytocom

Данные дубли создаются из-за кнопочки Ответить в комментариях. Как же от них избавиться?

  1. Отключить древовидные комментарии. Самый простой способ, но это затруднит общение с читателями. И возможно приведет к уменьшению их активности на блоге, а значит ухудшит поведенческие факторы. О ПФ читайте тут. Кстати, еще один важный момент в настройках комментариев никогда не ставьте галочку в графе Разбивать комментарии на страницы. Это опять же создаст дублированный контент.
  2.  Удалить переменные replytocom с помощью плагина Seo by Yoast ( раздел Постоянные ссылки), но если у пользователя отключен Java-script, он не сможет ответить на комментарий.
  3. Но есть способ лучше  и о нем рассказал Александр Борисов, кстати это и есть тот блоггер, который первым нашел решение для борьбы с дублями. Поэтому очень рекомендую прочитать его статью по борьбе с replytocom.

Надеюсь, статья была для Вас полезной и данная информация поможет улучшить позиции Вашего блога. У меня после применения этих знаний трафик на блоге вырос в 2 раза!

С уважением, Евгения Куварина

Понравилось? Расскажи друзьям!


Обсуждение: 56 комментариев
  1. Алёна Семёнова:

    Мда… Как сложно жить, сказала одна смешная актриса. 😕 Спасибо, Женя. Тебе можно платные услуги предлагать по поиску на других блогах дублированного контента.
    😎

    • Евгения Куварина:

      Ален, я еще со своим не разобралась окончательно 🙂

    • Алёна Семёнова:

      Жень, если что, я первая в очереди на удаление дубляжа… 😀

    • Евгения Куварина:

      Договорились 🙂

  2. Samnit:

    а у меня вот такая картинка в роботе:
    Disallow: /wp-admin/
    Disallow: /wp-includes/

    видимо, я второй в очереди 🙂

    • Евгения Куварина:

      Валерий, есть мнение, что чем меньше в роботсе прописано, тем лучше и все дубли стоит закрывать средствами движка, но как все закрыть только средствами движка я не знаю, поэтому и пользуюсь роботс. Стоит проверить, какие ссылки находятся в индексе и если нет ничего лишнего, то так и оставить

  3. Алех:

    Да уш в своё время получался я с этими дублями, но сейчас вроде всё нормально.

    Хотя меня пугает следующее: Загружено роботом 257-> Исключено роботом 112-> Документ запрещен в файле robots.tx 108

    Зачем он их вообще загружает? ведь запрещено!

    • Евгения Куварина:

      Он же их должен загрузить, чтобы понять, что с ними делать. Запрещено индексировать, но чтобы это понять робот должен сначала все просканировать

    • Алех:

      может оно и так, но зачем мне это показывать? лучше б зашел посмотрел и молчок если в роботе запрещено

  4. Наталья:

    Жень, если честно, то думала, что с роботом покончено(я с ним тоже много повозилась), ан нет похоже придется покопаться еще! 😐
    Я в очередь вставать не буду, просто если помучаю тебя в комментариях 😛

  5. Данил:

    Полезная информация. Сейчас сяду за проверку своего роботс.тхт.

  6. Наталья:

    Жень, мне конечно придется выявлять и удалять свои дубли, потому как действительно Яндекс их воспринимает как копированные, а я и думаю в чем же моя проблема!
    Очень жаль, что сразу не вникла 😐

  7. Наталья:

    Женечка, что то я сразу не убрала слово categori из за этого много дублей оказывается. Ну да ладно , сделала сейчас.
    А вот как убрать tag, если искать с помощью меток и тегов не знаю, подскажи пожалуйста, где поправить?

    • Евгения Куварина:

      Наташ, tag нужно убирать с помощью robots, нужно там запретить индексировать ссылки с tag/ Там должна быть строка: Disallow: /tag/

    • Наталья:

      Жень, чтобы долго не мучиться, я взяла твой роботс, удалила категории,удалила ссылки с картинок.
      А как быть с уже имеющимися дублями, они удалятся или нужно с ними что то делать, не пойму, Жень? 😮

    • Евгения Куварина:

      Наташ, они постепенно удалятся, если ты их закрыла в роботсе, только понадобится время.
      По роботсу я тебе на почту написала, что подправить надо

    • Наталья:

      Спасибо Женя, все сделала, как ты мне написала

  8. Наталья:

    Жень в инструментах для вэбмастеров Гугл мне еще выдали, что Файлы Sitemap отсутствуют, где мне их можно добавить?

    • Евгения Куварина:

      Наташ, ты когда в Интсрументах находишься на главной нажми на файлы sitemap (третий столбик), у тебя справа вверху появится надпись проверить/подтвердить sitemap? нажимаешь и указываешь адрес карты, сначала проверяешь, а потом уже добавляешь.

    • Наталья:

      Хорошо Жень, попробую, спасибо за подсказку 🙄

  9. Наталья:

    Жень, я тут проверяла повторно свою статью на адвего, и он мне выдал около 5 ссылок, где мой текст, и все ведут на мой сайт. Что то я раньше такого не замечала. Скажи пожалуйста, это тоже дубли страниц? 😮

    • Евгения Куварина:

      Наташ, а ты посмотрела что за ссылки? Надо их увидеть, чтобы понять

  10. Наталья:

    Жень ссылки с моего блога.
    Не могу просто понять, откуда они и есть ли это дубли страниц.
    Если сможешь, объясни Жень, если ты с этим конечно сталкивалась.

    • Евгения Куварина:

      Наташ, я с таким не сталкивалась, но дублей я тут не вижу, в адвего есть функция исключить домен, возможно, стоить прописать собственный домен, чтобы он искал только на других блогах

  11. Наталья:

    Жень, у меня включены древовидные комментарии, могут из за них быть дубли страниц? Может лучше их отключить, что скажешь? 😮

    • Евгения Куварина:

      Наташ, могут, это ссылки с replytocom на конце, проверь есть ли они, я не отключала, а только запретила их в роботс, а для гугла в инструментах вебмастера

  12. Наталья:

    Жень, а может просто их все таки отключить? Так проще по моему будет, если из за них могут быть дубли. Или эти древовидные комментарии для чего то нужны?

    • Евгения Куварина:

      Наташ, если ты их отключишь, то нельзя будет отвечать на комментарий, надо будет писать новый, а это не очень удобно для читателей.

  13. Наталья:

    Да Жень, согласна, неудобно. И еще говоря о комментариях: когда оставляют новый коммент, он оказывается почти посередине, почему то.
    Может я , копаясь, что то не так сделала?
    Замучилась я с этими роботами и прочими! В комментариях что то бардак какой то стал- непонятно из за чего. 😮

    • Евгения Куварина:

      Наташ, роботс тут ни при чем, он только указывает поисковику, что закрывать от индексации, а что нет, а на остальное не влияет. Я посмотрела, у тебя вроде все нормально с комментариями

  14. Наталья:

    Жень, скажи пожалуйста, у меня в роботсе прописано такое:
    User-agent: Mediapartners-Google
    Disallow: /yandex-direct
    Это как я понимаю для тех, у кого реклама от Гугл и Яндекс директ.
    А у меня то этого нет, может мне их нужно исключить? Или я что то не так понимаю..
    Ты меня извини пожалуйста, нагрузила тебя столькими вопросами, но разбираюсь сейчас с сайтом, так сказать, порядок навожу 🙂
    Твои ответы для меня очень важны!

    • Евгения Куварина:

      Да ничего, Наташ, задавай. Приятно быть а роли эксперта :). Да, все правильно, это для рекламы, так что эти строчки можно удалить спокойно.

    • Наталья:

      Вот я так и думала, слушай я так потихоньку тоже в эксперта превращусь 🙄
      Женечка спасибо большое, что ты у меня есть!
      Спасибо тебе за все! 🙂

    • Евгения Куварина:

      Обращайся :)!

  15. irocez:

    Также можно воспользоваться сервисом соломоно, где можно посмотреть все свои ссылки или воспользоваться программой Xenu Link Sleuth.

  16. Мозгунова Ирина:

    Прочитав Вашу статью, поняла, сколько ещё работы предстоит над совершенствованием сайтов.
    Ведь я этот файл роботс тоже у кого-то готовым взяла, даже не вникая, что там означает каждая строчка. А оказывается….Иду проверять.

    • Евгения Куварина:

      Я тоже сначала так делала, знания ведь со временем приходят.

    • Наталья:

      Многие берут файл роботс уже готовым. Ведь когда начинаешь, еще не понимаешь, что должно быть и как. Да что там говорить, файл роботс вообще загадка, и каким он должен быть в идеале не знает никто 😐

    • Евгения Куварина:

      Наташ, полностью согласна, для меня он до сих пор все еще загадка, к тому же в интернете нет единого мнения, каким он должен быть на самом деле.

  17. Creeper:

    Одной из наиболее актуальных проблем веб-мастеров сегодня является дублирование контента внутри сайта

  18. Наталья:

    Ох, и намучилась я с этими дублями, впрочем как и многие. наверное 🙁

  19. Александр:

    Женя, спасибо за статью. Но у меня по данному рецепту не получилось внести изменения в файл htaccess.
    Постоянно выскакивает ошибка 500. Александр Борисов также не смог помочь…

    И ещё вопрос. Какой используешь плагин для комментариев? И удалось ли избавиться от реплитукомов?

    • Евгения Куварина:

      Я обращалась к Сергею Зайцеву, он мне настроил комментарии с помощью кода. Replytocom постепенно исчезают

  20. Александр:

    А как мне его найти?
    Женя, это код примерно как у А.Борисова? 🙂

    • Евгения Куварина:

      Да, думаю такой же, та как настраивал один и тот же человек, хотя для каждого шаблона нужны свои настройки, контакты Сергея можно найти на сайте irinazaytseva.ru или напишите мне по обратной связи и я все отправлю

  21. Нонна:

    Здравствуйте. Я удаляла все дубли с сайта как описывал Борисов и вы, но что то они не уменьшаются когда в поиске смотрю. А еще мне хотелось бы узнать как избавиться от дублей картинок их у меня так же много.

    • Евгения Куварина:

      А у меня дубли уже в 2 раза уменьшились, это медленный процесс. В статье я и про картинки рассказываю

  22. Константин:

    Здравствуйте, Евгения! Расскажите, пожалуйста подробнее про то, зачем у картинок везде ставить размер равный 0. В статье сказано, что это нужно делать, но не сказано зачем, точнее как этот прием работает и к какому результату проводит. В общем, я не уловил.

    • Евгения Куварина:

      Константин, Вы загружаете на хостинг 1 картинку, а wordpress создает несколько картинок разных размеров, тем самым занимается много места на хостинге, а также создаются дубли страниц. Чтобы этого не было и нужно поставить 0

    • Марина Саморосенко:

      Привет, Женя! Не всем подойдет проставить во всех пунктах «0».
      Например, моя тема в анонсах статей для отображения берет миниатюру 150х150. После проставления этих «ноликов», в анонсы берется основная прямоугольная картинка 700х450 и ужимается к размерам 150х150, не сохраняя пропорции. Т.е. был прямоугольник, а стал квадратик)) Картинка вытягивается! А у меня все-таки фотоблог и это уродство а нем совсем ни к чему. Лучше не советовать, не разобравшись полностью, т.к. Борисов тоже не царь и бог. Если он в платном курсе так рекомендовал, то это не значит, что так для всех будет правильно))

    • Евгения Куварина:

      Марина, я этим способом пользовалась еще за долго до изучения курса Борисова, так все проверяю на личном опыте, но согласна, что не всегда некоторые рекомендации подходят абсолютно всем, темы ведь разные и тут уж самому автору блогу решать использовать данный совет или нет

    • Руслан:

      Так Евгения же еще в статье сказала, что этот способ не подойдет если вы размещаете похожие записи с картинками =)
      Так что она не виновата — читайте внимательней.
      И конечно же, никто не царь и не бог, всё всегда нужно проверять

  23. Александр:

    Многие ребята начали писать на форумах о том, что через какое-то время тот метод перестал работать и теперь у них в поиске опять куча дублей. не знаю на сколько это правда но и у меня они начали появляться

    • Руслан:

      Значит снова нужно искать решение.
      Кстати у меня пока дубли не появляются…тьфу тьфу тьфу =)

  24. Руслан:

    По поводу картинок очень интересное решение поставить везде ноль.
    А за счет чего на хостинге появляются лишние картинки, которые нужно удалить? что-то я этого не понял.
    И еще вопрос: где в seolib находится проверка соплей в google?

    • Евгения Куварина:

      Руслан, картинки появляются, потому что wordpress создает из одной картинки сразу несколько разных размеров. В seolib в инструментах есть эксперсс анализ сайта, там и показывается сколько процентов ссылок в дополнительном индексе. У меня после принятых мер там 0%.

Поделитесь своим мнением

 

Заберите Ваш Подарок!
Блог на ordPress

Дайджест инвестора

Об инвестициях и заработке в Интернете

email рассылки Конфиденциальность гарантирована
email рассылки
Подпишись на мой канал!
Подпишись на канал
Душевные подарки на любой праздник! Заказывайте!
Давайте дружить!
Принимаем Z-Payment
© 2016 Денежный бриз