banner_nika_hozyaike      banner_pos_bekker     banner_specpredl_roznica_2

Ссылка Juice Hack для файлов PDF

  1. SEO последствия
  2. Взломать
  3. Способ 1
  4. Способ 2
  5. Результаты теста
  6. Долгосрочные наблюдения
  7. Практическое применение
  8. Будущие исследования
  9. Рейтинг цитирования PageRank: наведение порядка в Интернете
  10. Математические свойства и анализ Google PageRank
  11. Рейтинг веб-границы
  12. ЗАПОМИНАНИЕ НА ПРОБЛЕМУ ПАГЕРАНКА
  13. PAGERANK COMPUTATION, с особым вниманием к висящим узлам
  14. Влияние висячих узлов на сети цитирования
  15. Google PageRank
  16. Глубже внутри PageRank
  17. Дан Петрович

Документы PDF широко распространены в Интернете. Быстрый поиск вернется один миллиард результатов из индекса Google, и почти все эти документы будут иметь исходящие ссылки. Удивительно все доказательства До сих пор предполагается, что по своей структуре документы PDF не распространяют сигналы ссылок, как документы HTML.

В соответствии с теория графов связей , входящие ссылки PDF-документы, полученные классифицируются как свисающие ссылки и PDF обрабатываются как свисающие узлы , Это связано с отсутствием допустимых исходящих ссылок в этом типе файла.

Google обрабатывает граф ссылок исключает висячие узлы в начальном цикле расчета, консолидируя их значения во вторичном прогоне. Влияние на точность и характер PageRank висячих узлов остается неясным.

Влияние на точность и характер PageRank висячих узлов остается неясным

Вот пример PDF слайд-шоу с гостевой лекции, которую я читал в Университете Гриффита в прошлом году. URL имеет PageRank 2, это индексированный , Ссылка на мой сайт в Кеш гугл даже отображает как чистый HTML. Можно предположить, что, поскольку они могут интерпретировать ссылки PDF и преобразовывать их в HTML, они также могут использовать их как часть своего графа ссылок.

Я отправился на поиски любых ссылок и разъяснений, сделанных непосредственно Googlers, и обнаружил следующее:

«Мы действительно обрабатываем PDF-файлы. Я не буду говорить о том, проходят ли ссылки в PDF-файлах PageRank . Но хороший способ думать о PDF-файлах заключается в том, что они в некотором роде похожи на Flash в том смысле, что они не являются форматом файлов, присущим и присущим Интернету, но они могут быть очень полезны. Точно так же, как мы пытаемся найти полезный контент в файле Flash, мы пытаемся найти полезный контент в файле PDF.

В то же время пользователям не всегда нравится отправка в PDF. Если вы можете сделать свой контент в формате Web-Native, таком как чистый HTML, это часто будет немного более полезным для пользователей, чем просто чистый файл PDF ».

Источник: Мэтт Каттс, Каменный Храм Консалтинг

Основные моменты притон Джона Мюллера 14 февраля и 24 февраля Основные моменты притон Джона Мюллера 14 февраля и 24 февраля.
Марк Трафаген через Стива Мартина

«Джон Мюллер говорит, что Google будет читать ссылки в любом файле (pdf, xls, doc и т. Д.), Но не будет следовать за ними со ссылками. Только надлежащие ссылки в файлах с тегами HTML-якоря пропустят сок ссылок. «

Источник: https://plus.google.com/+MarkTraphagen/posts/aAeAY13ujHx

Из этого я делаю вывод, что ссылки в формате PDF лучше по сравнению с URL-адресами, найденными в файлах Flash или JavaScript. Как и в случае ссылок rel = ”nofollow” и письменных URL-ссылок, Google будет использовать ссылки PDF для обнаружения документов, но они не будут обрабатываться так же, как веб-ссылки HTML.

SEO последствия

Веб-мастера, надеющиеся максимизировать ценность входящих ссылок, должны убедиться, что ссылки идут на их HTML-ресурсы. Любые входящие ссылки, полученные PDF-файлами, помогут ранжировать сам документ, но сигналы не будут поступать на остальную часть веб-сайта издателя, несмотря на наличие ссылок в PDF-документе.

Иллюстрация: PDF-документ получает PageRank от 3 входящих ссылок, однако ссылка в PDF-документе не передает PageRank его HTML-аналогу, который, в свою очередь, перенаправляет его на остальную часть сайта и обратно в остальную часть сети через любые внешние исходящие ссылки. Накопленный PageRank остается «пойманным» в документе PDF.

Я опубликовал множество материалов в формате PDF, считая его эффективным контейнером контента и средством получения ссылок. Они были общий , состоялся , распределенный , встроенные, связаны и даже показали PageRank , Всего мои PDF-файлы привлекли 180 органических ссылок из 109 доменов . Я ожидал, что остальная часть моего сайта получит пользу от ссылок, указывающих на PDF, которые, в свою очередь, ссылаются на другие части моего сайта.

Чтобы понять, что все входящие ссылки на мои PDF-файлы на самом деле не помогают остальной части моего сайта, я чувствую себя немного в гуще событий. Я должен был придумать решение.

Взломать

Идея нашего взлома пришла от Мартина Рида, который предложил заменить документ PDF на его HTML-аналог, заменив его в результатах поиска и, возможно, освободив PageRank, полученный через входящие ссылки. Затем мы будем передавать сигналы ссылок на остальную часть сайта, используя надлежащие ссылки HTML в канонизированном документе.

Иллюстрация: PDF канонизирован по отношению к своему HTML-аналогу. Ссылки, указывающие на PDF-документ, теперь вносят свой вклад в PageRank HTML-страницы, которая затем может передать его остальной части сайта.

Способ 1

Переключатель канонизации .htaccess:

<Files "Choose-Dejan-SEO.pdf"> Ссылка для добавления заголовка '<https://dejanseo.com.au/media/html/Choose-Dejan-SEO/>; rel = "canonical" '</ Files>

Способ 2

Переключатель канонизации заголовка .php:

заголовок («Content-Type: application / pdf»); заголовок ('Ссылка <https://dejanseo.com.au/media/html/Choose-Dejan-SEO/>; rel = "canonical"'); ReadFile (Выбрать-Деяна-SEO.pdf ');

Результаты теста

Наш тестовый URL был старая брошюра , проиндексирован, кэширован и показывает панель инструментов PageRank 5. Конечный результат был успешным canonicalisation к HTML эквивалент в результатах поиска передача социальных сигналов (+ 1с).

Снимок экрана: HTML-страница теперь отображается в результатах поиска вместо PDF.

Отслеживая действия Googlebot в отдельном эксперименте, мы доказали, что Google будет использовать ссылки PDF для обнаружения новых страниц и в конечном итоге индексировать их. К сожалению, TBPR еще не обновился (и может никогда не обновиться).

Долгосрочные наблюдения

Наш первый эксперимент с PDF-ссылкой был проведен в 2012 году и включал Научно-исследовательская работа (PageRank 4) с две исходящие ссылки одним из которых был наш тестовая страница , Естественно, в то время наша тестовая страница нигде не посещалась и не имела ссылки. За более чем два года тестирования PDF не смог перенести видимое количество PageRank на нашу тестовую страницу. Если бы это была ссылка HTML, целевая страница получила бы в результате PageRank 3 или, по крайней мере, PageRank 2, в зависимости от того, является ли это сильный или слабый округленный PR4 (например, 3,6 - 4,4).

Практическое применение

Большинство наших СМИ обслуживается через CDN. После проверки dejanseo.com.au в Инструментах Google для веб-мастеров мы узнали обо всем трафике и ссылках, непосредственно связанных с нашими ресурсами CDN, и сразу же решили это исправить.

На скриншоте выше вы можете видеть, что Google выбрал PDF версия из нашего ссылка отменить руководство по инструменту и это был PDF, который привлек ссылки, а не наш HTML-файл:

Снимок экрана: Инструменты Google для веб-мастеров для нашего поддоменов CDN.

Это 121 ссылка из 52 различных доменов, идущая в неправильном направлении. Мы хотели изменить это и применили вышеупомянутый хак к нашему файлу .htaccess, и переключение произошло в течение нескольких дней. Теперь это наша HTML-страница вместо этого он обнаруживается и связывается, и мы уже видим запросы, появляющиеся в поисковом трафике нашего основного домена:

Теперь это   наша HTML-страница   вместо этого он обнаруживается и связывается, и мы уже видим запросы, появляющиеся в поисковом трафике нашего основного домена:

Естественно, что после канонизации поисковый трафик CDN значительно сократился, поскольку Google переключил результаты поиска на наш основной домен:

Естественно, что после канонизации поисковый трафик CDN значительно сократился, поскольку Google переключил результаты поиска на наш основной домен:

Будущие исследования

Если PageRank висячих узлов оказывается оценкой постобработки и «косметическим» значением на панели инструментов PageRank, существует вероятность того, что эти узлы могут быть «стерильными» с точки зрения их способности передавать сигналы канала независимо от канонизации или перенаправления.

Был запланирован дополнительный эксперимент для проверки влияния канонизированных PDF-ссылок на ранжирование. Мы опубликуем результаты в 2015 году.

Рейтинг цитирования PageRank: наведение порядка в Интернете

Ларри Пейдж

« Висячие ссылки - это просто ссылки, которые указывают на любую страницу без исходящих ссылок. […] Поскольку висячие ссылки не влияют непосредственно на ранжирование любой другой страницы, мы просто удаляем их из системы до тех пор, пока не будут рассчитаны все PageRank. После того, как все PageRank рассчитаны, их можно добавить обратно, не оказывая существенного влияния на вещи. Обратите внимание, что нормализация других ссылок на той же странице, что и ссылка, которая была удалена, немного изменится, но это не должно иметь большого эффекта. [..] После того, как веса сблизились, мы добавляем висячие ссылки и пересчитываем рейтинг. Обратите внимание, что после добавления висячих ссылок нам нужно выполнить итерацию столько раз, сколько необходимо для удаления висячих ссылок. В противном случае некоторые из свисающих ссылок будут иметь нулевой вес. «

https://dejanseo.com.au/wp-content/uploads/2012/04/The-PageRank-Citation-Ranking-Bringing-Order-to-the-Web.pdf

Математические свойства и анализ Google PageRank

Ilse CF Ipsen, Rebecca S. Wills

«Если у веб-страницы нет исходящих ссылок, то строка i из H равна нулю. Например, веб-страница, которая называется висящим узлом, может быть файлом PDF или страницей, ссылки на которую еще не просканированы ».

http://mira.sai.msu.ru/~ Мегера / документы / IR / поиск / PageRank / cedya.pdf

Рейтинг веб-границы

Надав Эйрон, Кевин С. Маккарли, Джон А. Томлин

«Другая причина для висячих узлов - страницы, которые действительно не имеют ссылки. Например, большинство файлов PostScript и PDF в Интернете не содержат встроенных ссылок, и, тем не менее, содержимое имеет относительно высокое качество. URL-адрес также может быть висящей страницей, если он имеет метатег, указывающий, что ссылки не должны переходить со страницы, или если он требует аутентификации ».

http://meyer.math.ncsu.edu/Meyer/PS_Files/ReorderingPageRank.pdf

ЗАПОМИНАНИЕ НА ПРОБЛЕМУ ПАГЕРАНКА

ЭМИ Н. ЛАНГВИЛЛ И КАРЛ Д. МЕЙЕР

«Хорошо известно, что многие подмножества в Интернете содержат большую долю висячих узлов, то есть веб-страниц без исходящих ссылок. Ниспадающие узлы могут возникать из многих источников: страница, содержащая изображение, файл PostScript или pdf ; страница таблиц данных; или страницу, ссылки которой еще не просканированы пауком поисковой системы. Эти висячие узлы могут представлять философские проблемы, проблемы с памятью и вычислительные возможности для поисковой системы, такой как Google, которая использует систему ранжирования для упорядочивания найденных веб-страниц ».

«Теперь мы переходим к философской проблеме наличия висячих узлов. В одной из своих ранних работ [2] Brin et al. сообщают, что они «часто удаляют висячие узлы во время вычисления PageRank, а затем добавляют их обратно после слияния PageRank». Из этого расплывчатого утверждения трудно сказать, как именно Brin и Page вычисляют PageRank для висячих узлов. Тем не менее, удаление висящих узлов в любое время во время метода питания не имеет интуитивного смысла. Некоторые висячие узлы должны получить высокий PageRank. Например, очень авторитетный файл PDF может иметь много ссылок из уважаемых источников и, следовательно, должен получить высокий PageRank. Простое удаление висячих узлов несправедливо смещает вектор PageRank ».

http://meyer.math.ncsu.edu/Meyer/PS_Files/ReorderingPageRank.pdf

PAGERANK COMPUTATION, с особым вниманием к висящим узлам

ILSE CF IPSEN И TERESA M. SELEE

«Файлы изображений или pdf-файлы , а также не просканированные или защищенные страницы не имеют ссылок на другие страницы. Эти страницы называются висячими узлами, и их количество может превышать количество не болтающихся страниц ».

http://www4.ncsu.edu/~ipsen/ps/simax066433.pdf

Влияние висячих узлов на сети цитирования

Эрджия Ян и Ин Дин

«На языке сетевого анализа висячие узлы обозначают узлы без исходящих ссылок. С появлением Интернета концепция висячих узлов стала общей темой. Понятно, что большинство веб-страниц ссылаются на другие страницы. Но возможно, что некоторые страницы не содержат действительных гиперссылок, которые могут быть неработающими страницами (то есть теми, которые ранее содержали гиперссылки, но теперь стали «ошибкой 403/404») или мультимедийными типами данных (например, PDF , JPG, PS МОВ). »

http://www.pages.drexel.edu/~ey86/papers/issi2011_submission_157.pdf

Google PageRank

Профессор Брайан А. Дейви, Университет Ла Троб

«Проблема вызвана строкой нулей в матрице H. Эта строка нулей соответствует тому факту, что P2 является висящим узлом, то есть у него нет исходящих ссылок. Висячие узлы очень распространены в World Wide Web (например, файлы изображений, PDF-документы и т. Д.), И они создают проблему для нашего случайного веб-пользователя. Когда Вебстер входит в свисающий узел, ему некуда идти и он застрял. Чтобы преодолеть эту проблему, Брин и Пейдж заявляют, что, когда Вебстер заходит на висячую страницу, он может затем перейти на любую страницу случайным образом ».

http://www.amsi.org.au/teacher_modules/pdfs/Maths_delivers/Pagerank5.pdf

Глубже внутри PageRank

ЭМИ Н. ЛАНГВИЛЛ И КАРЛ Д. МЕЙЕР

«Страницы сети могут быть классифицированы как висячие узлы или не висячие узлы. Напомним, что висячие узлы - это веб-страницы, которые не содержат ссылок. Все остальные страницы, имеющие хотя бы одну внешнюю ссылку, называются неостанавливающимися узлами. Висячие узлы существуют во многих формах. Например, страница данных, страница с графиком постскриптума, страница с изображениями в формате jpeg, документ pdf , страница, которая была выбрана сканером, но еще не исследована - все это примеры возможных висячих узлов. По мере того, как исследовательское сообщество перемещает все больше и больше материалов онлайн в виде файлов препринтов, докладов, слайдов и технических отчетов в формате pdf и postscript, доля висячих узлов растет. Фактически, для некоторых подмножеств Интернета, висячие узлы составляют 80% страниц коллекции ».

http://www.cems.uvm.edu/~tlakoba/AppliedUGMath/for_talks/DeeperInsidePageRank.pdf

Примечание: я обратился к соавтору, Эми Лэнгвилл, и спросил ее, думает ли она, что современный Google может передавать ссылки PDF сегодня по-другому по сравнению с тем, что было написано более десяти лет назад.

Примечание: я обратился к соавтору, Эми Лэнгвилл, и спросил ее, думает ли она, что современный Google может передавать ссылки PDF сегодня по-другому по сравнению с тем, что было написано более десяти лет назад

Эми согласилась с моими наблюдениями за тем, что Google использует ссылки в формате PDF только для обнаружения URL, хотя она и заявляла, что у нас нет веских доказательств, подтверждающих это.

Дан Петрович

Дэн Петрович, управляющий директор DEJAN, является самым известным именем Австралии в области поисковой оптимизации. Дэн - веб-автор, новатор и уважаемый спикер индустрии поиска.

Больше сообщений - Веб-сайт

Наш магазин

Сезонные товары

Icon    Доставка в течение дня
Icon    Работаем с 09:00 до 18:00 кроме выходных
Icon    Возврат в течении 14 дней
Icon    Гарантия на все товары