Способ обнаружения припаркованной страницы?


Кто-нибудь знает способ программно обнаружить припаркованную веб-страницу? То есть те страницы, которые вы случайно вводите (или иногда намеренно), и они размещаются службой парковки доменов, на которых нет ничего, кроме рекламы.

Я работаю над сетью ссылок и хочу убедиться, что сайты, срок действия которых истекает, не будут захвачены кем-то другим, а затем будут заблокированы.

4 10

4 ответа:

Вот тест, который, я думаю, может поймать приличное их количество. Он использует тот факт, что вы на самом деле не хотите иметь реальные веб-сайты для ваших припаркованных доменов. Он ищет подстановочных знаков как поддомен и путь. Допустим, у нас есть этот URL в нашей системе

Http://www.example.com/method-to-detect-parked .

Сначала я проверю фактический URL и хэширую его или возьму копию для сравнения.

Моей второй проверкой будет:

Http://random.example.com/random

Если он соответствует исходной ссылке или даже успешно работает, у вас есть довольно хороший индикатор того, что страница припаркована. Если это не удастся, я могу проверить и поддомен, и путь по отдельности. Если страница случайным образом изменяет некоторые элементы, вы можете выбрать несколько элементов для сравнения. Например, составьте список ссылок, включенных в страницу, и сравните их или, возможно, тег заголовка.

Я бы сказал, что вам придется изучить записи WHOIS для рассматриваемых сайтов и/или фактическое содержание страниц и разработать некоторые эвристики относительно того, что представляет собой "припаркованная страница".

Возьмите goooogle.com , глядя на их WHOIS запись показывает, что они принадлежат "защита конфиденциальности" и что их DNS-серверы ns1/ns2.fastpark.net. если вы посмотрите на источник для сайта, они достаточно глупы, чтобы иметь CSS-файл с именем "style_park.CSS" :)

В общем, я не думаю, что вы сможете придумать общий способ сделать это. Вы, вероятно, в конечном итоге получите какую-нибудь постоянно развивающуюся базу правил или черный список

Вы можете просто положиться на своих пользователей, чтобы "сообщить об этой ссылке"... что поставит его в очередь на проверку позже?

Посмотрите на дату создания записи dns / whois и сравните ее с датой добавления ссылки. Если DNS более новая, то это ссылка, которая нуждается в ручной проверке.

Или: проверить http://example.com/ и http://example.com/xxxxxxrandomstringxxxxx . Если эти две страницы идентичны, у вас есть какая-то проблема, которая требует ручной проверки. Либо основная страница, на которую вы хотите создать ссылку, сломана, либо домен припаркован, и все страницы возвращают одно и то же значение. Этот тест не является 100%, потому что некоторые припаркованные страницы эхом возвращают элементы из URL.

Если вы просто хотите проверить существующий веб-сайт, такой сервис, как http://www.linkalarm.com/ делает это хорошо.