Способ обнаружения припаркованной страницы?
Кто-нибудь знает способ программно обнаружить припаркованную веб-страницу? То есть те страницы, которые вы случайно вводите (или иногда намеренно), и они размещаются службой парковки доменов, на которых нет ничего, кроме рекламы.
Я работаю над сетью ссылок и хочу убедиться, что сайты, срок действия которых истекает, не будут захвачены кем-то другим, а затем будут заблокированы.
4 ответа:
Вот тест, который, я думаю, может поймать приличное их количество. Он использует тот факт, что вы на самом деле не хотите иметь реальные веб-сайты для ваших припаркованных доменов. Он ищет подстановочных знаков как поддомен и путь. Допустим, у нас есть этот URL в нашей системе
Http://www.example.com/method-to-detect-parked .
Сначала я проверю фактический URL и хэширую его или возьму копию для сравнения.
Моей второй проверкой будет:
Http://random.example.com/random
Если он соответствует исходной ссылке или даже успешно работает, у вас есть довольно хороший индикатор того, что страница припаркована. Если это не удастся, я могу проверить и поддомен, и путь по отдельности. Если страница случайным образом изменяет некоторые элементы, вы можете выбрать несколько элементов для сравнения. Например, составьте список ссылок, включенных в страницу, и сравните их или, возможно, тег заголовка.
Я бы сказал, что вам придется изучить записи WHOIS для рассматриваемых сайтов и/или фактическое содержание страниц и разработать некоторые эвристики относительно того, что представляет собой "припаркованная страница".
Возьмите goooogle.com , глядя на их WHOIS запись показывает, что они принадлежат "защита конфиденциальности" и что их DNS-серверы ns1/ns2.fastpark.net. если вы посмотрите на источник для сайта, они достаточно глупы, чтобы иметь CSS-файл с именем "style_park.CSS" :)
В общем, я не думаю, что вы сможете придумать общий способ сделать это. Вы, вероятно, в конечном итоге получите какую-нибудь постоянно развивающуюся базу правил или черный список
Вы можете просто положиться на своих пользователей, чтобы "сообщить об этой ссылке"... что поставит его в очередь на проверку позже?
Посмотрите на дату создания записи dns / whois и сравните ее с датой добавления ссылки. Если DNS более новая, то это ссылка, которая нуждается в ручной проверке.
Или: проверить http://example.com/ и http://example.com/xxxxxxrandomstringxxxxx . Если эти две страницы идентичны, у вас есть какая-то проблема, которая требует ручной проверки. Либо основная страница, на которую вы хотите создать ссылку, сломана, либо домен припаркован, и все страницы возвращают одно и то же значение. Этот тест не является 100%, потому что некоторые припаркованные страницы эхом возвращают элементы из URL.
Если вы просто хотите проверить существующий веб-сайт, такой сервис, как http://www.linkalarm.com/ делает это хорошо.