Получить список URL-адресов с сайта [закрыто]


Я развертываю сайт замены для клиента, но они не хотят, чтобы все их старые страницы заканчивались 404s. сохранение старой структуры URL было невозможно, потому что это было отвратительно.

поэтому я пишу обработчик 404, который должен искать старую запрашиваемую страницу и делать постоянное перенаправление на новую страницу. Проблема в том, что мне нужен список всех старых URL-адресов страниц.

Я мог бы сделать это вручную, но мне было бы интересно, если есть какие-либо приложения, которые предоставят мне список относительный (например: / page / path, а не http:/.../page / path) URL-адреса только что заданной домашней страницы. Как паук, но тот, который не заботится о содержании, кроме как найти более глубокие страницы.

8 73

8 ответов:

Я не хотел отвечать на свой собственный вопрос, но я просто подумал о запуске генератора sitemap. Первый я нашел http://www.xml-sitemaps.com имеет хороший текстовый вывод. Идеально подходит для моих нужд.

do wget -r -l0 www.oldsite.com

потом просто find www.oldsite.com откроет все URL-адреса, я считаю.

в качестве альтернативы, просто подавайте эту пользовательскую не найденную страницу на каждый запрос 404! Т. е. если кто-то использовал неправильную ссылку, он получал страницу, сообщающую, что страница не найдена, и делал некоторые подсказки о содержании сайта.

вот список генераторов sitemap (из которого, очевидно, вы можете получить список URL-адресов с сайта):http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

Веб-Карта Сайта Генераторы

ниже приведены ссылки на инструменты, которые генерируют или сохранять файлы в XML-формат файла sitemap, открытый стандарт, определенный на sitemaps.org и поддерживается поисковыми системами, такими как Ask, Google, Microsoft Live Search и Yahoo!. Файлы Sitemap, как правило, содержат коллекцию URL-адреса на веб-сайте вместе с некоторыми метаданными для этих URL-адресов. Этот следующие инструменты обычно генерируют" веб-тип " XML Sitemap и URL-список файлы (некоторые могут также поддерживать другие форматы).

обратите внимание: Google не тестировал и не проверял функции или безопасность программного обеспечения третьих лиц, перечисленных на этом сайте. Пожалуйста направляйте любые вопросы, касающиеся программного обеспечения, автору программного обеспечения. Мы надеемся, что вам понравятся эти средства!

серверные программы

  • Enarion phpSitemapsNG (PHP)
  • Генератор карт сайта Google (Linux / Windows, 32 / 64bit, open-source)
  • Outil en PHP (французский, PHP)
  • Perl Sitemap Generator (Perl)
  • Python Sitemap Generator (Python)
  • простые Sitemaps (PHP)
  • SiteMap XML Dynamic Sitemap Generator (PHP) $
  • генератор Sitemap для OS/2 (REXX-скрипт)
  • XML Sitemap Generator (PHP) $

CMS и другие плагины:

  • ASP.NET - Sitemaps.Net
  • DotClear (Испанский)
  • DotClear (2)
  • Drupal
  • Шаблоны электронной коммерции (PHP) $
  • Шаблоны электронной коммерции (PHP или ASP) $
  • LifeType
  • MediaWiki Sitemap generator
  • mnoGoSearch
  • OS Commerce
  • phpWebSite
  • Plone
  • RapidWeaver
  • Textpattern
  • vBulletin
  • Wikka Wiki (PHP)
  • WordPress

Загружаемые Инструменты

  • GSiteCrawler (Windows)
  • GWebCrawler & Карта Creator (Только Для Windows)
  • G-Mapper (Windows)
  • Inspyder Sitemap Creator (Windows) $
  • IntelliMapper (Windows) $
  • Microsys A1 Sitemap Generator (Windows) $
  • Rage Google Sitemap Automator $ (OS-X)
  • кричащая лягушка SEO Паук и Карта сайта генератор (Windows / Mac)$
  • Карта Сайта Pro (Windows) $
  • Sitemap Writer (Windows) $
  • Sitemap Generator by DevIntelligence (Windows)
  • Sorrowmans Sitemap Tools (Windows)
  • TheSiteMapper (Windows) $
  • Vigos Gsitemap (Windows)
  • Visual SEO Studio (Windows)
  • Webdesignpros Sitemap Generator (Java Webstart Application)
  • Weblight (Windows/Mac) $
  • WonderWebWare Sitemap Generator (Windows)

Онлайн Генераторы/Услуги

  • AuditMyPc.com Карта Сайта Генератор
  • AutoMapIt
  • Autositemap $
  • Enarion phpSitemapsNG
  • Бесплатный Генератор Карт Сайта
  • Neuroticweb.com Карта Сайта Генератор
  • RoR Sitemap Generator
  • ScriptSocket Sitemap Generator
  • SeoUtility Sitemap Generator (Итальянский)
  • SitemapDoc
  • Sitemapspal
  • SitemapSubmit
  • Smart-IT-консалтинг Google Sitemaps XML Validator
  • Карта сайта XML Генератор
  • генератор XML-Sitemaps

CMS с интегрированными генераторами Sitemap

  • Concrete5

Google News Sitemap генераторы следующие плагины позволяют издатели для обновления файлов карты сайта Google News, вариант sitemaps.org протокол, который мы описываем в нашем Справочном центре. Кроме того к обычным свойствам файлов Sitemap, Google News Sitemaps позволяют издатели для описания типы контента, который они публикуют, а также определение уровней доступа для отдельных статей. Подробная информация о новостях Google можно узнать в нашем Справочном центре и на форумах помощи.

  • WordPress Google News плагин

Фрагменты Кода / Библиотеки

  • ASP script
  • Emacs Lisp script
  • Java-библиотека
  • Perl script
  • PHP класс
  • PHP генератор скриптов

Если вы считаете, что инструмент должен быть добавлен или удален для законного причина, пожалуйста, оставьте комментарий на форуме справки веб-мастера.

лучшее, что я нашел, это http://www.auditmypc.com/xml-sitemap.asp который использует Java, и не имеет ограничений на страницах, и даже позволяет экспортировать результаты в виде необработанного списка URL.

Он также использует сеансы, поэтому, если вы используете CMS, убедитесь, что вы вышли из системы перед запуском обхода контента.

Итак, в идеальном мире у вас будет спецификация для всех страниц вашего сайта. У вас также будет тестовая инфраструктура, которая может поразить все ваши страницы, чтобы проверить их.

вы, по-видимому, не в идеальном мире. Почему бы и нет...?

  1. создать отображение между скважиной известные старые URL-адреса и новые. Перенаправление, когда вы видите старый URL. Я бы, возможно, подумал о представлении "эта страница переместилась, это новый url это ХХХ, вы будете переориентированный вскоре."

  2. Если у вас нет карт, представит "Извините - эта страница переместилась. Это место ссылка на главную страницу " сообщение и перенаправьте их, если хотите.

  3. войти все перенаправления-особенно те, что без картографирования. С течением времени, добавить отображения для страниц, важный.

wget из окна linux также может быть хорошим вариантом, поскольку есть переключатели на spider и изменить его выход.

EDIT: wget также доступен в Windows:http://gnuwin32.sourceforge.net/packages/wget.htm

напишите паук, который читает каждый html с диска и выводит каждый атрибут "href" элемента "a" (можно сделать с помощью парсера). Имейте в виду, какие ссылки принадлежат к определенной странице (это общая задача для MultiMap datastructre). После этого вы можете создать файл сопоставления, который действует в качестве входных данных для обработчика 404.

Я бы заглянул в любое количество онлайн-инструментов генерации карты сайта. Лично я использовал этот (java на основе)в прошлом, но если вы делаете поиск google для "sitemap builder" я уверен, что вы найдете много различных вариантов.