Как написать этот кроулер на php?


Мне нужно создать php скрипт .

Идея очень проста:

Когда я отправляю ссылку блогпоста на этот php скрипт, то веб-страница обходит и первое изображение с титульной страницей сохраняется на моем сервере.

Какую функцию PHP я должен использовать для этого искателя ?

4 2

4 ответа:

Use PHP Simple HTML DOM Parser

// Create DOM from URL
$html = file_get_html('http://www.example.com/');

// Find all images
$images = array(); 
foreach($html->find('img') as $element) {
       $images[] = $element->src;
} 

Теперь $images массив содержит ссылки на изображения данной веб-страницы. Теперь вы можете хранить желаемое изображение в базе данных.

HTML Parser: HTMLSQL

Особенности: вы можете получить внешний html-файл, http или ftp-ссылку и проанализировать содержимое.

Ну, вам придется использовать довольно много функций:)

Но я собираюсь предположить, что вы спрашиваете конкретно о поиске изображения, и сказать, что вы должны использовать DOM parser, как простой HTML DOM Parser, а затем свернуться, чтобы захватить src первого элемента img.

Я бы использовал file_get_contents() и регулярное выражение для извлечения первого атрибута тегов изображений src.

CURL или HTML-парсер в этом случае кажутся излишними, но вы можете проверить это.