Как написать этот кроулер на php?
Мне нужно создать php скрипт .
Идея очень проста:
Когда я отправляю ссылку блогпоста на этот php скрипт, то веб-страница обходит и первое изображение с титульной страницей сохраняется на моем сервере.
Какую функцию PHP я должен использовать для этого искателя ?
4 ответа:
Use PHP Simple HTML DOM Parser
// Create DOM from URL $html = file_get_html('http://www.example.com/'); // Find all images $images = array(); foreach($html->find('img') as $element) { $images[] = $element->src; }
Теперь
$images
массив содержит ссылки на изображения данной веб-страницы. Теперь вы можете хранить желаемое изображение в базе данных.
HTML Parser: HTMLSQL
Особенности: вы можете получить внешний html-файл, http или ftp-ссылку и проанализировать содержимое.
Ну, вам придется использовать довольно много функций:)
Но я собираюсь предположить, что вы спрашиваете конкретно о поиске изображения, и сказать, что вы должны использовать DOM parser, как простой HTML DOM Parser, а затем свернуться, чтобы захватить src первого элемента img.
Я бы использовал file_get_contents() и регулярное выражение для извлечения первого атрибута тегов изображений
src
.CURL или HTML-парсер в этом случае кажутся излишними, но вы можете проверить это.