Роботы ссылки / страницы логика в PHP

я пишу основные поисковому роботу, что он просто кэширует страницы с PHP.

Все это делает использование get_file_contents, чтобы получить содержимое веб-страницы и regex, чтобы получить все ссылки <a href="URL">DESCRIPTION</a> - в данный момент она возвращает:

Array {
[url] => URL
[desc] => DESCRIPTION
}

проблема, которую я веду здесь, выясняя логика, лежащая в определении того, является ли ссылка на страницу в локальной или sussing, насколько это может быть в совершенно другой локальный каталог.

Это может быть любое количество комбинаций: т.е.. href="../folder/folder2/blah/page.html" или href="google.com" или href="page.html" - возможности безграничны.

Что бы быть правильный алгоритм подхода к этому? Я не хочу потерять все данные, которые могут быть важными.

Найдено 3 ответа:

Web crawler links/page logic in PHP

http://stackoverflow.com/questions/361285/web-crawler-links-page-logic-in-php

Посмотреть решение →