19 февр. 2013 г.

Регулярка для поиска ссылок на странице

Для получения полного урла, вы можете использовать эту регулярку:
(https?://([-\w\.]+)+(:\d+)?(/([\w/_\.]*(\?\S+)?)?)?)
Заметьте, если вы работаете пайтоновским модулем re и методом findall, то на выходе у вас будет список, внутри которого - кортеж, который включит в себя:
1) Полный урл. К примеру http://test.ru/test_page.htm
2) Только домен. К примеру test.ru
3) Страницу со слешом. К примеру /test_page.htm
4) Только страницу. К примеру test.htm

Комментариев нет:

Отправить комментарий