5 нояб. 2012 г.

Нюанс при построении xpath-запроса для использования lxml

С использованием замечательной библиотеки lxml, cбор данных с web-ресурсов превратился в сплошное удовольствие. Теперь можно обойтись без муторных регулярок и получать данные с DOM-дерева.

Кто хочет ознакомится с синтаксисом запросов Xpath - Welcome

А для особо ленивых подойдет Chrome(Chromium) Debugger. Который отдает точный и правильный путь, к нужным данным. К тому же он определяет классы и потому путь может сократится к:


//*[@id="class1"]/tbody/tr[5]