8 мая 2013 г.

Python, Selenium: Получаем труднодоступные капчи

При работе с современными порталами, получение капчи стало намного сложней. Теперь они генерируются динамически и даже при передаче правильных cookie и referer и попытке ее скачать, вы все равно получите другое значение, нежели было изначально.

В принципе это убивает возможности работать с ресурсом, посредством curl и httplib. Но selenium почти полностью эмилирует браузер и это нам на руку.

Как вариант мы можем скачать скрин сайта и через PIL сделать срез нужных координат. Ну и дальше полученную часть отправить на сервисы распознавания, либо вбить руками.

Как мы поступаем:
from selenium.webdriver import Firefox
from PIL import Image
 
browser = Firefox()
browser.get(' интересующий сайт ')
browser.save_screenshot('current_page')
current_page_img = Image.open('current_page')
w, h = current_page_img.size
captcha_img = current_page_img.crop((575, 505, w-155, h-1820))
captcha_img.save('captcha', 'jpeg')
Простыми словами. Мы переходим на сайт, сохраняем полный скриншот страницы. Дальше открываем его через PIL.Image и получаем высоту/ширину этого скрина. Потом с помощью crop мы делаем отсечение по координатах.

По параметрам:
575 - срез по левому краю
505 - срез от верха
w-155 - срез по правому краю, мы отсекаем данные от начальной ширины
h-1820 - срез от низа, отнимаем от начальной высоты

Ну вот и все, дальше сохраняем эту капчу и делаем с ней что хотим. Способ достаточно дубовый, но рабочий :)

Python, Selenium, Firefox: Некоторые мелочи

Изменение юзер агента:
from selenium.webdriver import Firefox, FirefoxProfile 
ff_profile = FirefoxProfile()
ff_profile.set_preference('general.useragent.override', ' нужный user agent ')
browser = Firefox(firefox_profile=ff_profile)
browser.get('http://www.whatsmyuseragent.com/')
Изменение прокси:
from selenium.webdriver import Firefox
from selenium.webdriver.common import proxy, desired_capabilities
 
ff_proxy = proxy.Proxy({ 'proxyType'  :   proxy.ProxyType().MANUAL,
                                   'httpProxy'   :   ' нужный прокси ' 
})
modif_capabilities = desired_capabilities.DesiredCapabilities().FIREFOX
ff_proxy.add_to_capabilities(modif_capabilities)
browser = Firefox(capabilities=modif_capabilities)
browser.get('http://hideme.ru/ip/')
Изменения accept-languages:
from selenium.webdriver import Firefox, FirefoxProfile  
ff_profile = FirefoxProfile()
ff_profile.set_preference('intl.accept_languages', 'ru') # ru/en
browser = Firefox(firefox_profile=ff_profile)
browser.get('http://www.vk.com') 
Изменение директории для cache:
from selenium.webdriver import Firefox, FirefoxProfile  
ff_profile = FirefoxProfile()
ff_profile.set_preference('browser.cache.disk.parent_directory', '  путь ')
browser = Firefox(firefox_profile=ff_profile)
browser.get('http://www.vk.com')