31 дек. 2012 г.

Scrapy + MongoDB: Пишем парсер Amazon (part3)

В первой и второй части статьи, мы разработали паука, который способный собирать данные с Amazon, по запросу Books.

Теперь нам нужно организовать запись данных в MongoDB. Надеюсь она у вас установлена, если нет, то можете перейти на эту страницу и посмотреть все возможные варианты.

P.S. Как и в случае с Scrapy. На официальном сайте MongoDB содержится отличная документация. Потому, невозможно сделать полное описание этой СУБД, в рамках статьи. Мы просто ограничимся вещами, нужными для завершения нашей, ознакомительной работы...

Связка Scrapy + MongoDB удобна тем, что полученный класс item(см. вторую часть мануала) имеет JSON-подобную структуру. А MongoDB ориентируется на работу с такими данными, благодаря NoSQL архитектуре. Потому работа практически сводится к прямой передаче полученных данных, через драйвер, в базу данных.

Scrapy + MongoDB: Пишем парсер Amazon (part2)

Продолжение первой части.

Переходим в созданный вначале проект, далее в папку spiders и создадим там файл amazon_spider_books.py

Кстати, небольшое уточнение. Если мы назовем нашего паука, как и проект, то будут трудности, при импорте класса items. Нужны разные названия...

Scrapy + MongoDB: Пишем парсер Amazon (part1)

Почти все люди сталкиваются с необходимостью сбора информации. Для спецов, работающих у WEB-сфере, такая задача ставиться очень часто.

Python + community предоставляют массу интересных решений для работы, среди которых можно найти и достаточно простые библиотеки и целые комбайны. Сегодня речь пойдет о гиганте, а именно Scrapy.

В статье нереально описать все возможности, да и не нужно это. Полная документация лежит на официальном сайте продукта.

Давайте разберем базовую работу, на примере парсера Amazon. Определим сразу основные задачи:

1) Заточить скрипт под Amazon.com;
2) Собирать по запросу Books: названия товаров, ссылки на них и текущие цены;
4) Сохранить результаты в MongoDB;

30 дек. 2012 г.

Ubuntu: Связать *.py файлы c IDLE

Для начала нужно определить, какую версию вы используете. 
Для Python 2.7 - нужно использовать команду idle-python2.7.desktop
Для Python 3 - нужно использовать idle3.desktop
У меня 2.7, потому выбираю первый пример.

29 дек. 2012 г.

IDLE: Ставим темный шаблон

IDLE - отличная среда разработки на Python. Конечно функционал далеко не максимальный, к примеру, нету удобного менеджмента проектов. Но так или иначе, её можно с легкостью можно использовать, для изучения языка и написания небольших скриптов.

Многие разработчики не любят работать на светлом бекграунде, так как, при таких таких тонах, глаза очень быстро устают. К сожалению, встроенных цветовых конфигов в этой IDE нету, а править руками - муть еще та ...

Потому вам предлагается готовый конфиг, как устанавливаем: