Документация по Scrapy на русском языке¶
Scrapy — это быстрый высокоуровневый фреймворк сканирование сети и парсинга веб-страниц, используемый для сканирования веб-сайтов и извлечения структурированных данных с их страниц. Его можно использовать для самых разных целей, от интеллектуального анализа данных до мониторинга и автоматического тестирования.
Получение помощи¶
Возникли проблемы? Хотим помочь!
Прочитайте ЧЗВ — у него есть ответы на некоторые общие вопросы.
Ищете конкретную информацию? Просмотрите Алфавитный указатель или Состав модуля.
Задайте или ищите вопросы на StackOverflow с scrapy тэгом.
Задайте или ищите вопросы в Scrapy subreddit.
Ищите вопросы по архивам в списке рассылки scrapy-users.
Задайте вопрос в #scrapy IRC канале,
Сообщайте об ошибках с Scrapy в issue tracker’е проекта.
Первые шаги¶
- Краткий обзор Scrapy
Узнайте, что такое Scrapy и чем он может вам помочь.
- Инструкция по установке
Устанавливает Scrapy на свой компьютер.
- Scrapy Учебник
Напишите свой первый проект Scrapy.
- Примеры
Узнайте больше, играя с готовым проектом Scrapy.
Базовые концепты¶
- Инструмент командной строки
Узнайте об инструменте командной строки, который используется для управления вашим проектом Scrapy.
- Пауки
Напишите правила сканирования ваших сайтов.
- Селекторы
Извлекайте данные с веб-страниц с помощью XPath.
- Оболочка Scrapy
Протестируйте свой код извлечения в интерактивной среде.
- Элементы
Определяет данные, которые вы хотите сканировать.
- Загрузчики элементов
Заполнить свои элементы извлечёнными данными.
- Элемент конвейера
Обработать и сохранить сканированные данные.
- Экспорт фидов
Вывести сканированные данные, используя разные форматы и хранилища.
- Запросы и ответы
Разберитесь в классах, используемых для представления HTTP-запросов и ответов.
- Извлечение ссылок
Удобные классы для извлечения ссылок со страниц.
- Настройки
Узнайте, как настроить Scrapy и увидеть все доступные настройки.
- Исключения
Просмотрите все доступные исключения и их значение.
Встроенные сервисы¶
- Логирование
Узнайте, как использовать встроенное ведение журнала Python на Scrapy.
- Сбор статистики
Соберите статистику о вашем парсере.
- Отправка электронной почты
Отправлять уведомления по электронной почте при наступлении определенных событий.
- Консоль Telnet
Проверяйте работающий поисковый робот с помощью встроенной консоли Python.
- Веб-сервис
Отслеживайте и управляйте поисковым роботом с помощью веб-службы.
Решение конкретных проблем¶
- Часто задаваемые вопросы
Получить ответы на наиболее часто задаваемые вопросы.
- Отладка пауков
Узнайте, как отлаживать типичные проблемы вашего паука Scrapy.
- Контракты пауков
Узнайте, как использовать контракты для тестирования ваших пауков.
- Общие практики
Ознакомьтесь с некоторыми распространенными практиками Scrapy.
- Широкие обходы
Настраивает Scrapy для параллельного сканирования большого количества доменов.
- Использование инструментов разработчика вашего браузера для парсинга
Узнайте, как очистить парсинг с помощью инструментов разработчика вашего браузера.
- Выбор динамически загружаемого контента
Чтение данных веб-страницы, которые загружаются динамически.
- Устранение утечек памяти
Узнайте, как найти и избавиться от утечек памяти в вашем сканере.
- Скачивание и обработка файлов и изображений
Загрузить файлы и/или изображения, связанные с вашими сканированными элементами.
- Развёртывание пауков
Развертывание ваших пауков Scrapy и запуск их на удалённом сервере.
- Расширение AutoThrottle
Регулируйте скорость сканирования динамически в зависимости от нагрузки.
- Бенчмаркинг
Проверить, как Scrapy работает на вашем оборудовании.
- Задания: приостановка и возобновление сканирования
Узнайте, как приостанавливать и возобновлять сканирование больших пауков.
- Корутины
Используйте синтаксис корутин.
- asyncio
Расширение Scrapy¶
- Обзор архитектуры
Изучите архитектуру Scrapy.
- Промежуточное ПО загрузчика
Настраивает способ запроса и загрузки страниц.
- Промежуточное ПО Spider
Настраивает вход и выход ваших пауков.
- Расширения
Расширьте Scrapy своими собственными функциями.
- Базовый API
Используйте его в расширениях и промежуточном программном обеспечении для расширения функциональности Scrapy
- Сигналы
Посмотреть все доступные сигналы и как с ними работать.
- Планировщик
Изучите компонент планировщика.
- Экспортёры элементов
Быстро экспортируйте скопированные элементы в файл (XML, CSV и т. д.).
Все остальные¶
- Примечания к выпуску
Посмотрите, что изменилось в последних версиях Scrapy.
- Внесение вклада в Scrapy
Узнайте, как внести свой вклад в проект Scrapy.
- Управление версиями и стабильность API
Узнайте о версиях Scrapy и стабильности API.