Aura SE Parser

Опубликовано 09 Nov 2007 
Рубрики: Софт

Функциональные характеристики:

парсинг результатов выдачи Google, Yahoo, Live, возможность установки глубины просматриваемых страниц
парсинг всех SE по 100 ресурсов на странице
скачивание выдачи SE в gzip (архив, экономит траф)
многопоточность - произвольное число потоков на SE, отдельные списки запросов для каждой SE, параллельный парсинг нескольких SE, возможность установки таймаута потока
прокси - HTTP, установка таймаута соединения, возможность парсинга без прокси
вращение выдачи - буквы, цифры, дополнительные запросы, TLD
макроподстановки в запросах позволят увеличить КПД выходной базы практически до максимума
принудительная задержка потоков (для парсинга без прокси)
postmortem-механизм - продолжение парсинга после ребута/выключения сервера
развернутая статистика по потокам во время парсинга
фильтрация результатов на дубли, выборка из результатов по регулярным выражениям
возможность скачивания результатов парсинга в zip-архиве
Перебор цифрового диапазона в указанных пределах. Например, запрос inurl:”blog/?p=” будет выглядеть как inurl:”blog/?p=#1:100#”, т.е. этот запрос будет представлять собой 100 запросов от inurl:”blog/?p=1″ до inurl:”blog/?p=100″

Макроподстановка
запросы с включенной обработкой макроподстановок принимают вид:
запрос;leave_str;replacement;replacer;paramlist
где запрос - собственно сам запрос ;
leave_str - строка, по наличию которой в URL собранный URL остается в списке;
replacement - строка, которую нужно заменить;
replacer - строка, на которую произведется замена;
paramlist - список параметров в URL (через запятую), которые необходимо удалить. Если нужно удалить все параметры, тут нужно поставить символ * (звездочка).

Пример запроса: inurl:”guestbook.php”;guestbook.php;action=view;action=add;sid,page,p

Эта макроподстановка означает, что в SE будет послан запрос inurl:”guestbook.php”, причем будут оставлены лишь те URL, в которых присутствует строка guestbook.php. Далее, во всех URL, выдранных с этого запроса все action=add будут заменены на action=view, и будут удалены параметры с именами sid, page и p.

Написан полноценный мануал.

Переделан HTTP-движок, парсинг ускорился примерно в 1.5 раза.

Системные требования:

UNIX-подобная операционная система
Perl 5.8.6 и выше
модули Byteloader, Compress::Zlib, Uncompress::Gunzip, CGI, CGI::Carp, POSIX, Fcntl, LWP::UserAgent
для “начального” уровня (до 50 потоков) - CPU до 1ГГц, до 256 Мб RAM
для “среднего” уровня (50-200 потоков) - CPU 1-2ГГц, 256-1024 Мб RAM
для “промышленного” уровня (более 200 потоков) - CPU 2ГГц и выше, 1024 Мб RAM и выше

Комментарии

Отзывов (2) на «Aura SE Parser»

  1. Artur 09 Jan 2008 5:26 pm

    А почему бегун используете? Мне РСЯ неплохую прибыль приносит. клики дорогие и т.д. средняя цена клика 20-29 р. максимальная цена была 31,80

  2. admin 11 Jan 2008 1:30 am

    Этот блог не принял РСЯ, посещаемость блога всего 40-50 хостов, маловато.

Оставьте свой отзыв