Парсер catalog.tut.by

8 апреля, 2012

 

Для затравки начну выкладывать различного вида парсеры.
Сегодня будет парсер всех ресурсов каталога TUT.BY.
Использовать так:

  1. Отключаем поддержку JS, flash и картинки в браузере — значительно всё ускорится.
  2. Создаем скрипт iMacros с содержимым предоставленным ниже. Расширение скрипта — js.
  3. Результат парсинга будет лежать в rezparser.csv

Сам скрипт iMacrosa

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
iimDisplay('Парсим каталог tut.by');
iimSet ('PAGE', 'http://catalog.tut.by/list.phtml?form[sort]=date&form[my]=1&form[catid]=0&form[sprior]=1&s_what=&&page=1?);
 
var label = 'start';
 
while (label != 'stop')
{
iimPlay('CODE:URL GOTO={{PAGE}} \n TAG POS=1 TYPE=A ATTR=TXT:Следующая<SP>>> EXTRACT=HREF');
nextpage = iimGetLastExtract(1);
iimPlay('CODE:TAG POS=1 TYPE=HTML ATTR=* EXTRACT=HTM');
extracthtml = iimGetLastExtract(1);
 
var pattern = /<li><h3><a[^>]+href=\"([^\"]+)\"[^>]+>/gi;
 
while((find = pattern.exec(extracthtml)) != null)
{
iimSet ('REZULTAT', find[1]);
iimPlay('CODE:SET !EXTRACT {{REZULTAT}} \n SAVEAS TYPE=EXTRACT FOLDER=* FILE=rezparser.csv \n SET !EXTRACT NULL');
}
iimSet ('PAGE', nextpage);
iimDisplay(nextpage);
if(nextpage=='#EANF#'){label = 'stop';}
if(extracthtml=='#EANF#'){label = 'stop';}
}
 
iimDisplay(report);

П.С. свежая версия тут

No Comments »

Комментариев нет.

Оставить комментарий

CAPTCHA image