Парсер catalog.tut.by с раскладкой по доменным зонам

12 августа, 2012

 

Небольшая доработка предыдущего парсера. В новой версии скрипта итоговые данные выгружаются по доменным зонам: .by, .of.by и прочие зоны.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
iimDisplay("Парсим каталог tut.by");
iimSet ("PAGE", "http://catalog.tut.by/list.phtml?form[sort]=date&form[my]=1&form[catid]=0&form[sprior]=1&s_what=&&page=1");
 
var label = 'start';
 
while (label != 'stop') 
{
iimPlay('CODE:URL GOTO={{PAGE}} \n TAG POS=1 TYPE=A ATTR=TXT:Следующая<sp>>> EXTRACT=HREF');
nextpage = iimGetLastExtract(1);
iimPlay('CODE:TAG POS=1 TYPE=HTML ATTR=* EXTRACT=HTM');
extracthtml = iimGetLastExtract(1);
 
var pattern = /<li><h3><a [^>]+href=\"([^\"]+)\"[^>]+>/gi;
 
while((find = pattern.exec(extracthtml)) != null) 
{
 
iimSet ("REZULTAT", find[1]);
iimPlay('CODE:SET !EXTRACT {{REZULTAT}} \n SAVEAS TYPE=EXTRACT FOLDER=* FILE={{!NOW:yymmdd}}-all.csv \n SET !EXTRACT NULL');
 
var patternby = /([a-z0-9-]+\.by)[\/]*/gi;//.by
var patternofby = /([a-z0-9-]+\.of\.by)[\/]*/gi;//of.by
var patterndom = /([a-z0-9-]+\.[a-z]+)[\/]*$/gi;//.com,.net,.ru
 
var findby = patternby.exec(find[1]);
var findofby = patternofby.exec(find[1]);
var finddom = patterndom.exec(find[1]);
 
 
if(findby)
{
iimSet ("REZULTAT", findby[1]);
iimPlay('CODE:SET !EXTRACT {{REZULTAT}} \n SAVEAS TYPE=EXTRACT FOLDER=* FILE={{!NOW:yymmdd}}-2-by.csv \n SET !EXTRACT NULL');
}
else
{
	if(finddom)
	{
	iimSet ("REZULTAT", finddom[1]);
	iimPlay('CODE:SET !EXTRACT {{REZULTAT}} \n SAVEAS TYPE=EXTRACT FOLDER=* FILE={{!NOW:yymmdd}}-2-dom.csv \n SET !EXTRACT NULL');
	}
}
 
if(findofby)
{
iimSet ("REZULTAT", findofby[1]);
iimPlay('CODE:SET !EXTRACT {{REZULTAT}} \n SAVEAS TYPE=EXTRACT FOLDER=* FILE={{!NOW:yymmdd}}-of-by.csv \n SET !EXTRACT NULL');
}
 
}
iimSet ("PAGE", nextpage);
iimDisplay(nextpage);
if(nextpage=='#EANF#'){label = 'stop';}
if(extracthtml=='#EANF#'){label = 'stop';}
}
 
iimDisplay(report);
</a></h3></li></sp>

 

Скачать скрипт для iMacros.

П.С. свежая версия тут

 

No Comments »

Комментариев нет.

Оставить комментарий

CAPTCHA image