Windows User Group - Slovak Republic
Windows User Group - Slovak Republic Windows User Group - Slovak Republic
RSS
mobilná verzia
Windows User Group - Slovak Republic
prihlásenie
meno login
heslo
Automaticky prihlásiť
zabudli ste heslo?
zaregistrujte sa

kalendár podujatí
jún 2017 júl 2017 august 2017
po ut st št pi so ne
26 27 28 29 30 1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31 1 2 3 4 5 6
dnes 27.07.2017 dnes 27.07.2017

kto je online?
počet anonymných užívateľov: 4
počet prihlásených užívateľov: 2
teraz je online:
Bing [Bot], Google [Bot]

Top 10 najčítanejšie
1.Vytvorenie USB boot jed...
2.Oprava MBR sektoru bez ...
3.Windows 7 download
4.HTPC alebo ako si posta...
5.Konzole pro zotavení v...
6.Windows 7 RC v slovenč...
7.Inštalujte Windows z U...
8.Platené vs Zadarmo
9.Panika menom Conficker
10.Windows 7 RC download -...

Windows User Group - Slovak Republic

Monitorovanie zmien obsahu webových stránok
Windows User Group - Slovak Republic
Software > Nezaradené

Monitorovanie zmien obsahu webových stránok

Windows User Group - Slovak Republic

Ak ste náhodou narazili na požiadavku, alebo ste len potrebovali pre vlastné účely sledovať akékoľvek zmeny na ľubovoľnej webovej stránke a RSS vám ani zďaleka nepostačovalo, tak ste možno narazili na pojem Change detection and notification (CDN). Čo všetko sa skrýva za službami ponúkajúcimi monitorovanie a hlásenie zmien obsahu, a ako sa v nich orientovať, Vám skúsim priblížiť v tomto článku.

 


Change detection and notification (CDN) services, kedysi označované aj ako služby (typu) netmind alebo aj laickejšie strážne psi, sú služby monitorovania a hlásenia zmien obsahu webových stránok a ponúka ich široká paleta programov a internetových serverov s veľmi rozdielnou funkcionalitou a ešte rozdielnejšou kvalitou. Okrem programov ako WacheteWebsite Watcher či NotiPage túto funkcionalitu poskytujú dokonca aj zásuvné moduly do prehliadačov ako napr. Distil Web Monitor pre Firefox alebo Page Monitor pre Chrome.
Mnohé z týchto aplikácií, hlavne tie lepšie, sú platené, no všetky majú jednu veľkú nevýhodu: sledujú zmeny, len keď sú spustené. A to nie je veľmi praktické, pretože väčšinou potrebujete sledovať zmeny vkuse a byť o nich informovaný v čo najprívetivejšej podobe, čo najskôr a samozrejme preferovaným spôsobom komunikácie. A vtedy sú oveľa vhodnejšie internetové služby CDN so svojimi servermi, ktoré po nakonfigurovaní nepretržite sledujú jednu alebo viac stránok na internete a v prípade splnenia podmienky v spúšťači (trigger) vás informujú napr. e-mailom o príslušnej zmene.
A v detailoch realizácie týchto úkonov už možno tušíte, že to nebude také jednoduché.

 

Stručne, čo všetko vlastne treba mať pri výbere takejto služby na zreteli:

1. V prvom rade by služba CDN mala byť spoľahlivo funkčná a stabilná, inak je veľmi ťažké hovoriť o nepretržitom sledovaní zmien. Sledovanie by malo byť aj užívateľsky prívetivo a ľahko konfigurovateľné, aby človek nestrávil svoju mladosť nad úvodným nastavením (najlepšie, keď ani nemusí nazrieť do manuálu :). To všetko však sú vlastnosti, ktorých vytvorenie vyžaduje čas a peniaze, takže nájsť takúto službu platenú bude oveľa ľahšie ako bezplatnú. No mnohí z vás si určite viete predstaviť lepšie minúť peniaze ako na služby CDN :)

 

2. V druhom rade by služba CDN mala byť parametrizovateľná a to opäť užívateľsky čo najprívetivejšie. Nikomu sa predsa kvôli nejakej službe nechce študovať tučný manuál syntaxe parametrov, preto by si užívateľ mal vedieť rýchlo nakonfigurovať čo hľadá a pri akej zmene. Ale aby služba (či dovolím si tvrdiť akákoľvek funkcionalita) bola aj jednoducho aj široko parametrizovateľná, tak je to väčšinou buď na úkor jednej alebo druhej vlastnosti. Môže to mať však niekedy aj pozitívny prínos, ak je na zvládnutie širokých možností parametrov použitý univerzálny jazyk, akým je napr. XPath (XML Path Language), ktorý možno využijete aj pri svojej práci (alebo aspoň o ňom budete niečo tušiť, keď sa budete musieť popasovať s nejakými „rozšíriteľnými značkami“ t.j. eXtensible Markups).

 

3. Ďalším užitočným voliteľným parametrom je frekvencia kontroly zmien. Mnoho služieb CDN ani len neumožňuje zmenu frekvencie a kontroluje zmeny len na dennej báze (a to nie je chyba ale vlastnosť :). Preto možnosť zvoliť si sledovanie napr. na týždennej báze či naopak častejšie, povedzme každú hodinu, príde naozaj vhod najmä v súčasnom rýchle sa meniacom svete. A tu treba povedať, že taká kontrola každú hodinu generuje celkom netriviálnu prevádzku a záťaž, takže prevádzkovateľ služby CDN s takýmito parametrami už musí mať niečo zvládnuté.

 

4. Potom je tu veľký problém veľmi častých zmien na mnohých webových stránkach a to nie práve kvôli zmenám v samotnom texte, ktorý je predmetom monitorovania, ale kvôli obsiahnutým reklamám či iným vloženým prvkom na sledovanej stránke. Tieto zmeny však falošne aktivujú spúšťač a tak ste zrazu viac obťažovaný ako informovaný.

 

a) Riešiť túto netriviálnu situáciu je možné vytvorením akejsi rozdielovej metriky medzi dvoma verziami stránky (napr. kontrolným súčtom) a nastavením hraničnej hodnoty, ktorej prekročením sa aktivuje spúšťač. Samozrejme nastavenie hraničnej hodnoty je kritické a môže sa stať, že rozdiel medzi dvoma susednými hodnotami buď nadbytočne často aktivuje spúšťač alebo naopak ignoruje aj zmenu, ktorú by človek prvým pohľadom považoval za dôležitú. Jedným z typických predstaviteľov takejto internetovej služby bolo hlavne v našich končinách kedysi veľmi obľúbené a čuduj sa svete doteraz fungujúce WOKO.

 

b) Ďalšou možnosťou, ako riešiť problém častých irelevantných zmien pri monitorovaní webovej stránky, je použitie regulárneho výrazu (regular expression) na extrakciu pre užívateľa zaujímavého textu. Regulárne výrazy však mnoho spoločností často implementuje po svojom s rôznymi obmenami (predpokladám z dôvodu zjednodušenia vývoja) a ešte častejšie sa odkláňajú od IEEE štandardov (predpokladám kvôli zvýšeniu návštevnosti, aby ste sa museli preklikať ich stránkami a hľadať správnu syntax).

 

c) Možno by sa našli ešte ďalšie exotickejšie prístupy na sledovanie zmien webových stránok, ale jeden z nich vyniká efektivitou a jednoduchosťou. Jeho jednoduchosť bude pre každého z vás okamžite zjavná pri prvotnej konfigurácii. V nej si po zadaní URL adresy sledovanej stránky graficky veľmi pohodlne vyberiete konkrétnu časť, ktorú chcete monitorovať. Element picker, ktorý je vám možno známy aj z iných nástrojov, je tou „čarovnou paličkou“ umožňujúcou výber konkrétneho objektu monitorovanej HTML stránky či ešte konkrétnejšie vetvy v strome Document Object Model (DOM).

 

A ako sa odkazovať na vybraný objekt DOMu? Napr. pomocou spomínaného XPath, ktorý dovoľuje vyberať jednotlivé elementy (síce pôvodne XML dokumentu, ale pre dobre napísanú službu je to predsa len otázka spracovania teda presnejšie „rozkladu“) a pracovať s jeho hodnotami. Mimoriadne efektívny jazyk, ktorý je „šitý“ presne na takéto úlohy.

 

A ako konkrétne vyzerá taký XPath zápis napr. na 5 stĺpec prvého riadku tabuľky? Sami uznáte, že celkom samovysvetľujúco: (//*[@id="tabulka"]/tbody/tr/td[5]). Ale to je len jednoduchý príklad, keďže XPath dokáže oveľa viac, čo však je už mimo rámca tohto článku. Možno nabudúce...

 

A aká služba takéto niečo (a možno aj viac) umožňuje? ChangeMon - Monitor Any Web Page For Changes
Funguje na báze dobrovoľných príspevkov, teda aj zadarmo :) Ale zo svojej skúsenosti môžem potvrdiť, že po chvíľke používania málokto bude ľutovať venovať peniaze na takúto skvelú a za posledný rok vrátane skúšobnej prevádzky bezchybne fungujúcu službu. Okrem HTML stránok dokáže monitorovať aj RSS a to nielen v spomínaných zmenách na DOM elementoch, ale aj pri pridávaní/odstraňovaní slov či slovných spojení. Na dokončenie konfigurácie monitora mu už len stačí zadať meno a vybrať frekvenciu kontroly (áno, je možné nastaviť aj 1 hodinu :). Potom príde na zadanú e-mailovú adresu validačný e-mail, ktorého potvrdením monitor začne fungovať.

 

Potom už len aby sa človek nestratil v tom množstve e-mailov. Mne sa však ChangeMon veeeeľmi osvedčil a budem rád, ak napíšete do komentárov vaše postrehy pri použivaní CDN služieb.


Windows User Group - Slovak RepublicWindows User Group - Slovak Republic Dawid | štvrtok 03. marca 2016 04:18 | Prečítané: 1310 x | hodnotenie: 5/5 |
Windows User Group - Slovak Republic
Windows User Group - Slovak Republic

 
Windows User Group - Slovak Republic
Dawid G. Kovács
Windows User Group - Slovak Republic
vyhľadávanie v blogu autora

vyhľadávanie

LLPA Battle 2017

Gopas kurzy

sponzori






facebook


Windows User Group - Slovak Republic
Windows User Group - Slovak Republic
Windows User Group - Slovak Republic

Copyright © 2008 Windows User Group Slovensko
podmienky používania prehlásenie o súkromí

Windows User Group - Slovak Republic domov Windows User Group - Slovak Republic o nás Windows User Group - Slovak Republic podujatia Windows User Group - Slovak Republic odkazy Windows User Group - Slovak Republic informačné kanály Windows User Group - Slovak Republic
Windows User Group - Slovak RepublicPageRank ikona zdarma Valid HTML 4.01 Transitional