Obsah:
Zber údajov
Octoparse – je komplexné softvérové riešenie na hromadný a automatizovaný zber (web scraping), štruktúrovanie a analýzu údajov, na použitie ktorého nie sú potrebné programátorské zručnosti. S jeho pomocou je možné premeniť akékoľvek neštruktúrované webové údaje na hotovú informačnú databázu pre marketing, výskum, predaj, propagáciu a riešenie mnohých ďalších obchodných úloh.

V závislosti od toho, na akých stránkach sa bude softvér používať, je možné získať údaje a/alebo obsah nasledujúceho typu: ceny a informácie o produktoch (pre obchodné platformy); príspevky, publikácie, komentáre (sociálne siete); ceny, hodnotenia, recenzie (rezervácie, nehnuteľnosti); pracovné ponuky a platy (zamestnanie) a pod.

Zvažovaný softvér funguje pod riadením unikátneho algoritmu, ktorého základom je umelá inteligencia, čo umožňuje automaticky vyhľadávať a extrahovať údaje z webových stránok podľa vopred určených alebo šablónových parametrov.

Šablóny
Služba poskytuje viac ako 200 hotových šablón na zber údajov z webových stránok nasledujúcich kategórií:
- Populárne webové služby;
- Internetové obchody a trhoviská (Amazon, eBay, Walmart a pod.);
- Hotely a cestovanie (Airbnb, Booking, Tripadvisor a pod.);
- Sociálne siete a média (Facebook, Instagram, Twitter, YouTube a pod.);
- Vyhľadávače (Google, Yahoo);
- Inzerčné portály (Crunchbase, Yellow Pages, Yelp a pod.);
- Mapové služby (Google);
- Recenzie;
- Hľadanie zamestnania;
- Nehnuteľnosti;
- Školské vzdelávanie;
- Financie;
- Stávky.













Vytváranie úloh
Okrem šablón je v Octoparse možné vytvoriť vlastné úlohy na extrakciu údajov z webu. Tento proces sa vykonáva v troch jednoduchých krokoch: určenie URL adresy stránky, z ktorej je potrebné získať údaje, výber cieľa a následne spustenie a priamu extrakciu.
Postup je mimoriadne jednoduchý a automatizovaný – systém rozpoznáva kľúčové prvky na webových stránkach a zvýrazňuje ich, čo nielenže zabezpečuje dodatočné pohodlie pri interakcii, ale aj šetrí čas. Ešte dôležitejšie je, že takýto prístup vylučuje potrebu znalosti a používania jazyka XPath na samostatné vytváranie XML dopytov.

Uloženie a zmena nastavení úloh
Počas automatického extrahovania informácií a na základe obsahu zisteného na stránke Octoparse vytvára vlastné nastavenia, ktoré je možné buď uložiť ako šablónové a pripravené na ďalšie použitie, alebo zmeniť podľa vlastného uváženia, napríklad vylúčením niektorých kategórií a pridaním iných, alebo jednoducho zmenou ich poradia.

Je zrejmé, že potreba zmeny základných nastavení, ktoré určujú konečné zobrazenie zozbieraných údajov, vzniká pomerne často. Pôvodne sú zobrazené vo forme prehľadnej tabuľky s automaticky určenými kategóriami a poradím, pričom stĺpce je možné zamieňať a nepotrebné jednoducho odstrániť.

Okrem toho je často potrebné a vhodné samostatne uvádzať také parametre, ako je počet stránok na webe a interval ich vyhľadávania.

Po automatickom alebo samostatnom určení nastavení, spustení a ukončení samotného procesu extrakcie sa vytvorí pracovná šablóna (workflow), pozostávajúca z niekoľkých blokov – editovateľných prvkov, ktorých konečný vzhľad určuje, ako bude úloha vyzerať na konci.

Predstavovanie úloh a správa
Hotové úlohy sa pridávajú na panel monitorovania (prístupný z horného a bočného menu), odkiaľ je možné vykonávať také akcie, ako je spustenie a zastavenie procesu extrakcie, zdieľanie s kolegami, export, prezeranie lokálnych údajov a údajov uložených v cloude.

Pre pohodlnejšie vyhľadávanie a správu sa odporúča vytvárať skupiny, pričom je možné podľa potreby presúvať úlohy z jednej kategórie do druhej.

Dodatočné nástroje
V aktuálnej (beta) verzii Octoparse sú k dispozícii dva dodatočné nástroje, ktoré rozširujú funkčné možnosti tejto aplikácie a umožňujú efektívnejšie interagovať s údajmi. Tak, RegEx Tool poskytuje možnosť čistenia zozbieraných informácií, zatiaľ čo Database Auto Export Tool umožňuje nastaviť vlastný harmonogram pre export do lokálnej databázy.

Export údajov
Údaje zozbierané pomocou Octoparse môžu byť podľa potreby uložené vo formátoch XLSX, CSV, JSON a pod. pre následné spracovanie v externých softvérových aplikáciách, ako je Excel alebo Ajax. Taktiež je k dispozícii možnosť exportu do databáz.

Proxy servery
Zvažovaná aplikácia poskytuje možnosť používať vlastný proxy server počas procesu zbierania údajov. Týmto spôsobom je možné skryť alebo automaticky zameniť svoju IP adresu, aby sa predišlo zaradeniu na čiernu listinu spracovávaných webových zdrojov.
Blokovanie reklamy
Octoparse obsahuje prostriedky na blokovanie reklamy, vďaka čomu sa skracuje čas načítania stránok a ich vyžiadania, a tým sa optimalizuje a urýchľuje riešenie hlavných pracovných úloh.
Cloudové služby
Na zabezpečenie bezpečnosti a spoľahlivosti procesu webového skreapingu Octoparse využíva pokročilé technológie cloudových výpočtov vlastného vývoja a poskytuje prístup k svojim službám a serverom, ktorých rýchlosť práce je až 20-krát vyššia ako u lokálnych analógov.

Lekcie o používaní
Na oficiálnej stránke Octoparse je k dispozícii vyčerpávajúca knižnica vzdelávacích materiálov, vďaka ktorým je možné v krátkom čase osvojiť si všetky funkčné možnosti tohto softvéru, aby sa maximálne efektívne využil na organizáciu pracovných procesov a riešenie obchodných úloh. K nim sa dá prejsť aj z rozhrania programu, jeho hlavného okna.

Technická podpora
V prípade akýchkoľvek ťažkostí pri používaní a/alebo problémov v práci Octoparse sa vždy môžete obrátiť na technickú podporu služby webového skreapingu dát. K dispozícii sú nasledujúce komunikačné kanály: e-mail, fórum a komunita, sociálne siete a živý chat (je dostupný iba v platenom tarife). Treba však poznamenať, že na získanie odpovedí na rôzne otázky často stačí obrátiť sa na prezentovanú na stránke databázu znalostí alebo už spomínané vzdelávacie materiály.

Výhody
- Možnosť 14-dňovej bezplatnej skúšobnej verzie;
- Jednoduché a pohodlné, intuitívne rozhranie;
- Nemožnosť potrebovať programátorské zručnosti;
- Možnosť využívania cloudových služieb od výrobcu;
- Existencia vzdelávacích materiálov na používanie softvéru;
- Technická podpora s viacerými komunikačnými kanálmi;
- Veľká knižnica hotových šablón, ktoré je možné prispôsobiť svojim potrebám;
- Podpora najpopulárnejších webových stránok a služieb rôznych oblastí a tém.
Nevýhody
- Nedostatok lokalizácie do ruštiny;
- Nedostatok šablón pre domáce webové stránky;
- V čase písania recenzie sú aktuálne verzie Octoparse pre Windows a macOS dostupné iba vo forme beta. Predchádzajúca (stabilná) sa od nej líši rozhraním a funkčnosťou.