Mariusz Trzaska PJATK (public)
Publiczna strona poświęcona mojej działalności w PJATK

Elastyczny skraper stron WWW zrealizowany jako usługa internetowa

Mariusz MGR

Pobierz

Rozmiar pliku: 2.32 MB

Praca magisterska obroniona w PJWSTK.

Tytuł: Elastyczny skraper stron WWW zrealizowany jako usługa internetowa

Autor: Paweł Połczyński

Promotor: dr inż. Mariusz Trzaska

Streszczenie:

Praca dotyczy zagadnienia pozyskiwania wiedzy z nieustrukturyzowanych źródeł danych. Informacje wydobyte ze stron WWW, aby mogły być wykorzystane w aplikacjach, wymagają przetworzenia. Procesorem dla stron internetowych są skrapery. Skraper to narzędzie służące do przetwarzania struktur HTML w celu wyodrębnienia z nich interesujących informacji. Szereg dostawców na rynku udostępnia usługę utworzenia skrapera na zamówienie klienta, ale tylko pojedyncze firmy oferują możliwość samodzielnego wygenerowania skrapera za pomocą udostępnionych narzędzi. W większości przypadków narzędzia te nie są doskonałe i nie nadają się do użytku dla osób bez zaawansowanej wiedzy technicznej. Większość skraperów nadal tworzonych jest przez programistów. Wytwarzane skrapery zazwyczaj na najniższym poziomie bazują na selektorach XPATH lub CSS. Ze względu na konstrukcję skrapery muszą być nieustannie aktualizowane, żeby nadążyć za ciągle zmieniającymi się stronami WWW. W związku z koniecznością angażowania programistów rozwiązania te są kosztowne i czasochłonne.
Z powodów wskazanych powyżej zrodziła się koncepcja zdefiniowania i zaprojektowania narzędzia, które w sposób prosty umożliwi utworzenie skrapera. Aplikacja skierowana jest do użytkowników nieposiadających wiedzy technicznej. W przystępny sposób umożliwi im stworzenie podstawowego skrapera i skorzystanie z niego. Jednocześnie udostępnieni ona zawansowane opcje dla programistów. Prototyp powinien umożliwić łatwe rozszerzanie o nowe funkcjonalności przez programistów i umożliwić jego integracje z zewnętrznymi aplikacjami. Prototyp został zaimplementowany w języku JavaScript.