Mariusz Trzaska PJATK (public)
Publiczna strona poświęcona mojej działalności w PJATK

Elastyczny i inteligentny system pozyskiwania danych ze stron internetowych

Mariusz MGR

Pobierz

Rozmiar pliku: 2.23 MB

Praca magisterska obroniona w PJATK.

Tytuł: Elastyczny i inteligentny system pozyskiwania danych ze stron internetowych

Autor: Piotr Skomorowski

Promotor: dr inż. Mariusz Trzaska 

Streszczenie:

Proces ekstrakcji danych ze stron internetowych (tzw. web scrapping) wiąże się z pewnymi znaczącymi trudnościami. Jednym z głównych wyzwań jest dynamiczna natura stron internetowych, które regularnie zmieniają swoją strukturę. Narzędzia do web scrapingu muszą być stale aktualizowane, aby uwzględnić te zmiany podczas pozyskiwania danych. Taka konieczność ciągłej aktualizacji pochłania czas i zasoby. Dodatkowo istniejące narzędzia do skrapowania dostępne na rynku często wymagają zaawansowanej wiedzy technicznej, w tym znajomości selektorów CSS, XPath czy wyrażeń regularnych, co skutkuje ograniczonym ich zastosowaniem przez osoby o mniejszych kompetencjach programistycznych. W kontekście tych wyzwań, niniejsza praca proponuje koncepcję i implementację prototypu systemu pozyskiwania danych ze stron internetowych, wykorzystującego zaawansowane techniki przetwarzania danych, w tym uczenie maszynowe. Proponowany system charakteryzuje się intuicyjnym interfejsem użytkownika, upraszczającym proces skrapowania dla osób o różnym poziomie kompetencji technicznych. Doświadczonym użytkownikom system umożliwia również wdrożenie własnych sposobów powiadomień o wynikach skrapowania oraz własnych sposobów transformacji pozyskanych danych.
W kontekście rosnącego znaczenia skrapowania danych w różnych dziedzinach, takich jak e-commerce, badania rynku czy analiza danych, przedstawiony w pracy prototyp stanowi wkład w rozwijanie dostępności i funkcjonalności technologii skrapowania.

Słowa kluczowe: Analiza danych nieustrukturyzowanych, Pozyskiwanie danych ze stron internetowych, Strony internetowe, Web scrapping