September 15, 2020

#21 Tech Writer zbiera informacje ze stron, czyli jak można wykorzystać web scraping

32 minutes

Web scraping to zbieranie danych ze stron internetowych. Google, na przykład, robi to, żeby indeksować cały internet w swojej wyszukiwarce. Web scraping wykorzystuje się też do monitorowania cen w konkurencyjnych sklepach internetowych.

U nas w firmie używamy web scrapingu, żeby indeksować dokumentację dla naszej wyszukiwarki. To samo rozwiązanie wykorzystujemy też, żeby sprawdzać czy wszystkie linki działają. Wyniki web scrapingu zapisujemy w Elasticsearchu, a potem analizujemy je za pomocą raportów i filtrów w Kibanie. Dzięki temu stworzyliśmy zalążek panelu kontrolnego, na którym widać aktualną jakość naszej dokumentacji.

W niedalekiej przyszłości chcemy rozszerzyć nasze rozwiązanie o dodatkowe funkcje. Planujemy, na przykład, testować strony pod kątem wymaganych elementów i zgodności z regułami naszego style guide’a. Kolejną opcją jest sprawdzanie czy w treści nie ma błędów gramatycznych i stylistycznych oraz czy język, którego używamy do tworzenia instrukcji jest wystarczająco przejrzysty.

Co można jeszcze zrobić za pomocą web scrapingu? Jakie inne testy są potrzebne w świecie dokumentacji technicznej i pisania ustrukturyzowanego? Zapraszamy do słuchania.

Informacje dodatkowe:

Web scraping: https://en.wikipedia.org/wiki/Web_scraping

Scrapy: https://scrapy.org/

Elastic (Elasticsearch, Kibana): https://www.elastic.co/

curl: https://curl.haxx.se/

Textstat: https://github.com/shivam5992/textstat

spaCy: https://spacy.io/

Selenium: https://www.selenium.dev/

TestCafe: https://devexpress.github.io/testcafe/

Vale: https://github.com/errata-ai/vale

...more

View all episodes

By Michał Skowron i Paweł Kowaluk

September 15, 2020

#21 Tech Writer zbiera informacje ze stron, czyli jak można wykorzystać web scraping

32 minutes

Co można jeszcze zrobić za pomocą web scrapingu? Jakie inne testy są potrzebne w świecie dokumentacji technicznej i pisania ustrukturyzowanego? Zapraszamy do słuchania.

Informacje dodatkowe:

Web scraping: https://en.wikipedia.org/wiki/Web_scraping

Scrapy: https://scrapy.org/

Elastic (Elasticsearch, Kibana): https://www.elastic.co/

curl: https://curl.haxx.se/

Textstat: https://github.com/shivam5992/textstat

spaCy: https://spacy.io/

Selenium: https://www.selenium.dev/

TestCafe: https://devexpress.github.io/testcafe/

Vale: https://github.com/errata-ai/vale

...more

Share #21 Tech Writer zbiera informacje ze stron, czyli jak można wykorzystać web scraping

Sign up to save your podcasts

#21 Tech Writer zbiera informacje ze stron, czyli jak można wykorzystać web scraping

#21 Tech Writer zbiera informacje ze stron, czyli jak można wykorzystać web scraping