Semalt taqrizi: Ko'ngil ochish va foyda olish uchun veb-skript

Siz API- larga ehtiyoj sezmasdan saytni qirib tashlashingiz mumkin. Sayt egalari qichishishni to'xtatish uchun tajovuzkor bo'lishsa-da, ular API-lar haqida kamroq e'tibor berishadi va buning o'rniga veb-saytlarga ko'proq e'tibor berishadi. Ko'pgina saytlar avtomatik kirishdan etarli darajada himoyalanmaganligi, kazıyıcılar uchun qo'shimcha imkoniyat yaratadi. Ba'zi oddiy echimlar sizga kerakli ma'lumotlarni yig'ishga yordam beradi.

Scraping bilan boshlash

Scraping sizga kerakli ma'lumotlarning tuzilishini va ulardan foydalanish imkoniyatlarini tushunishni talab qiladi. Bu ma'lumotlaringizni olishdan boshlanadi. Kerakli ma'lumotlarni qaytaradigan URL manzilini toping. Veb-saytlarni ko'rib chiqing va turli bo'limlarni ko'rib chiqishda URL manzillari qanday o'zgarishini tekshiring.

Shu bilan bir qatorda, saytda bir nechta atamalarni qidirib toping va URL-lar sizning qidiruv so'zlaringiz asosida qanday o'zgarishini tekshiring. Siz yangi termin qidirayotganingizda o'zgaradigan q = kabi GET parametrini ko'rishingiz kerak. Ma'lumotlaringizni yuklash uchun zarur bo'lgan GET parametrlarini saqlang va boshqalarini olib tashlang.

Paginatsiya bilan qanday kurashish kerak

Paginatsiya sizga bir vaqtning o'zida barcha kerakli ma'lumotlarga kirishni taqiqlaydi. 2-sahifani bosganingizda, URL-ga ofset = parametr qo'shiladi. Bu sahifadagi elementlar soni yoki sahifa raqami. Ushbu raqamni ma'lumotlaringizning har bir sahifasida ko'paytiring.

AJAX-ni ishlatadigan saytlar uchun Firebug yoki Inspector-da tarmoq yorlig'ini tortib oling. XHR so'rovlarini tekshiring, ma'lumotlaringizni jalb qiladiganlarni aniqlang va ularga e'tibor qarating.

Sahifani belgilashdan ma'lumotlarni oling

Bunga CSS kancalari yordamida erishiladi. Ma'lumotlaringizning ma'lum bir qismini sichqonchaning o'ng tugmasi bilan bosing. Firebug yoki Inspector-ni torting va DOM daraxtini kattalashtiring, bitta elementni o'rab oladigan eng katta <div> ni oling. DOM daraxti to'g'ri tuguniga ega bo'lgandan so'ng, sizning elementlaringiz HTMLga kirishini ta'minlash uchun sahifa manbasini ko'ring.

Scrap-saytni muvaffaqiyatli bajarish uchun sizga HTML-da o'qigan va kerakli narsani olmaguningizcha, uni takrorlay oladigan ob'ektga aylantiradigan HTML-ni tahlil qilish kutubxonasi kerak bo'ladi. Agar sizning HTTP kutubxonangiz cookie-fayllar yoki sarlavhalarni o'rnatishni talab qilsa, veb-brauzeringizda saytni ko'rib chiqing va sarlavhalarni brauzeringiz tomonidan yuborilishini ta'minlang. Ularni lug'atga joylashtiring va so'rovingiz bilan oldinga yo'naltiring.

Scrape-ga kirish kerak bo'lganda

Agar siz kerakli ma'lumotlarni olish uchun hisob qaydnomasini yaratib, tizimga kirishingiz kerak bo'lsa, siz tizimga kirish uchun yaxshi HTTP kutubxonasiga ega bo'lishingiz kerak. Scraper-ga kirish sizni uchinchi tomon saytlariga tushirishga imkon beradi.

Agar veb-xizmatingizning narx chegarasi IP-manzilga bog'liq bo'lsa, mijoz-Javascript-ga veb-xizmatiga mos keladigan kodni o'rnating. Keyin har bir mijozdan natijalarni serveringizga qaytaring. Natijalar juda ko'p joylardan paydo bo'lib ko'rinadi va ularning hech biri ularning stavkasidan oshmaydi.

Yomon shakllangan markirovka

Ba'zi ustuvorliklarni tekshirish qiyin bo'lishi mumkin. Bunday holatlarda, xatolarga bardoshlilik sozlamalarini tekshirish uchun HTML tahrirchingizni qidirib toping. Shu bilan bir qatorda, butun HTML-hujjatni uzun satr sifatida ko'rib chiqing va satrlar ajratishni bajaring.

Saytdagi har qanday ma'lumotlarni qirib tashlashingiz mumkin bo'lsa-da, ba'zi saytlar qirqishni to'xtatish uchun dasturlardan foydalanadi, boshqalari esa veb-qirqishlarni taqiqlaydi. Bunday saytlar sizni sudga berishi mumkin va hatto ularning ma'lumotlarini yig'ish uchun qamoqqa tashlashingiz mumkin. Shunday qilib, veb-varaqlashda aqlli bo'ling va uni xavfsiz bajaring.