Semalt نتایج آزمایش ابزارهای Scraping وب را ارائه می دهد

هر کاربر وقتی می خواهد از ابزارهای scraping وب استفاده کند ، با دو گزینه روبرو است. آنها یا از اسکرابر وب خارج از قفسه یا یک اسکرابر مخصوص استفاده می کنند. در حالی که یک اسکرابر سفارشی گزینه بهتری است ، بسیاری از مردم به دلیل هزینه بالای آن از این کار خجالت می کشند. این ابزار باید متناسب با مشاغل و ترجیحات شما ساخته شود ، بنابراین به کار زیادی نیاز دارد.

از طرف دیگر ، اسکرابرهای خارج از قفسه بسیار عمومی هستند زیرا برای وظایف عمومی ضبط وب طراحی شده اند. آنها معمولاً در بعضی از پروژه های ضبط وب بهتر عمل می کنند و در دیگران کارهای لرزان انجام می دهند. برای کمک به شما در انتخاب صحیح ، برخی از صفحه وب ها در معرض تست های ضبط دقیق وب قرار گرفتند و نتایج در زیر نشان داده شده است.

معیارهای آزمون

اسکرابر وب در مورد کارهای استخراج داده های رایج زیر مورد آزمایش قرار گرفت. آنها در مورد توانایی آنها برای ضبط گزارش های جدولی ، لیست متن ها و فرم های ورود به سیستم مورد آزمایش قرار گرفتند. علاوه بر این ، اسکنرهای وب نیز در توانایی آنها برای استخراج داده ها از صفحات وب پویا ساخته شده در AJAX مورد آزمایش قرار گرفتند. این معمولاً یکی از دشوارترین کارها برای بسیاری از اسکنرهای وب است. توانایی آنها برای کنترل Captcha نیز مورد آزمایش قرار گرفت. سرانجام ، آنها در مورد توانایی خود در رسیدگی به طرح بلوک مورد آزمایش قرار گرفتند.

نتایج آزمون

ابزارهای خراش دادن به وب که مورد آزمایش قرار گرفته اند عبارتند از Content Grabber ، Visual Web Ripper، Helium Scraper، Scraper Screen، OutWit Hub، Mozenda، Extractor WebSundew، Extractor Content Web و Extractor Easy Web.

نتایج نشان داد که محتوا Grabber بهترین است از آنجا که در تمام مناطق مورد آزمایش عالی عمل می کند. از این رو ، بالاترین میانگین امتیاز را کسب کرد. همچنین مشاهده شد که تمام ابزارهای scraping وب قادر به تهیه فرم های ورود به سیستم و همچنین داده های صفحات وب ساخته شده با AJAX هستند. بنابراین اگر این دو دلیل هستند که به یک scraper وب احتیاج دارید ، می توانید هر یک از آنها را انتخاب کنید. همه آنها در هر دو زمینه خیلی خوب عمل کردند.

مورد بعدی برای عملکرد Content Grabber ، Visual Web Ripper است. در تمامی زمینه ها عملکرد خوبی داشت اما نه در محتوا Grabber ، بنابراین میانگین امتیاز 4.5 را به دست آورد. ابزار وب بعدی Helium Scraper است. عملکرد آن تقریباً به اندازه عملکرد ویژوال وب ریپر است. تنها مشکلی که در مورد Helium Scraper وجود دارد ، عملکرد ضعیف آن در نحوه استفاده از طرح بلوک است.

طبق نتایج آزمون ، ابزارهای scraping وب به این ترتیب انجام می شوند: Content Grabber ، Visual Web Ripper، Helium Scraper، Scraper Screen، OutWit Hub، Mozenda، WebSundew Extractor، Extractor Web Content و Easy Web Extractor که بدترین عملکرد را دارند .

نتیجه

با توجه به نتایج آزمون که در بالا مورد تجزیه و تحلیل قرار گرفت ، محتوا گراببر در کلیه گروههای آزمون رتبه 5 را کسب کرد. بنابراین ، بدیهی است که بهترین است. شاید لازم باشد که آن را نیز امتحان کنید. متأسفانه ، دو اسکنر وب به دلایل مختلف از آزمایش خارج شدند. توسعه دهندگان Web Data Extractor و WebHarvy محصولات خود را از آزمایش خارج کردند.

علیرغم شرکت نکردن در آزمون ، چند مورد در مورد هر دوی آنها آموخته شد. WebHarvy برای ضبط داده ها از لیست های صفحه بندی شده به خوبی قالب بندی شده است در حالی که Web Extractor فقط برای جمع آوری ایمیل ، آدرس اینترنتی و غیره است.