معماری یک خزنده وب

معماری یک خزنده وب

خزنده وب ، گاهی اوقات به عنوان عنکبوت یا spiderbot نامیده می شود و اغلب به خزنده کوتاه می شود، یک ربات اینترنتی است که به طور سیستماتیک وب را مرور می کند، معمولا به منظور نمایه سازی وب( spidering web ).

موتورهای جستجوی وب و برخی از سایت های دیگر از نرم افزار web crawling یا spidering برای به روز رسانی محتوای وب یا شاخص های دیگر وب سایت های سایت خود استفاده می کنند. خزندگان وب صفحات را برای پردازش توسط یک موتور جستجو کپی می کنند که صفحات دانلود شده را نشان می دهد تا کاربران بتوانند به طور موثر جستجو کنند.

خزنده ها منابع را در سیستم ها بازدید می کنند و اغلب سایت ها را بدون تأیید، بازدید می کنند. مسائل برنامه ریزی، بارگذاری و "مشارکت" هنگامی که مجموعه های زیادی از صفحات دسترسی پیدا می شوند، وارد بازی می شوند.مکانیسم هایی برای سایت های عمومی وجود دارد که مایل نیستند خلع سلاح شوند تا این امر توسط عامل خزنده شناخته شود. به عنوان مثال، از جمله یک فایل robots.txt می تواند رباتها را برای فهرست بخش های وب سایت یا هر چیز دیگری درخواست کند.

تعداد صفحات اینترنتی بسیار بزرگ است. حتی بزرگترین خزنده ها قادر به ایجاد فهرست کامل نیستند. به همین دلیل، موتورهای جستجو تلاش می کنند نتایج جستجوی مرتبط در سال های اولیه وب جهان را قبل از سال 2000 به دست آورد. امروز نتایج مربوطه تقریبا بلافاصله به آنها داده می شود.

خزنده ها می توانندلینک ها و کد های HTML را تایید کنند. آنها همچنین می توانند برای خرد کردن وب مورد استفاده قرار گیرند.

منبع:ویکی پدیا


مشخصات

تبلیغات

محل تبلیغات شما

آخرین مطالب این وبلاگ

محل تبلیغات شما محل تبلیغات شما

آخرین وبلاگ ها

برترین جستجو ها

آخرین جستجو ها

Tony کسب و کار ضایعات کشفیات مواد مخدر _ ایران نیوز سئو انواع سایت و فروش بکلینگ برای چت روم Troy سَمت درس آموزشگاه مجازی حـریم آســــــمانی مرکز آموزشهای آزاد دانشگاه پیام نور نیشابور