خزنده وب چیست و چگونه کار می‌کند؟

در این مقاله، خزنده‌های وب را معرفی و شیوه‌ی عملکرد آن‌ها را بررسی می‌کنیم.

تاریخ انتشار

24 آبان 1401

مطمئنا تاکنون بارها مطالب مختلفی در گوگل جست‌وجو کرده‌اید؛ اما تا‌به‌حال پیش آمده است که به این موضوع فکر کنید «گوگل چگونه می‌داند باید کجا را جست‌وجو کند؟» پاسخ این پرسش «خزنده‌های وب» (web crawlers) است. آن‌ها می‌توانند در وب جست‌وجو و آن را فهرست‌بندی کنند تا بتوانید موارد مختلف را به‌راحتی بیابید. در‌ادامه این موضوع را کاملا توضیح می‌دهیم.

موتورهای جست و جو و خزنده ها

هنگامی که با استفاده از کلمه‌ی کلیدی در موتور جست‌وجویی مانند گوگل یا بینگ جست‌وجو می‌کنید، این وب‌سایت تریلیون‌ها صفحه را بررسی می‌کند تا فهرستی از نتایج مربوط به آن عبارت ایجاد کند. در اینجا، سؤال‌هایی در ذهن کاربران کنجکاو شکل می‌گیرد: این موتورهای جست‌وجو دقیقا چگونه به همه‌ی این صفحات دسترسی دارند؟ چگونه شیوه‌ی جست‌وجوی آن‌ها را می‌دانند و این نتایج را در چند ثانیه تولید می‌کنند و به کاربر نشان می‌دهند؟

پاسخ این پرسش خزنده‌های وب است که به‌عنوان عنکبوت نیز شناخته می‌شوند. آن‌ها برنامه‌های خودکاری موسوم به ربات یا بات هستند که سراسر وب می‌خزند تا بتوانند به موتورهای جست‌وجو اضافه شوند. این ربات‌ها وب‌سایت‌های مختلف را پیدا می‌کنند تا فهرستی از صفحاتی که نهایتا در نتایج جست‌وجویتان ظاهر می‌شوند، تولید کنند.

خزنده وب

همچنین، خزنده‌ها کپی‌هایی از این صفحات را در پایگاه داده‌ی موتور ایجاد و ذخیره می‌کنند که به شما امکان می‌دهد به‌سرعت موارد مختلف را جست‌وجو کنید. به‌همین‌دلیل، موتورهای جست‌وجو اغلب نسخه‌های کش‌شده‌ی سایت‌ها را در پایگاه داده‌هایشان قرار می‌دهند.

نقشه های وب سایت و انتخاب

خزنده‌ها چگونه وب‌سایت‌هایی را برای خزیدن انتخاب می‌کنند؟ باید بگوییم رایج‌ترین سناریو این است که صاحبان وب‌سایت‌ها می‌خواهند موتورهای جست‌وجو در سایت‌هایشان بخزند. آن‌ها می‌توانند با درخواست از گوگل، بینگ، یاهو یا موتور جست‌وجوی دیگر برای فهرست‌کردن صفحاتشان به این هدف دست یابند. این فرایند از موتوری به موتور دیگر متفاوت است. همچنین، موتورهای جست‌وجو اغلب با ردیابی تعداد دفعاتی که یک URL در سایر وب‌سایت‌های عمومی پیوند داده می‌شود، وب‌سایت‌های محبوب و مناسب را برای خزیدن انتخاب می‌کنند.

صاحبان وب‌سایت‌ها می‌توانند از فرایندهای خاصی برای کمک به موتورهای جست‌وجو به‌منظور فهرست‌بندی وب‌سایت‌های خود استفاده کنند؛ مانند بارگذاری نقشه‌ی وب‌سایت. این فایل حاوی تمامی لینک‌ها و صفحاتی است که بخشی از وب‌سایت شما هستند. همچنین، از فایل مذکور معمولا برای نشان‌دادن اینکه چه صفحاتی قرار است ایندکس شوند، استفاده می‌شود.

هنگامی که موتورهای جست‌وجو قبلا در وب‌سایتی خزیده باشند، به‌طور خودکار دوباره آن وب‌سایت را برای چنین کاری انتخاب می‌کنند. تعداد دفعات انجام آن براساس میزان محبوبیت وب‌سایت و سایر معیارها متفاوت خواهد بود؛ بنابراین، صاحبان وب‌سایت اغلب نقشه‌های سایت خود را به‌روز می‌کنند.

پنهان کردن صفحات از دید خزنده ها

اگر وب‌سایتی نمی‌خواهد برخی یا همه‌ی صفحات آن در موتور جست‌وجو ظاهر شوند، چه باید کرد؟ به‌عنوان مثال، ممکن است نخواهید افراد بتوانند صفحه‌ای که تنها برای اعضا است، جست‌وجو کنند یا صفحه‌ی خطای ۴۰۴ سایت شما را ببینند. اینجا است که فهرست محرومیت خزنده موسوم به robots.txt وارد عمل خواهد شد. این گزینه فایل متنی ساده‌ای است که به خزنده‌ها می‌گوید کدام صفحات وب را از فهرست‌بندی حذف کنند.

خزنده وب

دلیل دیگر اهمیت robots.txt این است که خزنده‌های وب می‌توانند تأثیر درخورتوجهی بر عملکرد وب‌سایت بگذارند. ازآنجاکه خزنده‌ها اساسا تمام صفحات وب‌سایت شما را دانلود می‌کنند، می‌توانند باعث کاهش سرعت شوند. همچنین، کار آن‌ها زمان قابل‌پیش‌بینی ندارد و بدون تأیید وارد می‌شوند. اگر به ایندکس‌شدن مکرر صفحات خود نیازی ندارید، متوقف‌کردن خزنده‌ها ممکن است به کاهش مقداری از بار وب‌سایت شما کمک کند. خوشبختانه اکثر خزنده‌ها خزیدن در برخی صفحات را براساس قوانین مالک سایت متوقف می‌کنند.

جادوی فراداده

در زیر URL و عنوان هر نتیجه‌ی جست‌وجو در گوگل، توضیح کوتاهی از صفحه پیدا خواهید کرد. به این توضیحات «اسنیپت» می‌گویند. ممکن است متوجه شده باشید اسنیپت صفحه‌ها در گوگل همیشه با محتوای واقعی وب‌سایت‌ها مطابقت ندارد. این امر بدین‌دلیل است که بسیاری از وب‌سایت‌ها چیزی به نام «متا تگ» دارند. متا تگ توضیحات سفارشی است که صاحبان وب‌سایت به صفحاتشان اضافه می‌کنند.