خزنده وب چیست و چگونه کار میکند؟
در این مقاله، خزندههای وب را معرفی و شیوهی عملکرد آنها را بررسی میکنیم.
مطمئنا تاکنون بارها مطالب مختلفی در گوگل جستوجو کردهاید؛ اما تابهحال پیش آمده است که به این موضوع فکر کنید «گوگل چگونه میداند باید کجا را جستوجو کند؟» پاسخ این پرسش «خزندههای وب» (web crawlers) است. آنها میتوانند در وب جستوجو و آن را فهرستبندی کنند تا بتوانید موارد مختلف را بهراحتی بیابید. درادامه این موضوع را کاملا توضیح میدهیم.
موتورهای جست و جو و خزنده ها
هنگامی که با استفاده از کلمهی کلیدی در موتور جستوجویی مانند گوگل یا بینگ جستوجو میکنید، این وبسایت تریلیونها صفحه را بررسی میکند تا فهرستی از نتایج مربوط به آن عبارت ایجاد کند. در اینجا، سؤالهایی در ذهن کاربران کنجکاو شکل میگیرد: این موتورهای جستوجو دقیقا چگونه به همهی این صفحات دسترسی دارند؟ چگونه شیوهی جستوجوی آنها را میدانند و این نتایج را در چند ثانیه تولید میکنند و به کاربر نشان میدهند؟
پاسخ این پرسش خزندههای وب است که بهعنوان عنکبوت نیز شناخته میشوند. آنها برنامههای خودکاری موسوم به ربات یا بات هستند که سراسر وب میخزند تا بتوانند به موتورهای جستوجو اضافه شوند. این رباتها وبسایتهای مختلف را پیدا میکنند تا فهرستی از صفحاتی که نهایتا در نتایج جستوجویتان ظاهر میشوند، تولید کنند.
همچنین، خزندهها کپیهایی از این صفحات را در پایگاه دادهی موتور ایجاد و ذخیره میکنند که به شما امکان میدهد بهسرعت موارد مختلف را جستوجو کنید. بههمیندلیل، موتورهای جستوجو اغلب نسخههای کششدهی سایتها را در پایگاه دادههایشان قرار میدهند.
نقشه های وب سایت و انتخاب
خزندهها چگونه وبسایتهایی را برای خزیدن انتخاب میکنند؟ باید بگوییم رایجترین سناریو این است که صاحبان وبسایتها میخواهند موتورهای جستوجو در سایتهایشان بخزند. آنها میتوانند با درخواست از گوگل، بینگ، یاهو یا موتور جستوجوی دیگر برای فهرستکردن صفحاتشان به این هدف دست یابند. این فرایند از موتوری به موتور دیگر متفاوت است. همچنین، موتورهای جستوجو اغلب با ردیابی تعداد دفعاتی که یک URL در سایر وبسایتهای عمومی پیوند داده میشود، وبسایتهای محبوب و مناسب را برای خزیدن انتخاب میکنند.
صاحبان وبسایتها میتوانند از فرایندهای خاصی برای کمک به موتورهای جستوجو بهمنظور فهرستبندی وبسایتهای خود استفاده کنند؛ مانند بارگذاری نقشهی وبسایت. این فایل حاوی تمامی لینکها و صفحاتی است که بخشی از وبسایت شما هستند. همچنین، از فایل مذکور معمولا برای نشاندادن اینکه چه صفحاتی قرار است ایندکس شوند، استفاده میشود.
هنگامی که موتورهای جستوجو قبلا در وبسایتی خزیده باشند، بهطور خودکار دوباره آن وبسایت را برای چنین کاری انتخاب میکنند. تعداد دفعات انجام آن براساس میزان محبوبیت وبسایت و سایر معیارها متفاوت خواهد بود؛ بنابراین، صاحبان وبسایت اغلب نقشههای سایت خود را بهروز میکنند.
پنهان کردن صفحات از دید خزنده ها
اگر وبسایتی نمیخواهد برخی یا همهی صفحات آن در موتور جستوجو ظاهر شوند، چه باید کرد؟ بهعنوان مثال، ممکن است نخواهید افراد بتوانند صفحهای که تنها برای اعضا است، جستوجو کنند یا صفحهی خطای ۴۰۴ سایت شما را ببینند. اینجا است که فهرست محرومیت خزنده موسوم به robots.txt وارد عمل خواهد شد. این گزینه فایل متنی سادهای است که به خزندهها میگوید کدام صفحات وب را از فهرستبندی حذف کنند.
دلیل دیگر اهمیت robots.txt این است که خزندههای وب میتوانند تأثیر درخورتوجهی بر عملکرد وبسایت بگذارند. ازآنجاکه خزندهها اساسا تمام صفحات وبسایت شما را دانلود میکنند، میتوانند باعث کاهش سرعت شوند. همچنین، کار آنها زمان قابلپیشبینی ندارد و بدون تأیید وارد میشوند. اگر به ایندکسشدن مکرر صفحات خود نیازی ندارید، متوقفکردن خزندهها ممکن است به کاهش مقداری از بار وبسایت شما کمک کند. خوشبختانه اکثر خزندهها خزیدن در برخی صفحات را براساس قوانین مالک سایت متوقف میکنند.
جادوی فراداده
در زیر URL و عنوان هر نتیجهی جستوجو در گوگل، توضیح کوتاهی از صفحه پیدا خواهید کرد. به این توضیحات «اسنیپت» میگویند. ممکن است متوجه شده باشید اسنیپت صفحهها در گوگل همیشه با محتوای واقعی وبسایتها مطابقت ندارد. این امر بدیندلیل است که بسیاری از وبسایتها چیزی به نام «متا تگ» دارند. متا تگ توضیحات سفارشی است که صاحبان وبسایت به صفحاتشان اضافه میکنند.
صاحبان سایتها اغلب توضیحات فراداده فریبندهای ارائه میدهند که شما را به کلیک روی وبسایت وادار میکند. همچنین، گوگل سایر فرادادهها مانند قیمتها و موجودی سهام را فهرست میکند. این امر بهویژه برای کسانی مفید است که وبسایتهایی در حوزهی تجارت الکترونیک دارند.