درک عملکرد موتورهای جستجوگر

موتورهای جستجو در سطح اینترنت حرکت می کنند و تمامی اطلاعاتی را که در سطح اینترنت قرار داده شده است را جمعآوری و دسته بندی کرده و در نهایت در مواقع نیاز در کسری از ثانیه از این اطلاعات برای نمایش اطلاعات مورد نیاز شما استفاده میکنند.
برای ایجاد درک عمیقتر در مورد این موضوع با بررسی موتور جستجوی معروف گوگل جلو میرویم.
بطور کلی موتورهای جستجو دو کار انجام می دهند:
1- فهرستبندی اطلاعات: شرکت گوگل اطلاعات بیش از 30 تریلیون صفحه وب را ذخیره کرده است.
2- ارائه اطلاعات جمعآوری شده: با استفاده از الگوریتمهای ویژه و سیستمهایی با هوش مصنوعی با قابلیت یادگیری اطلاعات مورد نیاز شما را دریافت، پردازش و در نهایت بهترین نتیجهها را به شما ارائه می دهد
گشتن و فهرستبندی اطلاعات
سوالی که بسیار از افراد آن را در ذهن دارد این است که چگونه شرکت گوگل اطلاعات بیش از 30 تریلیون صفحه وب را بررسی و ذخیره کرده است؟
در طی 18 سال اخیر شرکت گوگل با استفاده از نرمافزاری به نام خزنده در حال بررسی و ذخیرهسازی یکی یکی تمامی صفحات موجود در وب میباشد. این نرمافزار کار خود را با فهرستی از منابع که توسط یک انسان به آن داده میشود شروع کرده است و این پروسه از ابتدا تا به امروز ادامه دارد و ربات خزنده شرکت گوگل، لینکها و محتواهای موجود در هر صفحه را بررسی میکند و پس از ذخیره سازی اطلاعات به سراغ صفحه بعدی میرود.
هر یک از موتورهای جستجو از یک ربات ویژه استفاده میکنند که هر یک نام ویژه خود را دارند. شرکت گوگل GoogleBot، موتور جستجوی بینگ BingBot و شرکت یاهو از Slurp استفاده میکند.
زمانی که ربات وارد یک صفحه میشود تمامی اطلاعات موجود در آن را بررسی میکند. این اطلاعات شامل کدهای HTML، محتوا و لینکهای متصل به صفحه مورد نظر میشود.
هرچه این ربات بیشتر به جلو میرود لینکهای بیشتری را کشف میکند به جلو میرود. در تصویر زیر نمونهای بسیار ساده از نحوه خزش یک ربات در یک مسیر یه مرحلهای مشاهده میکنید.
در تصویر بالا ربات گوگل باید 427 صفحه را بررسی کنید و این بررسی تنها به اینجا ختم نمیشود و تا زمانی که تمامی صفحات که لینک آنها به هر یک از این 427 صفحه متصل شده است بررسی نشوند این پروسه برای سایت مثال ما به پایان نمیرسد. در این پروسه ربات بسیاری از لینکها را چندین و چند با مرور میکند. برای مثال لینکهای موجود در هدر و فوتر سایک که در تمامی صفحات باید موجود باشند. برای جلوگیری از بررسی مجدد هر یک از این لینکها روبات ارتباط بین دو صفحهای که بر اساس این لینکها به وجود میآید را بدون بررسی مجدد ثبت میکند و به سراغ صفحه بعدی میرود.
تمامی این اطلاعات جمعآوری شده در دیتاسنترهای عظیمی که در ویدئو زیر میتوانید یکی از آنها را مشاهده کنید ذخیره میشوند.
ذخیره سازی اطلاعات بررسی شده بصورت تصادفی و نامنظم نیست و تمامی این اطلاعات بصورت موضوعی و در کنار اطلاعات مشابه خودشان ذخیره سازی میشوند تا زمانی که الگوریتم درخواست پیدا کردن اطلاعات درخواستی را دارد دقت و سرعت پیدا کردن و نمایش اطلاعات بالاتر رود.
ارائه اطلاعات برای نمایش در نتایج یک جستجو
زمانی نوبت به استفاده از اطلاعات جمعآوری شده میرسد، اصل موضوع چیز چندان پیچیدهای نیست اما این موضوع زمانی پیچیده میشود که میزان دقت نمایش اطلاعات اهمیت پیدا کند و با توجه به اینکه این موضوع بسیار مهم است و شاخص اصلی مقایسه موتورهای جستجو است این موضوع بسیار پیچیده میشود.
میزان کیفیت نمایش اطلاعات درخواستی بسته به الگریتمهائی دارد که هر یک از موتورهای جستجو برای خود یک الگوریتم ویژه را بر اساس اطلاعات جمعآوری شده آماری و فنی از کاربران و بسیاری از منابع دیگر میسازند. بر این اساس هر یک از این موتورهای جستجو فاکتورهای ویژهای را در ساختارهای یک وب سایت در نظر میگیرند و بر این اساس به هر صفحه امتیاز ویژهای را اختصاص میدهند که بر اساس این امتیاز الویت نمایش صفحات در هر یک از موتورهای جستجو مشخص میشود. برای مثال آخرین الویتهای شرکت گوگل برای بررسی و رتبه بندی وبسایتها شامل: محتوا، لینکها و RankBrain است.
موتورهای جستجو با ترکیب هزاران سیگنال موجود در سطح وب بهترین نتایج را برای شما انتخاب میکنند و نمایش میدهند.