كيف يعمل جوجل؟

فك الشفرة الهندسية لمحرك البحث جوجل

google

تتزايد مواقع الويب يوما بعد يوم وبسرعة هائلة، ويتزايد معها المستخدمين بشكل هائل. والناس تبحث بأحد طريقتين: إما أن تتصفح مواقع الأدلة مثل ياهو، والتي تستعرض الويب من خلال شجرة من الموضوعات. أو تستخدم محركات البحث مثل جوجل للبحث فيها بالكلمات المفتاحية. وفي الطريقتين تصل إلى مواقع الويب حيث مبتغاك النهائي

وتكمن قوة محركات البحث في أنها تعمل بشكل تلقائي، ولا تعتمد على تصنيف المواقع من خلال الجهد البشري كما في مواقع الأدلة مثل ياهو. لكن محركات البحث أيضا يعيبها أنها تسترجع نتائج غير مهمة، فضلا عن أن ثمة مواقع تستطيع خداع محركات البحث لتظهر في الصفحات الأولى من نتائج البحث. وهنا تكمن قوة جوجل الذي يتلافى هذه المشاكل

كانت بداية محركات البحث على الويب في ١٩٩٤. ففي هذا العام ظهر محرك اسمه ٤ دبليو وقام بفهرسة ١١٠ ألف صفحة، وكان يجيب على ١٥٠٠ استعلام يوميا. وفي ١٩٩٧ ظهر محركين جديدين هما ألتافيستا و ويب كراولار، واستطاعا فهرسة نحو ١٠٠ مليون صفحة، واستطاع التافيستا أن يجيب عن ٢٠ مليون استفسار يوميا

في ١٩٩٦ ظهر جوجل كمشروع بحثي في جامعة ستانفورد على يد لاري بيدج وسرجي براين، ثم تحول المشروع البحثي إلى شركة تجارية تأسست في ١٩٩٨. واعتمد محرك جوجل على ميزتين تميزانها عن المحركات الأخرى، وهي الاعتماد على تقييم المواقع رانكينج، والنص المرفق بالروابط النص أنكور  وبذلك لا يمكن لأي موقع خداع محرك البحث

كيف يتم تقييم المواقع رانكينج ؟

تعتمد خوارزمات جوجل على فكرة إعطاء رقم لكل صفحة، هذا الرقم يشير إلى عدد مرات إشارة المواقع الأخرى له. فإذا كان الموقع x يشار إليه من صفحة في الموقع A, B, C فبالتالي الموقع x يحمل رقم ٣ أو ووزنه ٣. وهكذا يتم تقييم المواقع. وبالتالي تظهر في نتائج البحث بناء على وزنها، وكلما ثقل وزنها، كلما ظهرت في ترتيب متقدم في نتائج البحث. وإليك المعادلة المستخدمة في جوجل

PR(A) = (1 – d) + d * (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

ما هي ميزة النص المرفق أنكور؟

النص المرفق بالروابط ساعد جوجل في فهرسة الرسوم والصور والخرائط، وهذه ميزة إضافية لم تكن موجودة لدى المحركات الأخرى. وقد ساعد ذلك في تقديم نتائج بحث أكثر دقة

مزايا أخرى. يتميز جوجل بأنه يضع في الاعتبار موقع الكلمات المفتاحية لكل صفحة. بمعنى موقعها راس الصفحة يسبق العناوين الفرعية، والعناوين تسبق النص، والحروف الغامقة تسبق الحروف العادية

هندسة موقع جوجل

  • الزواحف Crawler: ومهمة هذا الكود هو زيارة المواقع وتحميل صفحاتها، وعمل قائمة من الروابط الموجودة فيها.
  • المخزن Storeserver: ومهمته استقبال وتخزين الصفحات التي زارها الزاحف. ويتم حفظها مضغوطة في مخزن اسمه repository.
  • هوية الوثائق Doc Id: كل صفحة تحمل رقم هوية فريد.
  • الكشاف Indexer: ومهمته فك ضغط الصفحات من الـ repository ، وتحليلها. يقوم الكشاف بتحويل كل صفحة لعدد من الضربات hits. كل كلمة يضع لها وزن حسب موقعها في الصحفة وتنسيقها.
  • Anchor Files: مهمته تكشيف الكلمات المرتبطة بالروابط والصور والرسوم ونحوها.
  • URL resolver: ومهمته وضع الوزن للصفحات.
  • Sorter: مهمته إعادة ترتيب الكشاف Indexer بشكل عكسي
  • DumpLexion and Searcher: ومهمتهما استخدام كل ما سبق للرد على الاستعلامات.

أداء جوجل

المهام الرئيسية التي تقوم بها جوجل هي الزحف والفهرسة والفرز. وقد واجهت جوجل في البداية مشكلة في البطء حيث كانت الخوادم تواجه أعطال، والأقراص تمتلئ بسرعة. وقد أدت هذه المشاكل التقنية إلى أن عملية فهرسة ٢٦ مليون صفحة ويب استغرقت ٩ أيام. لكن بعد ان استقر النظام بدأت الخوادم تتسارع في الأداء، فآخر ١١ مليون صفحة تم فهرستهم في ٦٣ ساعة فقط

وكانت جوجل تشغل كل من الزاحف والمفهرس في نفس والوقت. وكانت سرعة الفهرسة أعلى من الزحف (٤٥ صفحة في الثانية)، وكان هذا مقصود حتى لا يحدث اختناق في أداء الخوادم

جدير بالذكر أن هذا العمل العملاق لم يكن خلفة لاري بيدج وسيرجي براين وحدهما، بل كان هناك آخرون ساهموا في هذا المشروع الضخم. ومنهم سكون حسن، وألان سترينبرغ، وأساتذة وباحثون كثيرون. فضلا عن دعم شركة صن، وإنتل، واي بي إم التي أمدت جوجل بالمعدات التقنية. ومؤسسة العلوم الوطنية إن أس أف التي قدمت الدعم العلمي عبر مشروع مكتبة ستانفورد الرقمية. فضلا عن التمويلات الحكومية من وكالة ناسا ومعهد أبحاث وزارة الدفاع الأمريكية (دربا) وشركات خاصة مثل إنترفال للأبحاث

المصدر

The Anatomy of a Large-Scale Hypertextual Web Search Engine