روبوت البحث: ما هو وكيف يعمل؟ روبوتات البحث هي روبوتات محركات البحث.

08.07.2019

عناكب محركات البحث هي روبوتات إنترنت تتمثل مهمتها في الزحف بشكل منهجي إلى الصفحات الموجودة على شبكة الويب العالمية لضمان فهرسة الويب. تقليديا، يتم إجراء مسح مساحة WWW من أجل تحديث المعلومات حول المحتوى المنشور على الشبكة من أجل تزويد المستخدمين بمعلومات محدثة حول محتوى مورد معين. سيتم مناقشة أنواع روبوتات البحث وميزاتها في هذه المقالة.

يمكن أيضًا تسمية عناكب البحث بشكل مختلف: الروبوتات وعناكب الويب والزواحف. ومع ذلك، وبغض النظر عن الاسم، فإنهم جميعًا منخرطون في دراسة مستمرة ومستمرة لمحتويات الفضاء الافتراضي. يحتفظ الروبوت بقائمة عناوين URL التي يتم تنزيل المستندات منها بشكل منتظم. إذا وجد العنكبوت رابطًا جديدًا أثناء عملية الفهرسة، فسيتم إضافته إلى هذه القائمة.

وبالتالي، يمكن مقارنة تصرفات الزاحف بشخص عادي يستخدم المتصفح. والفرق الوحيد هو أننا نفتح فقط الروابط التي تهمنا، ويفتح الروبوت كل ما لديه معلومات عنه. بالإضافة إلى ذلك، يقوم الروبوت، بعد أن يتعرف على محتويات الصفحة المفهرسة، بإرسال البيانات المتعلقة بها بشكل خاص إلى خوادم محرك البحث للتخزين حتى يتم تقديم طلب من قبل المستخدم.

في الوقت نفسه، يقوم كل روبوت بمهمة محددة خاصة به: بعض محتوى نص الفهرس، وبعض رسومات الفهرس، بينما يقوم البعض الآخر بحفظ المحتوى في الأرشيف، وما إلى ذلك.

المهمة الرئيسية لمحركات البحث- إنشاء خوارزمية تسمح لك بالحصول على المعلومات بسرعة وعلى أكمل وجه، لأنه حتى عمالقة البحث ليس لديهم القدرة على توفير عملية مسح شاملة. لذلك، تقدم كل شركة للروبوتات صيغًا رياضية فريدة، وبعد ذلك يختار الروبوت صفحة لزيارتها في الخطوة التالية. يعد هذا، إلى جانب خوارزميات التصنيف، أحد أهم المعايير التي يختار المستخدمون من خلالها محرك البحث: حيث تكون المعلومات حول المواقع أكثر اكتمالاً وحداثة وإفادة.

قد لا يعرف روبوت محرك البحث عن موقعك إذا لم تكن هناك روابط إليه (وهو أمر ربما يكون نادرًا - اليوم، بعد تسجيل اسم المجال، يتم العثور على إشارات إليه على الإنترنت). إذا لم تكن هناك روابط، فأنت بحاجة إلى إخبار محرك البحث عنها. لهذا، كقاعدة عامة، يتم استخدام "الحسابات الشخصية" لمشرفي المواقع.

ما هي المهمة الرئيسية لروبوتات البحث؟

بقدر ما نود، فإن المهمة الرئيسية لروبوت البحث ليست على الإطلاق إخبار العالم بوجود موقعنا. من الصعب صياغتها، ولكن مع ذلك، بناءً على حقيقة أن محركات البحث تعمل فقط بفضل عملائها، أي المستخدمين، يجب أن يوفر الروبوت بحثًا سريعًا وفهرسة للبيانات المنشورة على الشبكة. وهذا فقط يسمح لمحرك البحث بتلبية حاجة الجمهور لنتائج البحث ذات الصلة وذات الصلة.

بالطبع، لا تستطيع الروبوتات فهرسة 100% من مواقع الويب. وفقًا للبحث، فإن عدد الصفحات التي تم تحميلها بواسطة قادة البحث لا يتجاوز 70% من إجمالي عدد عناوين URL المنشورة على الإنترنت. ومع ذلك، فإن مدى دراسة الروبوت لمواردك بشكل كامل سيؤثر أيضًا على عدد المستخدمين الذين يتابعون الاستعلامات من البحث. ولهذا السبب يتعذب المحسنون في محاولة "إطعام" الروبوت لتعريفه بالتغييرات في أسرع وقت ممكن.

في Runet، فقط في عام 2016، انتقلت Yandex إلى المركز الثاني من حيث تغطية الجمهور الشهرية، خلف Google. لذلك، ليس من المستغرب أن يكون لديها أكبر عدد من العناكب التي تستكشف الفضاء بين أجهزة PS المحلية. من غير المجدي إدراجها بالكامل:يمكن رؤيته في القسم "مساعدة لمشرف الموقع" > إدارة روبوت البحث > كيفية التحقق من أن الروبوت ينتمي إلى Yandex.

جميع برامج زحف محركات البحث لديها وكيل مستخدم منظم بشكل صارم. من بين تلك التي يجب على منشئ الموقع أن يلبيها بالتأكيد:

  • Mozilla/5.0 (متوافق؛ YandexBot/3.0؛ +http://yandex.com/bots) - روبوت الفهرسة الرئيسي؛
  • Mozilla/5.0 (iPhone؛ CPU iPhone OS 8_1 مثل Mac OS X) AppleWebKit/600.1.4 (KHTML، مثل Gecko) الإصدار/8.0 Mobile/12B411 Safari/600.1.4 (متوافق؛ YandexBot/3.0؛ +http://yandex .com/bots) - عنكبوت الفهرسة؛
  • Mozilla/5.0 (متوافق؛ YandexImages/3.0؛ +http://yandex.com/bots) - Yandex.Images bot؛
  • Mozilla/5.0 (متوافق؛ YandexMedia/3.0؛ +http://yandex.com/bots) - يقوم بفهرسة مواد الوسائط المتعددة؛
  • Mozilla/5.0 (متوافق؛ YandexFavicons/1.0؛ +http://yandex.com/bots) - يقوم بفهرسة أيقونات الموقع.

لجذب عناكب ياندكس إلى موقعك، يوصى باتباع بعض الخطوات البسيطة:

  • تكوين ملف robots.txt بشكل صحيح؛
  • إنشاء موجز RSS؛
  • وضع خريطة موقع تحتوي على قائمة كاملة بالصفحات المفهرسة؛
  • إنشاء صفحة (أو صفحات) تحتوي على روابط لجميع مستندات المورد؛
  • تكوين حالات HTTP؛
  • ضمان النشاط الاجتماعي بعد نشر المواد (وليس فقط التعليقات، ولكن مشاركة الوثيقة)؛
  • وضع مكثف للنصوص الفريدة الجديدة.

يتم دعم الحجة الأخيرة من خلال قدرة الروبوتات على تذكر معدل تحديث المحتوى والوصول إلى الموقع مع التكرار المكتشف لإضافة مواد جديدة.

إذا كنت ترغب في منع برامج زحف Yandex من الوصول إلى الصفحات (على سبيل المثال، الأقسام الفنية)، فستحتاج إلى تكوين ملف robots.txt. تستطيع عناكب PS فهم الاستثناءات القياسية للروبوتات، لذلك لا توجد عادةً أي صعوبات عند إنشاء ملف.

وكيل المستخدم: Yandex

عدم السماح: /

سيمنع PS من فهرسة الموقع بأكمله.

بالإضافة إلى ذلك، فإن روبوتات Yandex قادرة على مراعاة التوصيات المحددة في العلامات الوصفية. مثال: سيحظر التظاهر في إصدار رابط لنسخة من وثيقة من الأرشيف. وإضافة علامة إلى رمز الصفحة سيشير إلى أن هذا المستند لا يحتاج إلى فهرسته.

يمكن العثور على قائمة كاملة بالقيم المقبولة في قسم "استخدام عناصر HTML" في مساعدة مشرفي المواقع.

روبوتات بحث جوجل

آلية Google الرئيسية لفهرسة محتوى WWW تسمى Googlebot. تم تكوين محركها لفحص مليارات الصفحات كل يوم للعثور على المستندات الجديدة أو المتغيرة. وفي الوقت نفسه، يحدد الروبوت نفسه الصفحات التي سيتم مسحها وأيها يجب تجاهلها.

بالنسبة لهذا الزاحف، من المهم أن يحتوي الموقع على ملف Sitemap مقدم من مالك المورد. إن شبكة أجهزة الكمبيوتر التي تضمن عملها قوية جدًا بحيث يمكن للروبوت تقديم طلبات إلى صفحات موقعك مرة واحدة كل بضع ثوانٍ. وتم تكوين الروبوت لتحليل عدد أكبر من الصفحات دفعة واحدة، حتى لا يسبب تحميلًا على الخادم. إذا كان موقعك بطيئًا بسبب طلبات العنكبوت المتكررة، فيمكنك تغيير سرعة الزحف عن طريق ضبطها في Search Console. لسوء الحظ، ليس من الممكن زيادة سرعة المسح.

يمكن أن يُطلب من برنامج Google bot إعادة الزحف إلى الموقع. للقيام بذلك، تحتاج إلى فتح Search Console والبحث عن ميزة "إضافة إلى الفهرس"، المتوفرة لمستخدمي أداة التصفح مثل Googlebot. بعد المسح، سيظهر زر إضافة إلى الفهرس. ومع ذلك، لا تضمن جوجل فهرسة جميع التغييرات، لأن العملية تنطوي على عمل “خوارزميات معقدة”.

أدوات مفيدة

من الصعب جدًا سرد جميع الأدوات التي تساعد المُحسِّنين على العمل مع الروبوتات، نظرًا لوجود الكثير منها. بالإضافة إلى "العرض كـ Googlebot" المذكور أعلاه، تجدر الإشارة إلى محللي ملفات Google وYandex robots.txt، ومحللي ملفات Sitemap، وخدمة "التحقق من استجابة الخادم" من PS الروسي. بفضل إمكانياتها، سوف تتخيل كيف يبدو موقعك في عيون العنكبوت، مما سيساعدك على تجنب الأخطاء وضمان أسرع زحف إلى موقعك.

تستخدم محركات البحث للزحف إلى مواقع الويب الروبوتات (العناكب والزواحف) - برامج فهرسة الصفحات وإدخال المعلومات الواردة في قاعدة البيانات. يشبه مبدأ تشغيل العنكبوت مبدأ المتصفح: فهو يقوم بتقييم محتويات الصفحة، وحفظها على خادم محرك البحث، وتتبع الارتباطات التشعبية إلى الأقسام الأخرى.

يمكن لمطوري محركات البحث تحديد الحد الأقصى لحجم النص الممسوح ضوئيًا وعمق اختراق الروبوت للمورد. لذلك، من أجل الترويج الفعال لموقع الويب، يتم ضبط هذه المعلمات وفقًا لخصائص فهرسة الصفحات بواسطة العناكب المختلفة.

يتم تحديد تكرار الزيارات وترتيب مواقع الزحف ومعايير تحديد مدى صلة المعلومات بطلبات المستخدم بواسطة خوارزميات البحث. إذا كان هناك رابط واحد على الأقل من موقع ويب آخر يؤدي إلى المورد الذي تم الترويج له، فسوف تقوم الروبوتات بفهرسته بمرور الوقت (كلما زاد وزن الرابط، كلما كان أسرع). بخلاف ذلك، لتسريع عملية الترويج لموقع الويب، تتم إضافة عنوان URL الخاص به إلى قاعدة بيانات محرك البحث يدويًا.

أنواع العناكب

اعتمادا على الغرض، يتم تمييز الأنواع التالية من روبوتات البحث.

  • وطنية أو رئيسية. جمع المعلومات من نطاق وطني واحد، على سبيل المثال .ru أو .su، والمواقع المقبولة للفهرسة؛
  • عالمي. جمع البيانات من جميع المواقع الوطنية؛
  • فهارس الصور وملفات الصوت والفيديو;
  • صناع المرآة. تحديد مرايا الموارد؛
  • مرجع. إحصاء عدد الروابط الموجودة بالموقع؛
  • الإضاءة الخلفية. يقومون بتنسيق نتائج محرك البحث، على سبيل المثال، تسليط الضوء على العبارات المطلوبة في النص؛
  • مفتشون. إنهم يتحكمون في مدى توفر المورد في قاعدة بيانات محرك البحث وعدد المستندات المفهرسة؛
  • المخبرين (أو نقار الخشب). تحديد إمكانية الوصول إلى الموقع أو الصفحة أو المستند الذي يؤدي إليه الارتباط بشكل دوري؛
  • جواسيس. البحث عن روابط للموارد التي لم تتم فهرستها بعد بواسطة محركات البحث؛
  • مقدمي الرعاية. يتم تشغيلها في الوضع اليدوي وإعادة فحص النتائج التي تم الحصول عليها؛
  • الباحثين. يستخدم لتصحيح أخطاء خوارزميات البحث ودراسة المواقع الفردية؛
  • الروبوتات السريعة. يقومون تلقائيًا بالتحقق من تاريخ آخر تحديث ويقومون بفهرسة المعلومات الجديدة على الفور.

التسميات

أثناء تحسين محرك البحث لموقع ويب، يتم حظر بعض المحتوى من الفهرسة بواسطة الروبوتات (المراسلات الشخصية للزوار، وسلال الطلبات، والصفحات التي تحتوي على ملفات تعريف للمستخدمين المسجلين، وما إلى ذلك). للقيام بذلك، في ملف robots.txt في حقل وكيل المستخدم، أدخل أسماء الروبوتات: لمحرك بحث Yandex - Yandex، لـ Google - Googlebot، لـ Rambler - StackRambler، لـ Yahoo - Yahoo! Slurp أو Slurp، لـ MSN - MSNBot، لـ Alexa - ia_archiver، إلخ.

برنامج تسويقي وخدمي لتداول الروابط على الانترنت والذي ليس له منافس من حيث الجودة والتنوع والخصائص - زيوس أفضل برنامج تسويق عبر الانترنت. ... لدينا zSearch الاختياري يحول زيوس إلى كامل محرك البحثنظام.

يتصرف مثل إنسان آلي محركات البحثالأجهزة (Googlebot، MSNBot، WISENutbot، Alexa، إلخ. ... يتجاهل Fast Link Checker جميع روابط Gopher و News و mailto. ... يدعم Fast Link Checker خوادم بروكسي HTTP و HTTPS و SOCKS. ... في Fast يقوم برنامج Link Checker بتنفيذ خوارزمية متعددة الخيوط للعمل مع الملفات، مما يضمن التحميل والفحص المتزامن لعدة صفحات في وقت واحد،...

يعد البرنامج النصي المُحسّن لـ ASP لتبادل روابط دليل الويب من Pro Data Doctor أمرًا سهلاً محرك البحثتم تطوير النظام وهذا البرنامج النصي وفقًا لمتطلبات تحسين محركات البحث (SEO). محركات البحثأنظمة. ... - يدعم الكود حفظ عدد غير محدود من الروابط الخلفية مما يزيد من ترتيبك فيها محركات البحثأنظمة.

يشمل الشخصية محرك البحث إنسان آليللبحث تلقائيًا في الإنترنت عن مواضيع تناسبك. ...شارك معرفتك باستخدام محرك البحثبوت. ... سيجد لك My SearchBot كل ما يمكنك عرضه وحفظه ثم توزيعه في مجلدات. ... بما في ذلك جدار الحماية المدمج وبرنامج الأمان، سيحميك هذا البرنامج من جميع التهديدات المحتملة بنقرة واحدة.

الوظيفة: إحصائيات في الوقت الحقيقي؛ 64 تقريرًا (14 مجانًا)؛ تنزيلات الملفات؛ الروبوتات; إحصائيات تغذية RSS؛ الروابط؛ محركات البحثعبارات؛ تجزئة جمهور الموقع؛ مقياس تحويل الزائر؛ البلدان والمناطق والمدن والمنظمات؛ مقياس خادم الويب؛ وضع متعدد اللاعبين؛ قاعدة بيانات فائقة الصغر؛ استقلالية المنصة؛ نسخة مجانية وأكثر بكثير.

مولد النص: - دعم ما يصل إلى 300 الروبوتاتو محركات البحثعملاء. ... - عدد غير محدود من المجموعات للتحكم إنسان آلي. ... - أخذ عينات الاستبعاد WYSIWYG الروبوتاتوالملف/الدليل. ... - التحميل التلقائي إلى خادم الويب. ... - عدد غير محدود من المشاريع والمواقع. ... - التوثيق عبر الإنترنت أو دون اتصال.

باستخدام IIS Mod-Rewrite Pro، يمكنك التعامل مع عناوين URL بسرعة وإنشاء عناوين URL الخاصة بك محركات البحثأنظمة مواقع الويب، وإجراء عمليات إعادة التوجيه، وحظر عناوين URL معينة، والحظر المزعج الروبوتاتوأكثر بكثير. ... يأتي البرنامج أيضًا مزودًا بلوحة تحكم غنية بالميزات تتضمن التحديثات عبر الإنترنت وعمليات التراجع عن الإصدارات والتشخيصات واختبار regex وغيرها الكثير...

يتيح لك Web Log Suite أيضًا تصفية الزيارات الروبوتات محركات البحثأنظمة ... سيزودك هذا البرنامج بمعلومات حول زوار الموقع، وإحصائيات النشاط، وإحصائيات الوصول إلى الملفات، ومعلومات حول الصفحات التي تم الوصول إليها، محركات البحثالأنظمة، الأخطاء، بلدان الزوار، الوصول إلى مواقع الويب، يمكنك الحصول على معلومات عنها محركات البحثكلمات وعبارات و...

وتتمثل مهمته في تحليل محتوى صفحات المواقع المعروضة على الإنترنت بعناية وإرسال نتائج التحليل إلى محرك البحث.

يقوم روبوت البحث بالزحف إلى الصفحات الجديدة لفترة من الوقت، ولكن يتم فهرستها لاحقًا، وفي حالة عدم وجود أي عقوبات من محركات البحث، يمكن عرضها في نتائج البحث.

مبدأ التشغيل

يعتمد عمل روبوتات البحث على نفس مبدأ عمل المتصفح العادي. عند زيارة موقع معين، يقومون بتجاوز بعض صفحاته أو جميع الصفحات دون استثناء. يرسلون المعلومات المستلمة حول الموقع إلى فهرس البحث. تظهر هذه المعلومات في نتائج البحث المقابلة لطلب معين.

نظرًا لحقيقة أن روبوتات البحث لا يمكنها سوى زيارة جزء من الصفحات، فقد تنشأ مشكلات عند فهرسة المواقع الكبيرة. يمكن أن تنشأ نفس المشاكل بالضبط بسبب الجودة الرديئة.

تؤدي الانقطاعات في عملها إلى جعل بعض الصفحات غير متاحة للتحليل. يلعب ملف robots.txt الذي تم تجميعه وتكوينه بشكل صحيح دورًا مهمًا في تقييم الموقع بواسطة روبوتات البحث.

يعتمد عمق فحص الموارد وتكرار الزحف إلى المواقع بواسطة روبوتات البحث على:

  • خوارزميات لمحركات البحث.
  • تردد تحديث الموقع.
  • هياكل الموقع.

فهرس البحث

تسمى قاعدة بيانات المعلومات التي تجمعها روبوتات البحث بفهرس البحث. يتم استخدام قاعدة البيانات هذه بواسطة محركات البحث لإنشاء نتائج بحث لملفات محددة.

لا يتم إدخال معلومات حول المواقع فقط في الفهرس: فروبوتات البحث قادرة على التعرف على الصور وملفات الوسائط المتعددة والمستندات بتنسيقات إلكترونية مختلفة (.docx، .pdf، وما إلى ذلك).

يعد Bystrobot أحد أكثر روبوتات البحث نشاطًا في نظام Yandex. يقوم باستمرار بمسح الموارد الإخبارية والمواقع الأخرى التي يتم تحديثها بشكل متكرر. ، الذي لم يلاحظه الروبوت السريع، ليس له أي معنى.

يمكنك جذبها بمساعدة أدوات خاصة، وهي فعالة للمواقع لمجموعة واسعة من الأغراض. توجد روبوتات منفصلة للتحقق من إمكانية الوصول إلى المواقع، وتحليل خصائصها الفردية، وفهرسة الصور والمستندات في محركات البحث.

أهلاً بكم! سأخبرك اليوم عن كيفية عمل روبوت البحث. سوف تتعلم أيضًا ما هي روبوتات البحث. الغرض منها وميزاتها.

في البداية، سأبدأ بالتعريف.

روبوت البحث هو نوع من البرامج التي تقوم بزيارة روابط النص التشعبي، واستخراج جميع المستندات اللاحقة من مورد معين وإدخالها في فهرس محرك البحث.

كل روبوت بحث له اسم فريد خاص به - الزاحف، العنكبوت، إلخ.

ماذا يفعل روبوت البحث؟

كما قلت من قبل، كل روبوت له اسم فريد خاص به، وبالتالي، يؤدي كل روبوت وظيفته المحددة، أو دعنا نقول، غرضه.

دعونا نلقي نظرة على الوظائف التي يؤدونها:

  • طلب الدخول إلى الموقع؛
  • طلب معالجة واسترجاع الصفحات؛
  • طلب تحليل المحتوى؛
  • البحث عن الروابط.
  • تحديثات الرصد؛
  • الاستعلام عن بيانات RSS (جمع المحتوى)؛
  • الفهرسة.

على سبيل المثال، لدى Yandex العديد من الروبوتات التي تقوم بفهرسة وتحليل وجمع المعلومات بشكل منفصل حول البيانات التالية:

  • فيديو؛
  • الصور؛
  • مرآة الموقع
  • ملفات XML؛
  • ملف Robots.txt؛
  • تعليقات؛

بشكل عام، في جوهرها، يقوم روبوت البحث ببساطة بزيارة موارد الإنترنت، وجمع البيانات اللازمة، والتي ينقلها بعد ذلك إلى مفهرس محرك البحث.

إنه مفهرس محرك البحث الذي يعالج البيانات المستلمة ويبني فهرس محرك البحث بشكل صحيح. بل أود أن أقول إن الروبوت هو "ساعي" يقوم فقط بجمع المعلومات.

كيف تتصرف الروبوتات وكيفية السيطرة عليها

الاختلافات بين سلوك الروبوت والمستخدم العادي على الموقع هي كما يلي:

1. أولاً، يتعلق الأمر بإمكانية التحكم. أولًا، يطلب الروبوت من مضيفك () ملف robots.txt، والذي يشير إلى ما يمكن فهرسته وما لا يمكن فهرسته.

2. ما يجعل الروبوت مميزًا هو سرعته. وبين كل طلب يشير إلى وثيقتين مختلفتين، تبلغ سرعتهما ثواني، أو حتى أجزاء من الثانية.

وحتى بالنسبة لهذا، هناك قاعدة خاصة يمكن تحديدها في ملف robots.txt بحيث يتمكن روبوت محرك البحث من وضع حد للطلبات، وبالتالي تقليل الحمل على المدونة.

3. وأود أيضًا أن أشير إلى عدم القدرة على التنبؤ بهم. عندما يزور الروبوت مدونتك، لا يمكن تتبع أفعاله، ومن المستحيل معرفة مصدره، وما إلى ذلك. إنه يعمل وفقًا لمبدأه الخاص، وبالترتيب الذي تم به إنشاء قائمة انتظار الفهرسة.

4. ونقطة أخرى هي عندما يهتم الروبوت أولاً بالنص التشعبي والمستندات النصية، وليس بأي ملفات تتعلق بتصميم CSS، وما إلى ذلك.

هل تريد أن ترى كيف تبدو صفحة مدونتك لمحرك البحث؟ ببساطة، قم بتعطيل الفلاش والصور وأنماط التصميم في متصفحك.

وسترى أن أي روبوت بحث يدخل في الفهرس كود HTML الخاص بالصفحة فقط، دون أي صور أو محتوى آخر.

والآن حان الوقت للحديث عن كيفية إدارتها. وكما قلت سابقاً، يمكنك التحكم في الروبوتات من خلال ملف خاص robots.txt، يمكنك من خلاله كتابة التعليمات والاستثناءات التي نحتاجها للتحكم في سلوكها على مدونتك.

عليك أن تكون حذرا للغاية في هذه المرحلة! لذا، باعتباره روبوتًا، يعد PS جزءًا مهمًا جدًا يؤثر بشكل مباشر على مصير مدونتك، وهذا ينطبق بشكل خاص على فهرستها وتصنيفها والعديد من النقاط المهمة الأخرى.

تذكر أن مدونتك يجب أن تنال إعجاب محركات البحث! كيفية تكوين الملف بشكل صحيح ملف robots.txt، سأخبرك في المقال التالي. أوصي أيضًا بقراءة مقالات حول ماهية تحويل موقع الويب. هذا كل ما لدي لهذا اليوم.