Robots.txt क्या है? यह किसी वेबसाइट के लिए क्यों आवश्यक हैं?

Robots.txt क्या है?

Robots.txt (रोबोट्स.टीएक्सटी) जैसा कि आप इसके नाम से हिं समझ पा रहे होंगे कि एक रोबोट द्वरा स्वचालित कम्प्यूटर प्रोग्राम, जिसे सर्च इंजन के रोबोट द्वारा किसी भी वेबसाइट और ब्लॉग के विभिन्न लिंक, वेब-पेज और कन्टेन्ट आदि को इन्डेक्सिंग  करने के लिए इस्तेमाल किया जाता है।

robots.txt एक टेक्स्ट फाइल है। जिसे हम अपनी वेबसाइट के रूट सर्वर में इस्तेमाल करते हैं। इसके साथ हीं साथ इस फाइल के द्वारा सर्च इंजन के रोबोट जैसे कि गूगलबोट को हम यह निर्देश देते हैं कि हमारी वेबसाइट के किस पेज, कन्टेंट और फाइल आदि को इन्डेक्सिंग करना है या फिर इन्डेक्सिंग नहीं करना है। 

सर्च इंजन ऑप्टिमाइजेशन क्या है? किसी वेबसाइट और ब्लॉग के लिए क्यों जरुरी है?

Robots.txt किसी वेबसाइट के लिए क्यों आवश्यक हैं?

Robots.txt structure

प्रायः हमें यह अच्छा लगता है कि सर्च इंजन के वेब क्रॉलर्स या रोबोट्स अक्सर हमारी वेबसाइट और ब्लॉग पर आते हैं और हमारे द्वारा निर्देशित कन्टेन्ट को इंडेक्स करते हैं। पर दिक्कत तब होती है जब हमारी वेबसाइट के कुछ संवेदनशील कन्टेन्ट को भी इंडेक्स कर देते हैं, जिसे हम नहीं चाहते हैं कि इंडेक्स हो। सही से सर्च इंजन को निर्देश नहीं देने के कारण सर्च इंजन के रोबोट कुछ ऐसे कन्टेन्ट, पेज या फाइल आदि को इंडेक्स कर देते हैं। जिसे की हम नहीं चाहते हैं कि पूरी दुनिया को इसके बारे में पता चले।

सर्च इंजन के रोबोट या वेब क्रॉलर सॉफ्टवेयर्स, किसी भी वेबसाइट को इंडेक्स करने से पहले robots.txt फाइल के निर्देश को खोजते हैं। जब कोई निर्देश नहीं मिलता है। तो ये पूरी वेबसाइट के सभी कन्टेन्ट को इंडेक्स कर देते हैं। और यदि कोई निर्देश मिलता है, तो उस निर्देश का पालन करते हुए वेबसाइट को इन्डेक्सिंग करते हैं।

अतः इन्हीं कारणों से robots.txt फाइल की आवश्यक पड़ती है। अगर हम robots.txt के द्वारा सर्च इंजन के रोबोट या क्रॉलर सॉफ्टवेयर को निर्देश नहीं देते हैं। तो ये हमारी पूरी वेबसाइट और ब्लॉग को तो इंडेक्स करते हीं हैं, साथ हीं साथ कुछ ऐसे भी संवेदनशील डेटा को इंडेक्स कर देते हैं, जिसे कि हमें इंडेक्सिंग होने से रोकना होता है। इसलिए robots.txt के द्वारा सर्च इंजन के वेब क्रॉलर सॉफ्टवेयर्स और रोबोट्स को हम यह निर्देश देते हैं कि हमारी वेबसाइट के कौन सी हिस्से की इंडेक्सिंग करनी है और किस हिस्से की इंडेक्सिंग नहीं करनी है।

Robots.txt फाइल के कुछ खास फायदें 

  • निर्देश के अनुसार वेबसाइट के किसी खास हिस्से का या फिर पूरी वेबसाइट का हीं इंडेक्स होता है।
  • किसी खास फाइल, फोल्डर, इमेज, पीडीएफ आदि को सर्च इंजन के रोबोट द्वारा इन्डेक्सिंग होने से रोका जा सकता है।
  • सर्च इंजन के रोबोट या क्रॉलर को यह बताने के लिए की आपकी वेबसाइट की साईटमैप कहाँ है।
  • वेबसाइट के किसी एक निश्चित क्षेत्र को सुरक्षित रखने के लिए।
  • जब सर्च इंजन के रोबोट, एक बार में एक साथ कई कन्टेन्ट को इन्डेक्सिंग के लिए लोड करते हैं, तो इससे सर्वर ओवरलोड हो जाता है। अतः इससे बचने के लिए भी हम robots.txt फाइल में, सर्वर में विलम्व का निर्देश दे सकते हैं।

Robots.txt फाइल कहाँ रहता है?

किसी भी वेबसाइट की robots.txt फाइल की लोकेशन बहुत हीं महत्वपूर्ण होती है। इसे आपकी वेबसाइट की यूआरएल की मेन डायरेक्टरी में होना चाहिए। किसी भी सर्च इंजन के वेब क्रॉलर या रोबोट, वेबसाइट की रूट डायरेक्टरी में हीं robots.txt फाइल के निर्देश को खोजते हैं। अगर इस लोकेशन में यह फाइल नहीं मिलती है। तो सर्च इंजन के वेब क्रॉलर पूरी वेबसाइट को इंडेक्स कर देते हैं। क्योंकि वेब क्रॉलर robots.txt फाइल के लिए वे पूरी वेबसाइट को सर्च नहीं करते हैं। इसलिए पहले यह सुनिश्चित कर लेना जरुरी हो जाता है कि robots.txt फाइल आपके सर्वर की किस डायरेक्टरी में स्थित है।

Robot.txt का लोकेशन

Robots.txt सिंटेक्स कैसा होता है?

robots.txt फाइल में दो कीवर्ड User-agent और Disallow का व्यवहार होता है। User-agent (उपयोगकर्ता-एजेंट) सर्च इंजन के रोबोट और वेब क्रॉलर सॉफ्टवेयर होते हैं। जैसे, गूगलबोट, बिंगबोट, एमएसएन बोट आदि। Disallow (उपयोगकर्ता-एजेंट) गूगलबोट, बिंगबोट जैसे सर्च इंजन के रोबोट और वेब क्रॉलर सॉफ्टवेयर के लिए निर्देश होता है। जो किसी विशिष्ट वेबसाइट के यूआरएल को एक्सेस न करने के बारे में उसे बताता है।

गूगल का सर्च इंजन रोबोट और वेब क्रॉलर सॉफ्टवेयर

गूगल कई यूजर-एजेंट का इस्तेमाल करता है। जैसे कि गूगल सर्च के लिए “गूगलबोट” और गूगल फोटो सर्च के लिए गूगलबोट-इमेज”। अधिकांश गूगल के यूजर-एजेंट, आपके द्वारा गूगलबोट के लिए सेट किए गए नियमों का पालन करते हैं। लेकिन आप इस विकल्प को ओवरराइड या बदल भी सकते सकते हैं। और साथ हीं केवल कुछ गूगल यूजर-एजेंट के लिए विशिष्ट नियम बना सकते हैं।

सिंटैक्स का प्रयोग इस प्रकार होता है

User-agent:  (रोबोट या वेब क्रॉलर सॉफ्टवेयर का नाम होता है।)
Disallow:      (URL पथ जिसे आप अवरोधित करना चाहते हैं।)
Allow:           (ऐसा URL पथ जिसे आप अनवरोधित करना चाहते हैं।)

ऊपर के इस सिंटेक्स का robots.txt फाइल में इस्तेमाल करने का मतलब ये होता है कि आप पूरी वेबसाइट के सभी कन्टेंट को इन्डेक्सिंग करने की अनुमति प्रदान कर रहे हैं।

User-agent: यहाँ हम किसी भी सर्च इंजन के सर्च रोबोट या वेब क्रॉलर को निर्देश देते हैं, इन्डेक्सिंग करने के लिए या फिर इन्डेक्सिंग नहीं करने के लिए। अगर आप सभी रोबोट को एक हीं चीज के बारे में निर्देश देना चाहते हैं, तो User-agent: के बाद  * चिन्ह का प्रयोग करें। जैसे,

User-agent: *

Allow:  यहाँ पर हम सर्च इंजन के रोबोट को अनुमति प्रदान करते हैं कि ओ हमारी किसी फोटो, फाइल, फोल्डर, कन्टेन्ट आदि को इंडेक्स कर सकता है।  यह निर्देश किसी फोडर के अंदर उपस्थित एक विशिष्ट फोटो को इन्डेक्सिंग करने की अनुमति देता है। जैसे,

User-agent: *
Disallow: /photos
Allow: /photos/mycar.jpg

इस सिंटेक्स के द्वारा robots.txt फाइल में, सर्च इंजन के रोबोट को यह निर्देश दिया गाय है कि फोटो के अंदर स्थित mycar.jpg फोटो को इंडेक्स कर सकता है।

वेबसाइट को पूरी तरह से इन्डेक्सिंग करने से रोकना

User-agent: *(सभी सर्च इंजन रोबोट या वेब क्रॉलर सॉफ्टवेयर)
Disallow: /  (अस्वीकृति प्रदान करना)

robots.txt फाइल में इस सिंटेक्स का इस्तेमाल हम सभी सर्च इंजन के वेब क्रॉलर और रोबोट को वेबसाइट के किसी भी पेज या किसी भी कन्टेन्ट को पूरी तरह से इन्डेक्सिंग करने से रोकने के लिए करते हैं।

वेबसाइट को पूरी तरह से इन्डेक्सिंग करने की अनुमति देना

User-agent: *(सभी सर्च इंजन रोबोट या वेब क्रॉलर सॉफ्टवेयर)
Disallow:   (स्वीकृति प्रदान करना) 
अथवा
User-agent: *(सभी सर्च इंजन रोबोट या वेब क्रॉलर सॉफ्टवेयर)
Allow: /(स्वीकृति प्रदान करना)

robots.txt फाइल में इस सिंटेक्स का इस्तेमाल हम सभी सर्च इंजन के वेब क्रॉलर और रोबोट को पूरी तरह से वेबसाइट के सभी कन्टेन्ट और पेज को इन्डेक्सिंग करने की अनुमति प्रदान करते हैं।

गूगलबोट के द्वारा एक विशिष्ट फोडर को इन्डेक्सिंग करने से रोकना 

User-agent: Googlebot (एक विशिष्ट सर्च इंजन रोबोट या वेब क्रॉलर सॉफ्टवेयर)
Disallow: /example-subfolder/(यूआरएल स्ट्रिंग के एक निश्चित फोल्डर को अस्वीकृति प्रदान करना)

robots.txt फाइल में इस सिंटेक्स का इस्तेमाल हम एक विशिष्ट सर्च रोबोट या वेब क्रॉलर, जैसे कि गूगलबोट को वेबसाइट के एक विशेष फोल्डर को इन्डेक्सिंग करने से रोकने का लिए करते हैं।

एक विशिष्ट पेज को इन्डेक्सिंग से रोकना

User-agent: Bingbot   (एक विशिष्ट सर्च इंजन रोबोट या वेब क्रॉलर सॉफ्टवेयर)
Disallow: /example-subfolder/blocked-page.html       (विशेष पेज को इन्डेक्सिंग से अस्वीकृत करना)

इस सिंटेक्स का इस्तेमाल robots.txt फाइल में हम एक विशिष्ट वेब-पेज को इन्डेक्सिंग करने से ब्लॉक करने के लिए करते हैं।

सर्वर में विलम्ब का निर्देश

सर्च इंजन के रोबोट एक साथ कई कन्टेन्ट को इन्डेक्सिंग करने के लिए लोड करते हैं। इससे सर्वर पर ज्यादा लोड पड़ता है और सर्वर ओवरलोड हो जाता है। इससे बचने के लिए हम robots.txt में टाइम डिले का इस्तेमाल कर कर सकते हैं। जैसे ,

User-agent: Bingbot
Crawl-delay: 10

यहाँ 10 (सेकंड) समय को प्रदर्शित करता है।

यूआरएल को इन्डेक्सिंग होने से रोकना

जब कोई वेबसाइट या ब्लॉग नया होता है, तो हम उसे इंडेक्स होने से रोकना चाहते हैं। परन्तु robots.txt में सिंटेक्स को सही से नहीं इस्तेमाल करने के कारण, गूगल यूआरएल को इंडेक्स कर देता है और एक निचे नोट लिखा रहता है कि 

Robot.txt-को-इन्डेक्सिंग-से-रोकना

गूगल के सर्च में ऐसा आने का कारण है कि मैंने जो सिंटेक्स का इस्तेमाल किया है, वह इस प्रकार है –

Robot.txt-से-robot-को-रोकना

अगर इस सिंटेक्स को हम इस प्रकार लिखते हैं, तो सर्च इंजन के रोबोट हमरी यूआरएल को इंडेक्स नहीं करेंगे जैसे,

User-agent: *
Disallow: /*?

प्रश्नवाचक चिन्ह हमारी वेबसाइट के सभी यूआरएल को इंडेक्स करने से रोकता है। इस प्रकार robots.txt फाइल में इस सिंटेक्स को इस तरह से लिखकर सभी यूआरएल को सर्च इंजन के रोबोट और वेब क्रॉलर सॉफ्टवेयर से इन्डेक्सिंग होने से रोका जा सकता है।

Leave a Comment