Robots.txt एक ऐसा शब्द हैं जिसके बारे में बहुत ही कम लोगों को पता होता हैं लेकिन जिन्हें भी इस के बारे में जानकारी होती हैं उनके ये बहुत काम की चीज हैं। खासकर उन लोगों के लिए जिनकी कोई वेबसाइट या ब्लॉग हैं, आज के इस लेख में हम आपको Robots.txt के बारें में बताने जा रहें हैं। जिसके बारें में जानकर आपको काफी ज्यादा पहुँचेगा।
यदि आपकी कोई वेबसाइट हैं या ब्लॉग हैं तो कभी ना कभी आपकों ये महसूस हुआ होगा कि कुछ ऐसी चीजें जो आपके ब्लॉग या वेबसाइट में मौजूद हैं जिसे आप नहीं चाहते कि वो सब देख सकें पर फिर भी वो पब्लिक हो जाते हैं। क्या आप इसके पीछे की वजह जानते हैं दरअसल जब हमारे आर्टिकल या कंटेंट इंडेक्स नहीं होते हैं तो ऐसा होता हैं।
वैसे तो Robots Metatag का इस्तेमाल सर्च इंजन को ये बताने के लिए किया जाता हैं कि वेबसाइट पर मौजूद किस फोल्डर या फ़ाइल को दिखाना हैं और किसे नहीं लेकिन बहुत से सर्च इंजन इन Metatag को समझ नहीं पाते जिसकी वजह से काफी Robots Metatag बिना नोटिस में आए रह जाते हैं। लेकिन Robots.txt के जरिए आप इस समस्या को दूर कर सकते हैं और इसके द्वारा आप सर्च इंजन को ये बात सकते हैं कि किस फ़ाइल या फोल्डर को दिखाना हैं और किसे नहीं।
क्या होता हैं Robots.txt?
Robots.txt एक ऐसी फ़ाइल होती हैं जिसे हम अपनी वेबसाइट में इसलिए रखते हैं ताकि उसके द्वारा हम सर्च इंजन को ये बता सकें कि उसे आपकी वेबसाइट में कौन से पेज को सर्च करना हैं या Crawl करना हैं। लेकिन ऐसा नहीं हैं कि सर्च इंजन के लिए ये जरूरी नहीं हैं कि वो Robots.txt के नियम को माने हालांकि वो Robot.nxt के द्वारा बताए गए फ़ाइल को सर्च नहीं करता।
Robot.nxt को हमेशा ही वेबसाइट की मेन डायरेक्टरी में रखना चाहिए ताकि हमेशा सर्च इंजन उसे आराम से ढूंढ सकें। एक बात का हमेशा ध्यान रखना चाहिए कि अगर हम Robot.nxt की फ़ाइल को वेबसाइट में सही जगह नहीं लगाएंगे तो सर्च इंजन उसे implement नहीं करेगा क्योंकि उसे ये लग सकता हैं कि हो सकता हैं आपकी वेबसाइट में Robot.nxt ना हो। इसकी वजह से आपकी वेबसाइट के वेब पेज भी इंडेक्स (Index) नहीं होंगे इसलिए Robot.nxt को सही तरीके से ही लगाना चाहिए वरना हमारी वेबसाइट या ब्लॉग की रैंकिंग को भी नुकसान पहुंच सकता हैं।
जब भी कोई भी सर्च इंजन आपकी वेबसाइट या ब्लॉग को पहली बार access करता हैं तो उसका सबसे पहला काम आपकी वेबसाइट या ब्लॉग पर मौजूद Robot.nxt की फ़ाइल को crawl करना होता हैं जिससे कि उसे ये जानकारी मिल सकें कि आपकी वेबसाइट पर किन फ़ाइल को उसे access नहीं करना हैं और किन फ़ाइल या फोल्डर को करना हैं।
कब फायदेमंद हो सकती हैं Robots.txt फ़ाइल?
अभी तक हम Robots.txt क्या होता हैं और इसका क्या कार्य होता हैं ये समझ चुके हैं। अब हम ये जानेंगे कि कब Robot.nxt फ़ाइल हमारे लिए फायदेमंद हो सकती हैं
- जब हम चाहतें हैं कि कोई भी सर्च इंजन आपकी वेबसाइट में मौजूद कुछ पेज को Index ना करें।
- जब हम चाहते हैं कि सर्च इंजन के द्वारा कुछ अन्य फ़ाइल जैसेकि इमेज (Images), PDF फ़ाइल इनको भी Index नहीं किया जाए।
- जब हम ये चाहते हैं कि सर्च इंजन हमारी वेबसाइट में मौजूद डुप्लीकेट पेज पर ध्यान ना दे।
- जब हम सर्च इंजन को ये बताना चाहते हैं कि हमारी वेबसाइट में Sitemap कहा मौजूद हैं।
कैसे बना सकते हैं Robots.txt फ़ाइल?
अगर आपने अभी तक अपनी वेबसाइट या ब्लॉग में Robot.nxt फ़ाइल नही बनाई हैं तो आपकों इसे बनाना चाहिए ताकि आपको लंबे समय तक इसका लाभ मिल सकें। आइए अब हम ये जानते हैं कि हम कैसे Robot.nxt फ़ाइल बना सकते हैं।
- आपको सबसे पहले एक text फ़ाइल बनानी होगी जिसे Robots.txt के नाम से रीनेम (Rename) करके सेव करना होगा। इस text फ़ाइल को बनाने के लिए नोटपैड (Notepad) का प्रयोग कर सकते हैं।
- उसके बाद उस फ़ाइल को वेबसाइट की रुट डायरेक्टरी (Root Directory) में अपलोड करना होगा, इसे हम ‘htdocs’ के नाम से भी जानते हैं और ये हमारे domain के नाम के बाद ही दिखाई देता हैं।
- अगर कोई subdomains का प्रयोग करता हैं तो उसे अपने सभी subdomains के लिए अलग-अलग Robots.txt फ़ाइल बनाने की आवश्यकता हैं।
Robots.txt के क्या फायदे होते हैं?
जैसाकि अब तक हम अच्छे से ये समझ चुके हैं कि Robots.txt हमारी वेबसाइट या ब्लॉग के लिए बेहद जरूरी हैं, चलिए अब Robots.txt के कुछ फायदों के बारे में जानते हैं
- Robots.txt की सहायता से हम अपने वेब पेज को Google Bots के द्वारा इंडेक्स (Index) करवा सकते हैं।
- Robots.txt के द्वारा हम अपनी साइट पर उपलब्ध गोपनीय जानकारी (Sensitive Information) को किसी की भी पहुँच से दूर रख सकते हैं।
- Robots.txt की मदद से हम डुप्लिकेट कंटेंट (Duplicate Content) की समस्या को भी दूर कर सकते हैं।
क्या होते हैं Robots.txt की Syntax?
Robots.txt के इस्तेमाल के समय हमे इस बात की जानकारी होनी भी बेहद जरूरी हैं कि इसमें कौन-कौन सी Syntax का प्रयोग किया जाता हैं
- Disallow- इस syntax का इस्तेमाल इसलिये किया जाता हैं ताकि हम उन पेज को ब्लॉक कर सकें जिन्हें हम चाहते हैं कि कोई और access करें।
- Noindex- इस syntax के प्रयोग से आप जिस पेज को इंडेक्स (Index) नहीं कराना चाहते तो कोई भी सर्च इंजन उन्हें इंडेक्स नहीं करेगा
- User-Agent- इसका मतलब उन रोबोट से हैं जो सभी तरह के नियम (Rule) को मानते है यानी फॉलो करते हैं।
- Hash Symbol (#)– इस syntax का इस्तेमाल हम Robots.txt फ़ाइल में कमेंट देने के लिए कर सकते हैं।
- Blank Line- अगर आप सभी User Agent या Disallow group को अलग-अलग करना चाहते हैं तो इसके लिये एक Blank line का इस्तेमाल किया जाता हैं।
- Case-Sensitive- एक बात हमेशा याद रखनी चाहिए कि Robots.txt में सभी direcotries और फ़ाइल नेम case-sensitive होते हैं इसलिए लिखते समय इसका ध्यान रखें।
अगर ना करे Robots.txt का इस्तेमाल?
जब हम अपनी वेबसाइट या ब्लॉग में Robots.txt का इस्तेमाल नहीं करते तो सर्च ऑपरेशन हमारी वेबसाइट पर मौजूद किसी भी वेब पेज या हिस्से में क्रॉल (Crawl) कर सकता हैं क्योंकि उसे ये निर्देश नहीं मिले होते कि किन पेज को access नहीं करना हैं। Robots.txt के इस्तेमाल से हमारी वेबसाइट के पेज index हो जाते हैं जो हमारी वेबसाइट के लिए बहुत फायदेमंद होते हैं।
हमें आशा हैं कि आज आपको Robots.txt के बारे में काफी महत्वपूर्ण जानकारी मिली होगी, आगे भी हम आपके साथ ऐसी ही महत्वपूर्ण जानकारी शेयर करते रहेंगे।