जब हम अपने कम्प्यूटर की हार्ड डिस्क में स्थित किसी फाइल के एकाध शब्द
से search करते हैं तो कई मिनट लग जाते हैं। किन्त गूगल लाखों करोड़ों
वेबसाइटों से हजारों वेबपृष्ठों को कुछ सेकेण्ड भर में तलाश कर पेश कर
देता है। इतना तीव्र कार्य कैसे सम्भव होता है?
क्या कोई बता सकता है कि
क्या गूगल का search server कोई मेन फ्रेम कम्प्यूटर है या कोई सुपर
कम्प्यूटर?
जब हम अपने कम्प्यूटर की हार्ड डिस्क में स्थित किसी फाइल के एकाध शब्द
से search करते हैं तो कई मिनट लग जाते हैं। किन्त गूगल लाखों करोड़ों
वेबसाइटों से हजारों वेबपृष्ठों को कुछ सेकेण्ड भर में तलाश कर पेश कर
देता है। इतना तीव्र कार्य कैसे सम्भव होता है?
क्या कोई बता सकता है कि
क्या गूगल का search server कोई मेन फ्रेम कम्प्यूटर है या कोई सुपर
कम्प्यूटर?
जब आप अपने कंप्यूटर पर कुछ खोजते हैं तो उस खोज कार्य को पूरा करने की गति चार चीज़ों पर निर्भर करती है - आपके कंप्यूटर का प्रोसेसर, कंप्यूटर की हार्ड-डिस्क की गति, कंप्यूटर की मेमोरी और फाइलों का इंडेक्स। यदि इनमें से कुछ भी कम होगा तो खोज की गति पर असर पड़ेगा और वह धीमी होगी।
गूगल के पास एकाध सर्वर नहीं है। मैंने तकरीबन डेढ़ वर्ष पहले कहीं पढ़ा था कि उसके पास एक लाख से अधिक सर्वर हैं जो कि विश्व के अलग-२ हिस्सों में हैं, यानि कि हार्डवेयर तगड़ा है उसके पास। साथ ही उसके डाटाबेस पर तगड़ी ही इंडेक्सिंग है जिससे कि खोजने में कम समय लगे। फिर वह हर बार आपको डाटाबेस सर्च करके नतीजे नहीं देता, जिन शब्दों आदि की खोज अधिक होती है उनके नतीजे वह अलग संजो लेता है(cache) जिससे कि दोबारा उसी खोज पर वह तुरंत नतीजे दिखा सके बिना डाटाबेस को तकलीफ़ दिए।
यह मोटी मोटी जानकारी है, तकनीकी स्तर पर और भी कई जुगाड़/लफ़ड़े होंगे जो कि गति को तेज़ बनाने के लिए किए गए होंगे।
गूगल डैस्कटॉप को अपने कम्पयूटर पर डाल लें, एक बार पूरे सिस्टम की इंडैक्सिंग होने दें। फिर देखें अपकी अपने सिस्टम की खोज कितनी तेज़ हो जाएगी। Quick Search Box में मात्र टाईप करने से फाईल दिखाने सगता है।
कहने का मतलब है, गूगल की अश्रर स्तर पर इंडैक्सिंग सब कुछ तेज़ी से कर देती है।
> जब आप अपने कंप्यूटर पर कुछ खोजते हैं तो उस खोज कार्य को पूरा करने की गति चार > चीज़ों पर निर्भर करती है - आपके कंप्यूटर का प्रोसेसर, कंप्यूटर की हार्ड-डिस्क > की गति, कंप्यूटर की मेमोरी और फाइलों का इंडेक्स। यदि इनमें से कुछ भी कम होगा > तो खोज की गति पर असर पड़ेगा और वह धीमी होगी।
> गूगल के पास एकाध सर्वर नहीं है। मैंने तकरीबन डेढ़ वर्ष पहले कहीं पढ़ा था कि > उसके पास एक लाख से अधिक सर्वर हैं जो कि विश्व के अलग-२ हिस्सों में हैं, यानि > कि हार्डवेयर तगड़ा है उसके पास। साथ ही उसके डाटाबेस पर तगड़ी ही इंडेक्सिंग है > जिससे कि खोजने में कम समय लगे। फिर वह हर बार आपको डाटाबेस सर्च करके नतीजे > नहीं देता, जिन शब्दों आदि की खोज अधिक होती है उनके नतीजे वह अलग संजो लेता > है(cache) जिससे कि दोबारा उसी खोज पर वह तुरंत नतीजे दिखा सके बिना डाटाबेस को > तकलीफ़ दिए।
> यह मोटी मोटी जानकारी है, तकनीकी स्तर पर और भी कई जुगाड़/लफ़ड़े होंगे जो कि गति > को तेज़ बनाने के लिए किए गए होंगे।
यह सारा कमाल गूगल की इंडेक्सिंग अल्गोरिद्म का है. स्टैंफोर्ड विश्विद्यालय में गूगल के अलगोरिद्म को जब रखा गया था तब किसी ने यह नहीं सोचा था कि यह आगे चलकर इतना बड़ा सर्च इंजन बन जायेगा.
Vipul Jain wrote: > गूगल डैस्कटॉप को अपने कम्पयूटर पर डाल लें, एक बार पूरे सिस्टम की > इंडैक्सिंग होने दें। फिर देखें अपकी अपने सिस्टम की खोज कितनी तेज़ हो > जाएगी। Quick Search Box में मात्र टाईप करने से फाईल दिखाने सगता है।
> कहने का मतलब है, गूगल की अश्रर स्तर पर इंडैक्सिंग सब कुछ तेज़ी से कर देती है।
>> जब आप अपने कंप्यूटर पर कुछ खोजते हैं तो उस खोज कार्य को पूरा करने की गति चार >> चीज़ों पर निर्भर करती है - आपके कंप्यूटर का प्रोसेसर, कंप्यूटर की हार्ड-डिस्क >> की गति, कंप्यूटर की मेमोरी और फाइलों का इंडेक्स। यदि इनमें से कुछ भी कम होगा >> तो खोज की गति पर असर पड़ेगा और वह धीमी होगी।
>> गूगल के पास एकाध सर्वर नहीं है। मैंने तकरीबन डेढ़ वर्ष पहले कहीं पढ़ा था कि >> उसके पास एक लाख से अधिक सर्वर हैं जो कि विश्व के अलग-२ हिस्सों में हैं, यानि >> कि हार्डवेयर तगड़ा है उसके पास। साथ ही उसके डाटाबेस पर तगड़ी ही इंडेक्सिंग है >> जिससे कि खोजने में कम समय लगे। फिर वह हर बार आपको डाटाबेस सर्च करके नतीजे >> नहीं देता, जिन शब्दों आदि की खोज अधिक होती है उनके नतीजे वह अलग संजो लेता >> है(cache) जिससे कि दोबारा उसी खोज पर वह तुरंत नतीजे दिखा सके बिना डाटाबेस को >> तकलीफ़ दिए।
>> यह मोटी मोटी जानकारी है, तकनीकी स्तर पर और भी कई जुगाड़/लफ़ड़े होंगे जो कि गति >> को तेज़ बनाने के लिए किए गए होंगे।
दोनो तरह की खोजों को कुछ इस तरह समझा जा सकता है कि विंडोज का 'सर्च' आग लगने पर कुंआ खोदता है जबकि सर्च इंजनों का 'सर्च' पहले से कुआँ तैयार करके (सामग्री की इंडेक्सिंग करके) रखता है।
और हाँ, अब डेस्कटाप के लिये भी कई 'सर्च इंजिन' उपलब्ध हो गये हैं जो आपके डेस्कटाप कम्प्यूटर की सामग्री का अद्यतन इंडेक्स सदा तैयार रखते हैं और पलक झपकाते ही (मिली-सेकेंडों में ही) खोज कर दे देते हैं।
> यह सारा कमाल गूगल की इंडेक्सिंग अल्गोरिद्म का है. स्टैंफोर्ड विश्विद्यालय > में गूगल के > अलगोरिद्म को जब रखा गया था तब किसी ने यह नहीं सोचा था कि यह आगे चलकर इतना > बड़ा सर्च इंजन बन जायेगा.
> हाँलाकि इसके बाद से इसमें कई बदलाव हो चुके हैं लेकिन मूल पेपर अभी भी वही > है.
> काकेश
> Vipul Jain wrote: > > गूगल डैस्कटॉप को अपने कम्पयूटर पर डाल लें, एक बार पूरे सिस्टम की > > इंडैक्सिंग होने दें। फिर देखें अपकी अपने सिस्टम की खोज कितनी तेज़ हो > > जाएगी। Quick Search Box में मात्र टाईप करने से फाईल दिखाने सगता है।
> > कहने का मतलब है, गूगल की अश्रर स्तर पर इंडैक्सिंग सब कुछ तेज़ी से कर देती > है।
> >> जब आप अपने कंप्यूटर पर कुछ खोजते हैं तो उस खोज कार्य को पूरा करने की गति > चार > >> चीज़ों पर निर्भर करती है - आपके कंप्यूटर का प्रोसेसर, कंप्यूटर की > हार्ड-डिस्क > >> की गति, कंप्यूटर की मेमोरी और फाइलों का इंडेक्स। यदि इनमें से कुछ भी कम > होगा > >> तो खोज की गति पर असर पड़ेगा और वह धीमी होगी।
> >> गूगल के पास एकाध सर्वर नहीं है। मैंने तकरीबन डेढ़ वर्ष पहले कहीं पढ़ा था > कि > >> उसके पास एक लाख से अधिक सर्वर हैं जो कि विश्व के अलग-२ हिस्सों में हैं, > यानि > >> कि हार्डवेयर तगड़ा है उसके पास। साथ ही उसके डाटाबेस पर तगड़ी ही इंडेक्सिंग > है > >> जिससे कि खोजने में कम समय लगे। फिर वह हर बार आपको डाटाबेस सर्च करके > नतीजे > >> नहीं देता, जिन शब्दों आदि की खोज अधिक होती है उनके नतीजे वह अलग संजो > लेता > >> है(cache) जिससे कि दोबारा उसी खोज पर वह तुरंत नतीजे दिखा सके बिना > डाटाबेस को > >> तकलीफ़ दिए।
> >> यह मोटी मोटी जानकारी है, तकनीकी स्तर पर और भी कई जुगाड़/लफ़ड़े होंगे जो कि > गति > >> को तेज़ बनाने के लिए किए गए होंगे।
> >> If you're bored with life & you don't get up every morning with > >> a burning desire to do things then you don't have enough goals. -- Lou > Holtz
> और हाँ, अब डेस्कटाप के लिये भी कई 'सर्च इंजिन' उपलब्ध हो गये हैं जो आपके > डेस्कटाप कम्प्यूटर की सामग्री का अद्यतन इंडेक्स सदा तैयार रखते हैं और पलक > झपकाते ही (मिली-सेकेंडों में ही) खोज कर दे देते हैं।
इंडेक्सिंग सुविधा विन्डोज़ पर बहुत पहले से है, लेकिन जहाँ तक मैंने देखा है अधिकतर लोग इसको बंद ही रखते हैं क्योंकि जब विन्डोज़ का सर्च मॉड्यूल इंडेक्स बनाता है तो इसमें कुछ मिनट लगते हैं जिस दौरान यदि आपका कंप्यूटर कम शक्तिशाली और कम मेमोरी का है तो वह किसी और प्रयोग के लिए उपयुक्त नहीं रहता। इंडेक्स बन जाए उसके बाद विन्डोज़ की सर्च भी काफ़ी तेज़ हो जाती है।
खोज संयंत्र, जैसे कि गूगल, इंडेक्स के साथ-साथ रैंकिंग (श्रेणीकरण) पर भी निर्भर करते है। इनके पास स्वचलित प्रोग्राम होते है, जिन्हे बॉट कहा जाता है। बॉट इंटरनेट पर उपलब्ध वेबपृष्ठो का संकलन करते है। इन पृष्ठो का उनपर लिखे शब्दो और मेटा डेटा के आधार पर वर्गीकरण (इंडेक्सिंग) किया जाता है। साथ-साथ इनकी श्रेणी भी निर्धारित की जाती है। श्रेणी निर्धारित करने का तरीका (अल्गोरिद्म/कलनविधि) कंपनी जाहिर नही करती। पिछले मेल मे दिए गए खोजपत्र के अनुसार यह काफी कुछ http कडियो पर निर्भर करता है। जिस पृष्ठ पर अन्य पृष्ठो की जितनी ज्यादा कडियाँ होगी या जिस पृष्ठ की कडी ज्यादा से ज्यादा पृष्ठो पर होगी, उसकी श्रेणी उतनी अच्छी होगी (शायद यही कारण है कि विकिपीडिया के पृष्ठो की श्रेणी अकसर अच्छी होती है)।
वैसे कुछ मुक्तस्रोत्र खोज संयंत्र भी उपलब्ध है, जैसे कि - ल्यूसीन ( http://lucene.apache.org/java/docs/)। अधिक जानकारी के लिए इनके दस्तावेजो का अध्ययन कर सकते है। इनका इस्तेमाल कर के खुद का खोज संयंत्र भी बनाया जा सकता हैं।