सेमल्ट - वेब पेजों को कैसे परिमार्जन करें?

सुंदर सूप एक पायथन लाइब्रेरी है जो व्यापक रूप से XML और HTML दस्तावेजों से एक पार्स ट्री बनाकर वेब पेजों को परिमार्जन करने के लिए उपयोग किया जाता है। वेब स्क्रैपिंग, वेबसाइटों और पृष्ठों से डेटा निकालने की एक तकनीक, डेटा विश्लेषण और प्रबंधन क्षेत्रों में व्यापक रूप से उपयोग की जाती है। ज्यादातर मामलों में, पायथन प्रोग्रामिंग भाषा डेटा विज्ञान में एक शर्त है।

पायथन 3 में स्क्रैपिंग टूल और मॉड्यूल हैं जिन्हें आप अपने डेटा प्रबंधन प्रोजेक्ट पर लागू कर सकते हैं। वर्तमान में सुंदर सूप 4 के रूप में चल रहा है, यह मॉड्यूल पायथन 3 और पायथन 2.7 दोनों के साथ संगत है। सुंदर सूप 4 मॉड्यूल गैर-बंद टैग सूप के लिए पार्स ट्री बनाने में भी सक्षम है। इस ट्यूटोरियल में, आप सीखेंगे कि पृष्ठ को कैसे खुरचें और स्क्रैप किए गए डेटा को CSV फ़ाइल में लिखें।

शुरू करना

आरंभ करने के लिए, अपने पीसी पर एक सर्वर या स्थानीय-आधारित पायथन कोडिंग वातावरण सेट करें। आपको अपनी मशीन पर सुंदर सूप और अनुरोध मॉड्यूल भी स्थापित करना चाहिए। दोनों मॉड्यूल के साथ काम करने का ज्ञान भी एक आवश्यक शर्त है। HTML टैगिंग और संरचना के साथ परिचित भी एक अतिरिक्त लाभ है।

अपने डेटा को समझना

इस संदर्भ में, नेशनल गैलरी ऑफ आर्ट के वास्तविक डेटा का उपयोग आपको यह समझने में मदद करने के लिए किया जाएगा कि सुंदर सूप 4 का उपयोग कैसे करें। नेशनल गैलरी ऑफ़ आर्ट में 120,000 टुकड़े शामिल हैं जो लगभग 13,000 कलाकारों द्वारा किए गए हैं। आर्ट वाशिंगटन डीसी, संयुक्त राज्य अमेरिका में स्थित है।

सुंदर सूप के साथ वेब डेटा निष्कर्षण कि जटिल नहीं है। उदाहरण के लिए, यदि आप अक्षर Z पर ध्यान केंद्रित करते हैं, तो सूची पर पहले नाम को चिह्नित करें और नोट करें। इस मामले में, पहला नाम ज़बग्लिया, निककोला है। संगति के लिए, उस पृष्ठ पर पृष्ठों की संख्या और अंतिम कलाकार का नाम इंगित करें।

अनुरोध और सुंदर सूप पुस्तकालय आयात करने के लिए कैसे

पुस्तकालयों को आयात करने के लिए, अपने पायथन 3 प्रोग्रामिंग वातावरण को सक्रिय करें। यह सुनिश्चित करने के लिए जांचें कि आप अपने प्रोग्रामिंग वातावरण के साथ उसी निर्देशिका में हैं। आरंभ करने के लिए निम्न आदेश चलाएँ। my_env / bin / सक्रिय करें।

एक नई फ़ाइल बनाएं और सुंदर सूप और अनुरोध पुस्तकालयों का आयात शुरू करें। अनुरोध पुस्तकालय आपको पठनीय स्वरूपों में अपने पायथन कार्यक्रमों के भीतर HTTP का उपयोग करने की अनुमति देगा। दूसरी ओर, सुंदर सूप, पृष्ठों को जल्दी से परिमार्जन करने का काम करता है। सुंदर सूप आयात करने के लिए bs4 का उपयोग करें।

वेब पेज को कैसे इकट्ठा और पार्स करें

अनुरोधों का उपयोग करके अपने पहले पृष्ठ का URL एकत्र करें। पहले पृष्ठ का URL चर पृष्ठ को सौंपा जाएगा। रिक्वेस्ट से एक ब्यूटीफुल ऑब्जेक्ट बनाएँ और ऑब्जेक्ट को पायथन के पार्सर से पार्स करें।

इस ट्यूटोरियल में, उद्देश्य लिंक और कलाकारों के नाम एकत्र करना है। उदाहरण के लिए, आप कलाकारों की तारीखों और राष्ट्रीयताओं को एकत्र कर सकते हैं। विंडोज उपयोगकर्ताओं के लिए, कलाकार के पहले नाम पर राइट क्लिक करें। इस मामले में, ज़बाग्लिया, निककोला का उपयोग करें। Mac OS उपयोगकर्ताओं के लिए, "CTRL" पर टैप करें और नाम पर क्लिक करें। वेब डेवलपर के टूल तक पहुंचने के लिए "स्क्रीन का निरीक्षण करें" मेनू पर क्लिक करें जो आपकी स्क्रीन पर पॉप-अप करता है। सुंदर सूप को जल्दी से एक पेड़ बनाने के लिए कलाकार के नामों को प्रिंट करें।

निचली कड़ियों को हटाना

अपने वेब पेज पर निचले लिंक को हटाने के लिए, तत्व को राइट-क्लिक करके DOM का निरीक्षण करें। आप पहचानेंगे कि लिंक एक HTML तालिका के अंतर्गत हैं। सुंदर सूप का उपयोग करते हुए, पार्स पेड़ से टैग हटाने के लिए "विघटित विधि" का उपयोग करें।

कैसे एक टैग से सामग्री खींचने के लिए

आपको संपूर्ण लिंक टैग को प्रिंट करने की ज़रूरत नहीं है, टैग से सामग्री निकालने के लिए सुंदर सूप का उपयोग करें। आप सुंदर सूप 4 का उपयोग करके कलाकारों से जुड़े URL भी कैप्चर कर सकते हैं।

स्क्रैप किए गए डेटा को एक CSV फ़ाइल में कैप्चर करना

CSV फ़ाइल आपको एक सादे पाठ में संरचित डेटा को संग्रहीत करने की अनुमति देगा, एक प्रारूप जो ज्यादातर डेटाशीट्स के लिए उपयोग किया जाता है। पायथन में सादे पाठ फ़ाइलों को संभालने पर ज्ञान की सिफारिश की जाती है।

वेब डेटा निष्कर्षण का उपयोग पृष्ठों को परिमार्जन और जानकारी प्राप्त करने के लिए किया जाता है। उन वेबसाइटों के बारे में विचार करें जिनसे आप निष्कर्षण जानकारी प्राप्त कर रहे हैं। कुछ गतिशील वेबसाइटें अपनी साइटों पर वेब डेटा निष्कर्षण को प्रतिबंधित करती हैं। सुंदर सूप और पायथन 3 के साथ पृष्ठ को परिमार्जन करना इतना आसान है।