पहलू एक ETL उपकरण के चयन का मूल्यांकन करने के लिए.

एक व्यापार खुफिया परियोजना को संबोधित करते ETL उपकरण है कि हम का उपयोग का उचित मूल्यांकन करने के लिए महत्वपूर्ण है. आधारित उपकरण है जिस पर हम अपने Datamart Datawarehouse, या भंडारण संरचना की खरीद प्रक्रियाओं जो आगे डेटा शोषण के आधार पर लागू करेंगे. यह एक आधारशिला है के लिए हमारे द्विपक्षीय प्रणाली के डिजाइन, निर्माण और बाद में विकास की तकनीकी समस्याओं के केवल आर्थिक या अन्यथा में प्रवेश करने के बिना होगा विश्लेषण, (लाइसेंस, करारों, तकनीकी सहायता, उपकरण परिवर्तन, आदि ..) . ध्यान दें कि ETL प्रक्रियाओं, निकट डेटा रूपरेखा और डेटा की गुणवत्ता की प्रक्रियाओं से जुड़े होते हैं, हम यहाँ पर विचार नहीं करेगा.

संक्षेप शुरुआत कृपया ध्यान दें कि ETL निकालें का अंग्रेजी में एक संक्षिप्त है के रूप में बदाल, और लोड (निकालें, रूपांतरण और लोड).डिजाइन की प्रक्रिया में इन तीन बुनियादी कदम के आधार पर, हम इस प्रकार के एक उपकरण के चयन में मुद्दों पर विचार का प्रस्ताव है. बाद में हम उनके शोषण से संबंधित मुद्दों पर दिखेगा.

डिजाइन प्रक्रियाओं

एक्सट्रैक्शन

पहला कदम स्रोत सिस्टम से डेटा निकालने है कई और एकाधिक प्रारूपों हो सकता है. यह इस स्तर पर महत्वपूर्ण स्रोत के डेटा का एक उचित मान्यता है और उन्हें homogenize.यह महत्वपूर्ण है मात्रा है कि हम कोशिश करते हैं और स्रोत सिस्टम (बैच) की प्रक्रिया को प्रभावित किए बिना होगा इस कदम पर विचार करें. आइए, हम इस चरण में दोनों और पढ़ डेटा की निकासी मान्यता पर विचार करें.

इस चरण के संबंध में, एक ETL उपकरण निम्नलिखित पूरा करना चाहिए:

  • संपर्क: के लिए कई मूल और विभिन्न डीबीएमएस, (संबंधपरक, गैर संबंधपरक) मॉडल, फ़ाइल प्रकार और (मेजबान, एक्सएमएल, एक्सेल, आदि ..) प्रारूप, स्रोत प्रणाली के प्रकार (ईआरपी, एससीएम, मालिकाना प्रणाली के विभिन्न प्रकारों का नक्शा क्षमता ) मानक संदेश (जैसे स्विफ्ट) स्वरूपों, संदेश कतार, आदि ..
  • और डाटा मॉडल स्वरूपों या मूल के विश्लेषण मानचित्रण के लिए सुविधाएं.
  • एकाधिक ताज़ा दर का समर्थन करें.एकाधिक डेटा स्रोतों अलग मूल और स्वागत चक्र अद्यतन किया है. प्राप्त आवृत्ति एक से दूसरे में परिवर्तन और अद्यतन करने की जरूरत सकता है. महत्वपूर्ण बात है, के लिए स्रोतों के बीच चौकियों जिसमें हम तुल्यकालन सुनिश्चित शामिल करने की क्षमता.
  • को असंरचित डेटा स्वरूप (कार्यालय दस्तावेजों, ईमेल, वेबसाइट, लॉग, आदि) को शामिल करने की क्षमता. असंरचित डेटा के क्षेत्र है विशाल और विकसित, यह आकलन करना मुश्किल है.
  • Valiaciones प्रबंधन तकनीकों: अशक्त, अनन्य मानों, referential अखंडता, अनिवार्य क्षेत्रों, मानों की श्रेणियों, ... आदि और व्यापार की मान्यता: तक व्यावसायिक आवश्यकताओं के आधार पर डेटा की संगतता की जाँच के नियमों.
  • त्रुटियों हैंडलिंग.उन्हें पता लगाने और कार्रवाई को लागू करने.
  • एक उपकरण है कि मेटाडाटा से कोड उत्पन्न करने के मामले में, रिवर्स इंजीनियरिंग, मेटाडाटा के लिए कोड की संभावना देखते हैं.

परिवर्तन

परिवर्तन चरण को प्राप्त करने और लागू करने प्रत्येक प्रणाली के व्यापार नियमों के आधार पर या नए डेटा के परिवर्तन के सृजन के इस कदम प्रदर्शन करना है. वहाँ सबसे करने के लिए आम कदम हैंके इलाज के लिए, ट्रांस्फ़ॉर्म कोडन (स्रोत प्रणाली में अलग लक्ष्य सिस्टम पर कोडित स्तंभों) स्तंभों का चयन जैसे परिवर्तन की प्रक्रिया, नए प्राप्त स्तंभ, aggregations अलग बीच, पार डेटा के आधार पर स्तंभों की गणना स्रोतों, आदि ...

  • पूर्वनिर्धारित घटक है कि परिवर्तनों के विभिन्न प्रकार के बड़े पैमाने के लिए उपकरण शामिल हैं (फ़िल्टर्ड, पार, मानचित्रण, आदि ..)
  • परीक्षण करने के लिए और प्रक्रिया में बदलाव की निगरानी को सुविधाजनक बनाने के debugging के लिए समर्थन.
  • शामिल बाह्य कोड की संभावनाओं (उपकरण के द्वारा उत्पन्न नहीं).
  • करने के लिए स्वयं की प्रक्रियाओं बनाने के लिए और अन्य प्रक्रियाओं (कोड पुनः प्रयोग / प्रक्रियाओं) का उपयोग करने की क्षमता.
  • संभावनाओं उपचार प्रक्रिया बड़े डेटा या प्रदर्शन की समस्याओं को महंगा अनुकूलन करने के लिए.
  • Traceability डेटा.इस प्रक्रिया में मूल्य के सभी परिवर्तनों का एक ट्रैक है. आदर्श रूप में, उपयोगकर्ता द्वारा मेटाडेटा खोजा है, तो आप बनाने के लिए अगर यह भरी हुई डेटा सही ढंग से पता लगाता है सकते हैं, लेकिन व्यापार के चेहरे पर असंगत.

भार

इस अंतिम चरण के लिए पहले से ही पढ़ा है, मान्य है और आगे शोषण के लिए विश्लेषणात्मक ढांचे में संसाधित डेटा डंप है.

  • लक्ष्य तालिकाओं के विभिन्न प्रकार के (आमतौर पर डेटाबेस भंडारण वस्तुओं) पर विचार करें.
  • माल के विभिन्न प्रकार पर विचार करें: हटाए गए और पूर्ण डम्प, वृद्धिशील, आदि ...
  • एकत्रीकरण प्रक्रियाओं बनाना.एकत्रीकरण और डेटा के संगठन (क्यूब्स, बहुआयामी डीबी) के विभिन्न स्तरों पर विचार करें.
  • डंप करने के लिए लक्ष्य तालिकाओं (क्यूब्स, बहुआयामी डीबी) में एकत्रीकरण और डेटा के संगठन के विभिन्न स्तरों पर विचार डेटा.
  • इस स्तर पर यह भी उतना ही महत्वपूर्ण प्रदर्शन है: समानांतर प्रसंस्करण डम्प डंप करने के लिए समय का अनुकूलन.

डिजाइन की प्रक्रिया में प्रासंगिक पहलुओं का विश्लेषण करने के बाद, हम आपरेशन और उपकरण के रखरखाव के विकास में विचार पहलुओं की समीक्षा करें.

संचालन और रखरखाव उपकरण

  • विभिन्न हार्डवेयर प्लेटफॉर्म और ऑपरेटिंग सिस्टम के लिए अनुकूल.
  • उपयोग की आसानी.सहज ज्ञान युक्त अंतरफलक. भंडार वस्तुओं, डेटा मॉडल और डेटा धाराओं का सरल ग्राफिकल प्रतिनिधित्व.
  • करने के प्रभाव का विश्लेषण प्रदर्शन करने की क्षमता. निहितार्थ है कि डाटा मॉडल या प्रक्रिया में एक परिवर्तन परियोजना में देखें.
  • कोड वर्ज़निंग. नियंत्रण शिफ्ट. समूह में काम करने के प्रबंधन.
  • प्रलेखन की संभावनाओं.
  • क्वेरी की गति और या अनुकूलन (अनुक्रमित) के मेटाडाटा संभावनाओं का अद्यतन करें.
  • को रोजगार योजना के अवसर: नियोजन बैच, निष्पादन घटना के आधार पर, चलाता है, आदि ...
  • चेन प्रबंधन कार्यान्वयन. प्रक्रियाओं के बीच निर्भरता. नौकरियों शुरु.
  • सिस्टम लॉग. विस्तृत निष्पादन / लॉग त्रुटियों और निष्पादन आँकड़े एकत्र (भार का लॉग सारांश: लोड समय, भरी हुई रिकॉर्ड, गलत रिकॉर्ड, आदि ..).
  • निगरानी के लिए और नौकरियों के प्रदर्शन प्रक्रियाओं (संसाधन विश्लेषक) का मूल्यांकन उपकरण.
  • समर्थन Cwm (सामान्य वेयरहाउस Metamodel). निर्यात करने के लिए या मेटाडेटा ETL उपकरण आयात करने की क्षमता.
  • सतत अद्यतन: बढ़ती मात्रा में डेटा कर सकते हैंकोड "href =" "http://es.wikipedia.org/wiki/Procesamiento_por_lotes> बहुत सारे है कि दैनिक संसाधित कर रहे हैं करने के लिए सूक्ष्म बैचों में संसाधित पास (एक दिन में कई) या यहां तक संदेश कतार के साथ एकीकरण या कब्जा डेटा (सीडीसी बदलें बदलें डाटा कैप्चर प्रसंस्करण और अद्यतन करने के लिए वास्तविक समय में).
  • विश्लेषणात्मक मंच के अन्य घटकों के साथ मंच डेटा (डेटा प्रोफाइलिंग, डाटा गुणवत्ता) एकीकरण और शोषण उन्मुख घटक है, विश्लेषण और प्रस्तुति परत के बाकी घटकों के साथ, एकता (रिपोर्टिंग, डैशबोर्ड्स, डाटा खनन, आदि ..).
  • के लिए मानक है कि डेटा (जैसे SOA) की आसान विनिमय की अनुमति देने के लिए अनुकूलित करने की क्षमता.
  • अन्य उपकरणों के साथ अंतर क्षमता (जैसेएपीआई के माध्यम से).
  • सुरक्षा किसी भी उपकरण में निहित मुद्दों.

बेशक, इस संक्षिप्त सार है, यह सामान्य पहलुओं आगे प्रत्येक प्रणाली की विशेष समस्या, तकनीकी अवसंरचना, व्यापार की आवश्यकताओं और जानकारी की जरूरत से पूरित किया जाना चाहिए.