ETL प्रक्रिया समय आयाम लोड करने के लिए. उदाहरण ETL Talend का उपयोग करें.

डेटा के मूल पहचान करने के बाद, हम अपने मॉडल की शारीरिक टेबल के निर्माण और भरने के विकास के साथ आगे बढ़ सकते हैं. समय आयाम के साथ इस प्रक्रिया शुरू करो. जैसा कि कहा गया है, इस आयाम हमारे ईआरपी या अन्य बाहरी सिस्टम पर निर्भर नहीं करता, लेकिन कैलेंडर से निर्माण. 20 साल की अवधि है, जो 1 जनवरी, 2000 से रन के लिए इस तालिका के लिए सभी आवश्यक अभिलेख उत्पन्न 31 दिसंबर 2020 तक (ऐतिहासिक डेटा के लिए पूर्व में भी हमारे DW प्रभार).

तालिका के शारीरिक परिभाषा डेटा स्रोतों का विश्लेषण करने के बाद नहीं बदला है, और इस प्रकार है:

शारीरिक MySql में डिजाइन टाइम टेबल आयाम

प्रक्रियाओं का पालन Talend (जैसा कि हम पिछले एक ब्लॉग प्रविष्टि में देखा जाएगा) का उपयोग कर कार्यान्वित किया जाएगा:


परिवर्तनों का समय परिमाण बनाने के लिए

हम जावा में विकल्प पीढ़ी Talend को प्रयोग करेंगे (हम भाषा सका बदला भी उपयोग.)जावा उपयोग करने का अर्थ है कि सभी प्रक्रियाओं और परिवर्तनों कि यह जावा भाषा के लिए "अनुवाद" होगा आंतरिक परिभाषित. हालांकि आवश्यक सख्ती से नहीं जावा के लिए Talend के साथ काम है, यह जानकर उन्हें बहुत उपकरण के साथ काम की सुविधा होगी और हमें अपने संसाधन या प्रक्रियाओं है कि मानक के रूप में शामिल नहीं हैं के लिए खुद के कोड को परिभाषित करने की अनुमति देगा भाषा जानते हैं.

Talend ग्रहण विकास के वातावरण पर आधारित है. यह अमीर कार्यशीलता के साथ एक आलेखीय वातावरण जहां परिवर्तनों की परिभाषा एक बहुत ही सहज मेनू में किया जाता है, क्लिक करें और घटकों को खींच और उनके बीच संबंधों की स्थापना है.डिबग करने के लिए प्रक्रियाओं और अपनी त्रुटियों के रूप में अच्छी तरह से निशान की संभावना का विश्लेषण करने की निगरानी प्रक्रियाओं जब हम विकसित और पुष्टि वातावरण भी शामिल है.

निम्नलिखित छवि एक Talend के साथ बनाया काम का एक उदाहरण है:


Talend का आलेखीय वातावरण उपकरण

आलेखीय वातावरण में सबसे महत्वपूर्ण घटक हैं:


Talend भंडार वस्तुएँ

रिपोजिटरी: Talend शामिल सभी वस्तुओं का उपयोग करते हुए परिभाषित किया जा सकता है कि, पेड़ एक गिरने से इस प्रकार है:

  • बिजनेस मॉडल: Talend एक सरल सुचित्रित उपकरण है जहाँ हम अपने व्यापार मॉडल को परिभाषित किया गया है.इस फ़ोल्डर में विभिन्न व्यापार मॉडल है कि "तैयार" है Talend का उपयोग कर खोजें. उपकरण सबसे आम ग्राफिकल तत्वों में शामिल है.
  • नौकरी डिजाइन, या डेटा का परिवर्तन एकीकरण की एक परियोजना कई प्रक्रियाओं या काम है कि और परिभाषित किया जा सकता वर्गीकृत किसी फ़ोल्डर संरचना में संगठित करने और उन्हें वर्गीकृत करने के होते हैं.इस भाग में हम विभिन्न नौकरियों हम परिभाषित किया है और जिस तरह हम वर्गीकृत है देखो.
  • संदर्भों: निष्पादन संदर्भों प्रक्रियाओं हैं. वे स्थायी या मानकों है कि हम एक प्रक्रिया को चलाने को कहा है और हम एक काम के विभिन्न घटकों का उपयोग कर सकते परिभाषित कर सकते हैं. संदर्भों को भी फाइलों से क्रम में लोड किया जा सकता है.
  • जगह जहाँ हम Talend (जो तब परिवर्तनों में इस्तेमाल किया जा सकता है) कोड और हम अपनी दिनचर्या को जोड़ने के लिए ऑपरेशन या गणना या परिवर्तन जिसके लिए हम एक मानक पद्धति नहीं है प्रदर्शन कर सकते हैं जहां से विकसित दिनचर्या देख सकते हैं: दिनचर्या.दिनचर्या जावा में क्रमादेशित रहे हैं (या पर्ल यदि आप भाषा का चयन किया है).
  • टेम्पलेट एसक्यूएल: SQL बयान कर रहे हैं पूर्व निर्धारित टेम्पलेट्स है कि हम का उपयोग करें या अनुकूलित कर सकते हैं.
  • मेटाडेटा: जगह है जहाँ हम इस परियोजना के मेटाडाटा को परिभाषित करेगा. घटकों के इन परिभाषा है कि हम तो सभी डिजाइन में reused किया जाएगा परिवर्तन की प्रक्रियाओं. उदाहरण के लिए, मेटाडाटा डेटाबेस के लिए कनेक्शन को परिभाषित करने, एक डाटाबेस के स्कीमा प्राप्त कर सकते हैं और उन्हें दस्तावेज (टेबल, विचारों के साथ, आदि) SQL बयानों को परिभाषित है,, फ़ाइलें, आदि के विभिन्न प्रकार के पैटर्न की पहचान यह हमें एक ही स्थान में परिभाषित किया और उन्हें इस प्रक्रिया में पुन: उपयोग तत्वों की अनुमति देता है.मेटाडाटा भंडार सभी परियोजना जानकारी केंद्रीकृत और एकीकरण की सभी प्रक्रियाओं में एकरूपता सुनिश्चित करता है. स्रोत और गंतव्य सिस्टम एकीकरण से संबंधित मेटाडेटा आसानी से डेटाबेस फाइल या विभिन्न सहभागियों द्वारा प्रदान की विश्लेषण की उन्नत उपकरण के माध्यम से भंडार मेटाडाटा में लोड प्रक्रियाओं. मेटाडाटा में परिभाषित विशेषताओं प्रक्रियाओं है कि उन का उपयोग करने से विरासत में मिला रहे हैं.
  • दस्तावेज़ीकरण: हम इस परियोजना के हमारे विश्लेषण और विकास के प्रलेखन फाइल लोड, उन फ़ोल्डर्स में वर्गीकृत कर सकते हैं. जोड़ने के एक लिंक या फ़ाइल भंडार में सीधे लदान के साथ किया जा सकता है. इस उपयोगिता हमें एक ही जगह पर एक डेटा एकीकरण परियोजना के सभी तत्वों में केंद्रीकृत होना करने देता है.
  • रीसायकल बिन: वस्तुओं है कि रीसायकल बिन में जाओ और इसे वापस लाने के लिए यदि आवश्यक हो वहाँ हटा सकते हैं.

नौकरी डिजाइनर: तत्व है एक उपकरण से अलग है जो हेरफेर करने के लिए बनाने के विभिन्न घटकों है कि ऊपर के बीच संबंधों की स्थापना एक काम है,.

> स्नातकोत्तर "

डिजाइनर जॉब

जब एक नौकरी के साथ काम करना, नीचे टैब्स जो हम से काम के लिए एक संदर्भ सेटिंग के रूप में विभिन्न कार्यों, प्रदर्शन कर सकते हैं का एक सेट है, गुणों की स्थापना, काम चलाने के लिए और प्रदर्शन मोड सेट, गुण संशोधित नौकरियों के घटकों, नौकरी नियोजन, नौकरियों में पदानुक्रम की स्थापना, आदि.

अंत में, आवेदन पक्ष के अधिकार पर हम नौकरी है घटक पैलेट है, जो अलग अलग हैं हमारे नियंत्रण में उपयोग के लिए Talend प्रदान करता है.वे समारोह से वर्गीकृत कर रहे हैं.


घटक पैलेट

Talend में उपलब्ध उपकरणों से कुछ हैं:

- व्यापार खुफिया: Jasper रिपोर्टों के एक समूह प्रस्थान OLAP, या कनेक्टर्स डेटाबेस या उस से मिलने की जरूरत है पढ़ने बहुआयामी लेखन में, बदलने के बदलते आयाम धीरे प्रबंधन डेटाबेस के लिए, (आदि उन सभी खुफिया व्यापार से संबंधित करने के लिए ).

- व्यवसाय: सिस्टम एसएपी connectors के लिए Vtiger, पढ़ने और लिखने का सीआरएम प्रकार के सिस्टम (केंद्रित, माइक्रोसॉफ्ट सीआरएम, Salesforce, चीनी) या से पढ़ने लिखने और.उन्होंने यह भी alfresco दस्तावेज़ प्रबंधन प्रणाली के साथ काम करने की अनुमति है.

- कस्टम कोड: घटकों को परिभाषित कस्टम कोड अपने और Talend प्रयोग में घटकों के साथ अन्य एकीकृत यह. हम जावा और पर्ल में घटकों, साथ ही साथ लोड पुस्तकालयों लिखने के लिए या आदेश Groovy अनुकूलित कर सकते हैं.

आदि डुप्लिकेट, स्वच्छ घटकों: - डेटा गुणवत्ता के लिए, मान डेटा की गुणवत्ता जैसे फ़िल्टरिंग प्रतिस्थापन, सीआरसी गणना, खोजों के लिए फजी लॉजिक, प्रबंधन स्कीमा मान्यता के खिलाफ मेटाडेटा,

-

- ELT: मोड ELT में डेटाबेस के साथ काम घटकों के लिए (परिवर्तन के साथ और प्रणालियों की प्रक्रियाओं जैसे ठेठ.)

- फाइल:) गुण नियंत्रण के लिए फ़ाइल प्रबंधन (सत्यापन अस्तित्व, कॉपी, हटाएँ, सूची, आदि), ईमेल को पढ़ने के लिए फ़ाइलों के विभिन्न स्वरूपों (पाठ,, सीमांकित एक्सेल XML,, और उन पर लेखन.

- इंटरनेट: cont उपयोग घटकों के लिएवेब सेवाओं के रूप में ऑनलाइन माँ ईमेल, संग्रहीत, आरएसएस फ़ीड, एससीपी, FTP सर्वर और पसंद Enid.

- लॉग और त्रुटियाँ: प्रबंधन नियंत्रण और प्रक्रियाओं की परिभाषा में त्रुटियों लॉग.

आदि, प्रबंधन जैसे विभिन्न घटकों: - विविध रूप का सत्यापन, संदेश विंडोज़ ऑपरेशन के सर्वर, उत्पादन रिकॉर्ड, चर गुंजाइश

- आर्केस्ट्रा: घटकों परिवर्तनों हमारे उत्पन्न करने के लिए तार और आर्केस्ट्रा कार्यों और प्रसंस्करण नौकरियों में परिभाषित और subjobs (सृजन loops, नौकरी पोस्ट निष्पादन के पूर्व या, प्रक्रियाओं आदि, प्रतीक्षा के लिए फ़ाइलें या डेटा).

- प्रसंस्करण: डाटा प्रोसेसिंग घटकों के लिए, आदि denormalization, नदियों, जैसे एकत्रीकरण, मानचित्रण, परिवर्तनों, फिल्टर

आदि), के साथ बातचीत के लिए घटक - प्रणाली: (ऑपरेटिंग सिस्टम निष्पादन का आदेश, वातावरण चर.

- XML: संरचनाओं का निर्माण या घटकों के लिए काम करने के साथ संचालन, XML संरचना डेटा की मान्यता, पार्सिंग.

Talend को काम के साथ पाने के लिए कैसे विचार एक है, यह इस से है सुलभ वेब (है दिलचस्प Talend देखने के लिए एक डेमो मिनट 5 में लिंक ).इसके अलावा, आप कैसे एक MySQL तालिका में परीक्षण डेटा उत्पन्न करने के लिए निम्नलिखित में वीडियो प्रदर्शन देख सकते हैं.

इसके अलावा, इस पर आगे) अंग्रेजी डाउनलोड कर सकते हैं उपयोगकर्ता गहरा तुम मैनुअल के उपकरण और घटक गाइड संदर्भ (दोनों में लिंक .

समय आयाम भरने में Talend काम

अब जब कि हम जानते हैं कि एक बिट Talend है, हम आगे एक व्यावहारिक उदाहरण देखेंगे.हम 2000/01/01 पर शुरुआत तारीखों की एक धारा उत्पन्न करने की जरूरत है, 2020/12/31 दिन (के साथ तारीखों कि आयाम में 20 साल ले) आता है.

पी बनाने के लिएrocess चलो निम्न चरणों को परिभाषित:

1) लूप कि 10,000 बार एक काउंटर 0 से 9999 (के लिए जा रहा घटक समूह tLoop आर्केस्ट्रा का उपयोग करके) के साथ चलाता है.

2) पाश नियंत्रण रिकॉर्ड जनरेटर, जो 2000/01/01 तिथि (घटक tRowGenerator विविध समूह का प्रयोग करके) के साथ एक लॉग उत्पन्न कहता है.

3) दिनांक RowGenerator एक (एमएपी) प्रसंस्करण, जो चरण 1 (यह हम शुरू करने की तारीख हर दिन बढ़ रही हैं और सभी आवश्यक तिथियाँ पैदा करने के साथ के समय काउंटर के लिए कहते हैं गुजरता है.)हम घटक TMAP प्रसंस्करण समूह का उपयोग करें.

4) हम एक और तारीख (एमएपी) प्रसंस्करण, जहां प्रत्येक तिथि के लिए, हम समय के आयाम के सभी गुण परिवर्तन तालिका के रूप में हम पहले संकेत दिया है उत्पन्न उत्पन्न (महीने, साल, दिन, सप्ताह का दिन, तिमाही सेमेस्टर, आदि). हम घटक TMAP प्रसंस्करण समूह का उपयोग करें.

हम जावा में एक नियमित परिभाषित करने के लिए प्रत्येक दिनांक के वर्ष में और क्वार्टर, semesters छुट्टी है, और सप्ताहांत के डेटा उत्पन्न करने के लिए सप्ताह की सही संख्या उत्पन्न किया था.उदाहरण के लिए, सप्ताह की पीढ़ी के लिए हम निम्नलिखित कोड जावा में लिखा है:

/ "साँचा दिनचर्या जावा 
पैकेज दिनचर्या; 
आयात java.util.Calendar; 
आयात java.util.Date; 
{सार्वजनिक वर्ग दिनांक 
सार्वजनिक स्थैतिक स्ट्रिन्ग semana_del_anyo (तिथि 1 दिनांक) { 
कैलेंडर C1 Calendar.getInstance = (); 
c1.set (Calendar.DAY_OF_WEEK, Calendar.MONDAY) 
c1.setMinimalDaysInFirstWeek (1); 
c1.setTime (तिथि 1); 
int सप्ताह c1.get = (Calendar.WEEK_OF_YEAR) 
(<10 सप्ताह) यदि { 
वापसी (0 + Integer.toString सप्ताह ()); 
और {} 
वापसी (Integer.toString सप्ताह ()); 
}} 

5) हम रिकॉर्ड है कि 2020/12/31 से अधिक पुराने हैं त्यागें फिल्टर, इस तरह के रूप में हम डेटाबेस पर लोड करना चाहते हैं.हम घटक tFilterRow प्रसंस्करण समूह का उपयोग करें.

6) सम्मिलित DWD_TIEMPO तालिका में डेटाबेस Enobia में रिकॉर्ड, घटक tMySqlOutput, समूह डेटाबेस, MySql इस्तेमाल करते हैं. अगर रिकॉर्ड पहले से डेटाबेस में मौजूद हैं अद्यतन कर रहे हैं.

नौकरी की पूर्ण रूपरेखा होगी:


काम का समय आयाम भरना

यह हमारे एक ETL उपकरण के साथ पहले से संपर्क किया गया था.प्रोग्रामिंग (या लगभग है, क्योंकि हम जावा में सप्ताह और तिथियों की अन्य विशेषताओं के उपचार के लिए एक दिनचर्या को तैयार किया था) के बिना, हम डेटा के साथ भर दिया हैअसली पहले टेबल / हमारे मॉडल का आयाम है.