डाटा खनन की थ्योरी.

(में एक पिछले ब्लॉग प्रविष्टि 2.4 DataMining. या खनन डेटा. ) खनन कोशिश डेटा सिद्धांत के लिए प्रारंभिक दृष्टिकोण एक के लिए बनाते हैं. डाटा खनन प्रक्रियाओं के लिए विभिन्न तकनीकों का उपयोग कर डेटा में छिपे हुए जानकारी निकालने की कोशिश (ज्यादातर अनुप्रयोग सॉफ्टवेयर के साथ सांख्यिकीय और गणितीय संयोजन में मॉडल से संबंधित).

इन तकनीकों की जटिलता, प्रतिबद्ध किया जा रहा इस ब्लॉग को नहीं देखते हुए इस विषय पर गहराई में जाने के लिए (क्योंकि समय और ज्ञान के), हम अभी सबसे आम तकनीक डाटा खनन के तरीके के एक जोड़े, सूची देखेंगे और याद इन तीनों तकनीकों का व्यावहारिक उदाहरण के माध्यम से अवधारणाओं.ये एक ही उदाहरण 9 Microstrategy द्वारा प्रदान की गई उपकरण खनन डेटा के आगे उपयोग (भी Microstrategy रिपोर्टिंग सूट में शामिल है) की अनुमति है और समझा है कि दृष्टि डाटा खनन तकनीकों का उत्पाद है.

शुरू करने से पहले, मैं प्रस्तुति की सिफारिश देखने में बड़े डेटाबेस डेटा Mining.Extracción ज्ञान , एम. जोस द्वारा संचालित Gutierrez, अनुप्रयुक्त गणित के Cantabria, Santander विश्वविद्यालय में विभाग.

जो लोग चाहते हैं या के लिए डेटा खनन तकनीक, और संभावनाओं के सिद्धांत गहरा जरूरत है, मैं संदर्भ के इस क्षेत्र में सबसे महत्वपूर्ण पुस्तकों में से कुछ को सूची छोड़:

  1. और तकनीकों उपकरण डाटा खनन सीखने: प्रैक्टिकल मशीन.
  2. डाटा खनन तकनीक: रिश्ते के लिए विपणन, बिक्री, और ग्राहक.
    प्रबंधन, 2 संस्करण
  3. =? Sr_1_2 diction-Statistics/dp/0387952845/ref यानी UTF8 एंड एस = = किताबें और qid 1267124980 = & = sr 8-2 'जादू सीखने का सांख्यिकीय तत्वों>: डेटा माइनिंग, अनुमान, और भविष्यवाणी.
  4. उन्नत डाटा खनन तकनीक.
  5. डाटा खनन: अवधारणाओं और तकनीकों .
  6. डाटा खनन के लिए डेटा तैयार करना .

एक डाटा खनन परियोजना में कदम

वहाँ कई मानक के लिए एक व्यवस्थित DataMining में विश्लेषण के तरीके विकसित कर रहे हैं.ज्ञात सर्वश्रेष्ठ में से कुछ कुरकुरा, एक उद्योग मानक है कि कदम है कि आमतौर पर डाटा खनन के एक अध्ययन में किया जाता है के एक दृश्य के होते हैं. अन्य विधि SEMMA, एसएएस के लिए विशिष्ट है. इस विधि में एक अधिक विस्तृत कदम सूचियों. हमें क्या हर एक को देखो.

कुरकुरा-डीएम (क्रॉस उद्योग डाटा खनन के लिए मानक प्रक्रिया).

मॉडल एक चक्रीय के 6 interrelated चरणों (राय के साथ) शामिल हैं. आप अनुभाग पुस्तिकाओं में कार्यप्रणाली पर कर सकते हैं विस्तार करने के लिए जानकारी Dataprix.com .इसके अलावा, आप कुरकुरा वेबसाइट का उपयोग कर सकते परियोजना यहाँ . चरण होते हैं:

  • व्यापार समझौता: स्थिति वर्तमान का मूल्यांकन को समझने की, उद्देश्यों व्यापार सहित अपने, लक्ष्य निर्धारित करने पढ़ाई डेटा खनन के लिए होने से मुलाकात की और योजना के विकास एक परियोजना है. हम इस स्तर पर परिभाषित जो अध्ययन की वस्तु है और यह उठता है क्योंकि. उदाहरण के लिए, एक यात्रा के माध्यम से विक्रेता वेब पोर्टल के लिए अपने ग्राहकों और खरीदने वाला विश्लेषण करना चाहते हैं के लिए प्रत्येक लक्ष्य के लिए उन्हें और विशिष्ट विपणन अभियानों को लक्ष्य बनाने के क्रम में बिक्री बढ़ाने के लिए.जो किसी डेटा खनन परियोजना का प्रारंभिक बिंदु हो जाएगा. चरण पर विस्तृत जानकारी Dataprix.com .
  • डेटा को समझना: एक बार उद्देश्यों की स्थापना की परियोजना है, यह आवश्यक है करने के लिए डेटा को समझने और परियोजना निर्धारण हमारे बाहर की जानकारी ले जाने के लिए आवश्यक जरूरतों के लिए. इस चरण संग्रह डेटा, उनमें से वर्णन, अन्वेषण और उनकी गुणवत्ता का सत्यापन भी शामिल है. इस स्तर पर हम सारांश आँकड़े (चर प्रदर्शन के साथ) के रूप में इस तरह की तकनीक का उपयोग करें या डेटा के भीतर पैटर्न या मॉडल की पहचान करने के उद्देश्य से गुच्छ विश्लेषण प्रदर्शन कर सकते हैं.यह इस मंच है कि स्पष्ट रूप से परिभाषित हम क्या करने के लिए इस प्रक्रिया का वर्णन करने के लिए और यह विश्लेषण आवश्यक जानकारी की पहचान का विश्लेषण करना चाहते हैं पर महत्वपूर्ण है. तो हम को देखने के लिए क्या जानकारी के विश्लेषण के लिए relavant है (क्योंकि वहाँ पहलुओं है कि को अस्वीकार कर दिया जा सकता है) और फिर सत्यापित करेंगे कि पहचान की चर एक दूसरे से स्वतंत्र हैं की जरूरत है. उदाहरण के लिए, हम विभाजन ग्राहक परियोजना विश्लेषण डाटा खनन के लिए एक कर रहे हैं में आय से बाहरी स्रोतों चाहिए सभी. के या जानकारी उपलब्ध सिस्टम हमारे पर होने से संबंधित है की पहचान की जो समस्या (ग्राहक डेटा, आयु, बच्चों, निवास के सभी ऐसी जानकारी जो प्रासंगिक (कोई दिलचस्पी नहीं है, उदाहरण के लिए है के क्षेत्र में), ग्राहकों के स्वाद) और आखिर में, चयनित चर, जाँच करें कि वहाँ interrelated (आय के स्तर और कर रहे हैं निवास के क्षेत्र स्वतंत्र चर, उदाहरण के लिए नहीं हैं).जानकारी आम तौर पर जनांकिक में वर्गीकृत आमतौर पर (आय, शिक्षा, उम्र, संख्या के बच्चों), sociographic (शौक, संस्थाओं या सदस्यता के क्लब), व्यवहार (, आदि चेक जारी किए, बिक्री पर, खर्च क्रेडिट कार्ड). इसके अलावा, डेटा या का हो सकता है मात्रात्मक (संख्यात्मक डेटा का उपयोग करके मापा मान) गुणात्मक (सूचना श्रेणियों का निर्धारण करने, क्रमसूचक उपयोग नाममात्र या).मात्रात्मक डेटा प्रायिकता बंटन (हम तय करेंगे कि कैसे डेटा बिखरे हुए हैं और क्लस्टर) के कुछ प्रकार के द्वारा आम तौर पर प्रतिनिधित्व कर सकते हैं. गुणात्मक के लिए पहले उन्हें नंबर है कि आवृत्ति वितरण का वर्णन करेंगे करने के लिए सांकेतिक शब्दों में बदलना होगा. चरण पर विस्तृत जानकारी Dataprix.com .
  • डेटा तैयार करना: एक बार डेटा स्रोतों की पहचान कर रहे हैं वे, किया जाना चाहिए, चयनित साफ स्वरूपित और ट्रांसफार्मर को वांछित आकार में. इस चरण में, डेटा सफाई और डाटा परिवर्तन, आगे की मॉडलिंग के लिए आवश्यक करने की प्रक्रिया शुरू करने के लिए.इस चरण में आप डेटा की खोज के प्रदर्शन गहरा करने के लिए डेटा के भीतर समान पैटर्न पा सकते हैं. आप किसी डेटा स्रोत के रूप में एक डाटा गोदाम का उपयोग कर रहे हैं, तो यह पहले से ही इन करने के लिए डेटा लोड कार्य प्रदर्शन किया है. मई भी मामले में हम समग्र जानकारी करने की आवश्यकता है (उदाहरण के लिए, एक बिक्री अवधि का निर्माण), हम एक द्विपक्षीय व्यवस्था के विशिष्ट उपकरणों के साथ अपने DW से जानकारी निकालने जा सकता है. परिवर्तनों का एक अन्य प्रकार (आय से / आय वर्ग दिखाना n निर्धारित करने के लिए) मूल्य, या डेटा पर reliza आपरेशन (एक ग्राहक की उम्र निर्धारित की पहचान मूल्यों की एक सीमा के लिए परिवर्तित किया जा सकता वर्तमान दिनांक और जन्म तिथि का उपयोग करता है , आदि).इसके अलावा, प्रत्येक डाटा खनन सॉफ्टवेयर उपकरण कुछ विशिष्ट आवश्यकताओं है कि हमें एक प्रारूप (जैसे Clementine या PolyAnalyst अलग अलग डेटा प्रकार है) में जानकारी तैयार करने की आवश्यकता हो सकती है. चरण पर विस्तृत जानकारी Dataprix.com .

कुरकुरा के लिए योजना

  • मॉडलिंग: मॉडलिंग चरण, हम उपकरण और दृश्य खनन उपयोग विशेष सॉफ्टवेयर के लिए डेटा (डेटा का स्वरूपण करने के लिए उन दोनों के बीच संबंधों की स्थापना) या क्लस्टर विश्लेषण (पहचान करने के लिए चर जो संयुक्त कर रहे हैं अच्छी तरह से.)इन उपकरणों के प्रारंभिक विश्लेषण है, जो अधिष्ठापन के नियमों के प्रारंभिक संघ के नियमों के विकास और उन्हें प्रगाढ़ बनाने के साथ पूरक हो सकता है के लिए उपयोगी हो सकता है. एक बार जब हम डेटा का ज्ञान (मान्यता पैटर्न के माध्यम से अक्सर एक मॉडल के उत्पादन को देखने के द्वारा प्राप्त) जांच, आंकड़ों के विश्लेषण के अन्य उपयुक्त मॉडल (जैसे निर्णय के पेड़ के रूप में) हो सकता है. इस स्तर पर हम सीखने और परीक्षण के बीच डेटासेट विभाजित करते हैं. उपकरण हमें विभिन्न स्थितियों के लिए परिणाम उत्पन्न करने की अनुमति.इसके अलावा, कई मॉडलों के इंटरैक्टिव प्रयोग हमें डेटा की खोज में तल्लीन करने के लिए अनुमति देते हैं. चरण पर विस्तृत जानकारी Dataprix.com .
  • मूल्यांकन: परिणामी मॉडल चरण प्रथम में में मूल्यांकन किया जाना चाहिए निर्धारित उद्देश्यों के संदर्भ से व्यापार. यह अन्य आवश्यकताओं की पहचान है कि आगे के लिए पिछले चरणों को वापस ले सकते हैं करने के लिए नेतृत्व कर सकते हैं (यदि हम पाते हैं, उदाहरण के लिए, एक चर जो विश्लेषण प्रभावित करता है लेकिन हम खाते जब डेटा को परिभाषित करने में नहीं लिया है के लिए.) यह एक इंटरैक्टिव प्रक्रिया है जिसमें हम दृश्य तकनीकों, सांख्यिकीय तकनीक और कृत्रिम बुद्धि का एक परिणाम के रूप में व्यापार प्रक्रियाओं की समझ हासिल करने के लिए उपयोगकर्ता डेटा के बीच नए रिश्ते, जो बेहतर प्रक्रियाओं को समझने की अनुमति देगा शो किया जाएगा संगठन का.यह सबसे महत्वपूर्ण चरण है, जैसा कि हम परिणामों की एक व्याख्या कर रहे हैं. चरण पर विस्तृत जानकारी Dataprix.com .
  • तैनाती: डाटा खनन या तो इस्तेमाल किया जा सकता परिकल्पना की पुष्टि पहले से परिभाषित (हम सोचते हैं कि अगर हम वृद्धि 5% बिक्री कर छूट का है, लेकिन हम माप को लागू करने की जाँच की है नहीं से पहले के मॉडल के साथ एक), या ज्ञान की खोज ( उपयोगी रिश्ते और अप्रत्याशित) की पहचान.इस खोज की मदद कर सकते हैं ज्ञान हमें यह अलग व्यावसायिक प्रक्रियाओं को लागू करने और संगठनात्मक जहां आवश्यक परिवर्तन को लागू करने. उदाहरण के लिए, मोबाइल फोन कंपनी है कि लंबी अवधि के ग्राहकों में गरीब ग्राहक सेवा के द्वारा लीक का पता लगाता का एक विशिष्ट उदाहरण पर विचार करें. इस पहलू है संगठनात्मक परिवर्तन का प्रदर्शन करने के लिए कि पहलू में सुधार का पता चला. परिवर्तनों को मॉनिटर करने के लिए एक निश्चित समय में सुधार की पुष्टि या नहीं लागू किया जा सकता है, या वे करने के लिए नए कारक शामिल हैं समायोजित किया है अगर. महत्वपूर्ण यह भी करने के लिए भविष्य के अध्ययन के लिए एक आधार के रूप में इस्तेमाल किया जा दस्तावेज़ सकता है. चरण पर विस्तृत जानकारी Dataprix.com .

छह कदम प्रक्रिया एक कठोर मॉडल है, जहां आमतौर पर प्रतिक्रिया के और पिछले चरणों से एक बहुत कुछ है नहीं है.इसके अलावा, विश्लेषकों सभी अध्ययनों में प्रत्येक चरण के लिए की जरूरत है अनुभव नहीं होगा.

SEMMA (नमूना, अन्वेषण, संशोधित करें, मॉडल और मूल्यांकन).

में आदेश ठीक से लागू करने के लिए, एक डेटा खनन समाधान एक प्रक्रिया के रूप में की बजाय उपकरणों और तकनीकों का एक सेट के रूप में देखा जाना चाहिए. इस SAS संस्थान द्वारा विकसित पद्धति, SEMMA बुलाया का उद्देश्य है, नमूना = नमूना अर्थ, = तलाशने, = संशोधित संशोधित, मॉडल = आकलन मॉडलिंग और = मूल्यांकन का पता लगाएं. इस पद्धति के लिए यह आसान बाहर अन्वेषण और सांख्यिकीय दृश्य तकनीकों ले जाने के लिए, का चयन करें और सबसे महत्वपूर्ण भविष्य कहनेवाला चर को बदलने, मॉडल चर परिणाम की भविष्यवाणी करने के लिए और अंत में एक मॉडल की विश्वसनीयता की पुष्टि करना करना है.कुरकुरा मॉडल की तरह, यह संभव प्रतिक्रिया और इस प्रक्रिया में पिछले चरणों में वापसी है. ग्राफिकल प्रतिनिधित्व है:

Esquema del Metodo SEMMA चरण इस प्रकार हैं:

  • नमूना: मात्रा की जानकारी एक बड़े, हैंडलिंग निकालने एक महत्वपूर्ण पर्याप्त चुस्त नमूना के लिए उपयुक्त आकार और शक्ति.डेटा के आकार में यह कमी हमें की अनुमति देता है एक और अधिक तेजी में विश्लेषण करते हैं और यह भी डेटा से में एक और अधिक तत्काल महत्वपूर्ण जानकारी मिली है. डेटा के नमूने के लिए इस्तेमाल किया जो उद्देश्य के अनुसार तीन समूहों में वर्गीकृत किया जा सकता है: (के लिए मॉडल का निर्माण किया जाता) प्रशिक्षण, प्रमाणीकरण (मॉडल मूल्यांकन के लिए इस्तेमाल किया) और टेस्ट (पुष्टि करने के लिए और परिणाम सामान्य प्रयोग एक मॉडल में से एक).
  • अन्वेषण करें: सेट डेटा की समझ उपयोगकर्ता खोजों की खोज में इस चरण के लिए बेहतर है एक अप्रत्याशित या रुझान विसंगतियों को प्राप्त करें. इस चरण में, दोनों नेत्रहीन और संख्यानुसार प्रवृत्तियों या समूहों के लिए पता लगाया.इस खोज को परिष्कृत करने और इस प्रक्रिया को दिशानिर्देश देने में मदद करता है. घटना में है कि दृश्य विश्लेषण परिणाम नहीं दे करता है, कारक विश्लेषण, पत्राचार विश्लेषण और क्लस्टरिंग जैसे सांख्यिकीय तकनीकों का उपयोग कर डेटा का पता लगाएं.
  • संशोधित: यह वह जगह है जहाँ उपयोगकर्ता बनाता है, का चयन करता है और चर बदल देती है ताकि मॉडल भवन में रखा. अन्वेषण चरण के निष्कर्षों के आधार पर, डेटा समूह के बारे में जानकारी शामिल करने के लिए संशोधित या नए चर कि प्रासंगिक हो सकता है, या उन है कि वास्तव में नहीं कर रहे हैं को दूर परिचय.
  • मॉडल: जब हम परिणाम का एक संयोजन खोजने के चर कि वांछित मज़बूती से भविष्यवाणी की एक.इस बिंदु पर हम एक तरह से डेटा में पैटर्न की व्याख्या मॉडल बनाने के लिए तैयार हैं. मॉडलिंग तकनीकों तंत्रिका नेटवर्क, निर्णय वृक्ष, रसद मॉडल या समय की एक श्रृंखला है, स्मृति के आधार पर तर्क, आदि के रूप में सांख्यिकीय मॉडल शामिल हैं.
  • आकलन: इस चरण में उपयोगकर्ता datamining मूल्यांकन की प्रक्रिया और उपयोगिता में किए गए खोजों की विश्वसनीयता. सत्यापित कितनी अच्छी तरह यह यहाँ एक मॉडल काम करता है. ऐसा करने के लिए, हम इसे अलग डेटा (परीक्षण) नमूने या अन्य ज्ञात डेटा पर लागू होते हैं, और इस तरह उनकी vaildez की पुष्टि करें.

DataMining तकनीक

सांख्यिकीय विश्लेषण:

निम्नलिखित उपकरण का प्रयोग:
1.ANOVA: की विचरण विश्लेषण ओ, को देखने के लिए कि क्या वहाँ समूहों के विभिन्न आबादी में लगातार चर अधिक उपायों में से एक या के बीच महत्वपूर्ण मतभेद रहे हैं.

2.Regresión: पहले के predictors परिभाषित संबंध के बीच एक सेट का एक और चर या अधिक.

3.Ji चुकता चर के बीच स्वतंत्रता की परिकल्पना परीक्षण.मुख्य घटक: कृत्रिम चर की एक छोटी संख्या को देखा चर की संख्या कम, चर का प्रसरण पर सूचना के सबसे बनाए रखना है.

4.Análisis क्लस्टर: करने के लिए समूहों की एक संख्या में आबादी प्रोफ़ाइल समानता और है कि जनसंख्या के विभिन्न घटकों के बीच असमानताओं को बताया के आधार पर वर्गीकृत.

Discriminant 5.Análisis: पहले से स्थापित किया गया है कि समूह में एक विधि के वर्गीकरण के व्यक्तियों और समूहों मिल शासन इन तत्वों में से एक वर्गीकरण है कि अनुमति देता है, और इसलिए सदस्यता की पहचान चर कि सबसे अच्छा समूह को परिभाषित.

पेड़ निर्णय पर आधारित तरीके:

विधि CHAID (ची चुकता स्वचालित इंटरेक्शन वेक्षक) एक विश्लेषण है कि एक निर्णय करने के लिए एक या अधिक भविष्यवक्ता चर से एक चर के व्यवहार की भविष्यवाणी पेड़ उत्पन्न करता है, इसलिए है कि एक ही शाखा का सेट और एक ही स्तर के हैं संबंध तोड़ना.यह परिस्थितियों में उपयोगी है जहाँ उद्देश्य के लिए अलग है कुछ निर्णय कसौटी पर आधारित क्षेत्रों में एक जनसंख्या विभाजित करते हैं.

निर्णय ट्री मूल्यों से टिप्पणियों के दो या अधिक सबसेट में डाटासेट बंटवारे द्वारा निर्मित है predictors ग्रहण किया. इन कैंपेन्स के प्रत्येक वापस तो एक ही एल्गोरिथ्म का उपयोग कर विभाजित किया जाना है. यह प्रक्रिया जारी है जब तक वहाँ की प्रतिक्रिया चर के मूल्य को इन समूहों के भविष्य कहनेवाला चरों के प्रभाव में उल्लेखनीय मतभेद हैं.

पेड़ की जड़ पूरा सेट डेटा, कैंपेन्स और पेड़ की शाखाओं को subsubconjuntos है.कोई सेट है जिसमें एक विभाजन नोड कहा जाता है.

एक विभाजन में कैंपेन्स की संख्या दो अलग मानों की संख्या है कि अलग होने के लिए इस्तेमाल किया चर ले जा सकते जा सकते हैं. भविष्यवक्ता के लिए एक विभाजन बनाने के लिए उपयोग चर सबसे ची वर्ग की स्वतंत्रता के परीक्षण के अंतर्गत एक आपात मेज पर प्रतिक्रिया चर के साथ जुड़े महत्वपूर्ण एक है.

आनुवंशिक एल्गोरिदम:

संख्यात्मक अनुकूलन के तरीकों, जिसमें चर या चर कि अध्ययन चर के साथ बेहतर बनाने का इरादा कर रहे सूचना का एक टुकड़ा रहे हैं.करने के लिए प्रतिक्रिया चर के लिए सबसे अच्छा मान प्राप्त करने का विश्लेषण चरों के उन विन्यास, अधिक से अधिक प्रजनन क्षमता के साथ क्षेत्रों के अनुरूप हैं. खेल के माध्यम से, सबसे अच्छा वर्ग बना रहेगा और अपने हिस्से पीढ़ी से पीढ़ी को बढ़ता है. यह भी चर (म्यूटेशन) को बदलने के लिए यादृच्छिक तत्व मिलवा सकता है. पुनरावृत्तियों की एक निश्चित संख्या के बाद, जनसंख्या अनुकूलन समस्या को अच्छा समाधान शामिल होंगे.

तंत्रिका नेटवर्क:

समानांतर प्रसंस्करण में आम तौर पर संख्यात्मक तरीके हैं, जिनमें चर रेखीय या nonlinear परिवर्तनों के साथ बातचीत करने के लिए एक throughput प्राप्त करते हैं.इन outputs जो लोग बाहर चले गए हैं चाहिए के साथ तुलना कर रहे हैं, परीक्षण डेटा पर निर्भर है, एक प्रतिक्रिया प्रक्रिया है जिसके द्वारा नेटवर्क इतनी के रूप में reconfigured है के लिए एक उपयुक्त मॉडल प्राप्त हो जाती है.


Neuronal नेटवर्क Microstrategy

फजी लॉजिक:

यह आंकड़ों की अवधारणा के एक सामान्यकरण है.शास्त्रीय आँकड़े संभावना सिद्धांत पर आधारित है, यह तकनीकी संयुक्त, जिसमें एक सेट करने के लिए संबंधित के संबंध में है दिचोतोमोउस बारी (2 भी है या नहीं है). अगर हम एक है जो सदस्यता एक निश्चित स्तर है के रूप में फजी सेट की धारणा स्थापित ("एक 20 डिग्री सेल्सियस के लिए दिन गर्म है?) हम होगा एक व्यापक सांख्यिकीय और इसलिए परिणाम मानव तर्क के करीब हैं.

समय श्रृंखला

समय के माध्यम से जो ज्ञान से, और इस धारणा है कि कोई संरचनात्मक परिवर्तन घटित होगा, के लिए भविष्यवाणी करने के तहत एक चर का ज्ञान, है.अक्सर के लिए चक्र, प्रवृत्तियों और मौसम,, जो समय के दायरे से अलग कवर में श्रृंखला के एक अध्ययन पर प्राप्त करने के मूल श्रृंखला समाप्त द्वारा आधारित है. संकर दृष्टिकोण पिछले विधियों, जो इस श्रृंखला में न केवल समय के संदर्भ में, लेकिन अन्य चर का एक संयोजन और अधिक स्थिर वातावरण और इसलिए के रूप में समझाया जा सकता है, अधिक पूर्वानुमान आसानी से लागू किया जा सकता है.

खनन तकनीक का वर्गीकरण डेटा

डाटा खनन तकनीक एसोसिएशन, वर्गीकरण, क्लस्टरिंग और समय श्रृंखला भविष्यवाणियों के रूप में वर्गीकृत किया जा सकता है.

  • ) संघ (एसोसिएशन: एक ही लेन - देन किसी वस्तु के बीच संबंध की मद में एक और एक सौदा है और पैटर्न की भविष्यवाणी के लिए इस्तेमाल किया.उदाहरण के लिए, एक ग्राहक को एक कंप्यूटर (एक्स), जबकि मामले के 60% से एक माउस (Y) खरीदने खरीद. यह पैटर्न कंप्यूटर की खरीद के 5.6% में होता है. इस स्थिति में संघ नियम है कि "एक्स, वाई, जहां 60% आत्मविश्वास पहलू और 5.6% समर्थन कारक है निकलता है. जब आत्मविश्वास का पहलू और समर्थन कारक भाषाई उच्च और निम्न, संघ शासन फजी लॉजिक के रूप में लिखा जा सकता है जैसे चर, द्वारा प्रतिनिधित्व कर रहे हैं "जब समर्थन ब्रैकेट कारक कम है, एक्स वाई उच्च तात्पर्य है" . इस प्रविष्टि और बेचने बच्चा डायपर सुपरमार्केट के बीच सहयोग होगा अध्ययन करने के लिए खनन डेटा की हो एक विशिष्ट उदाहरण बीयर ब्लॉग (देखें Bifacil ).एल्गोरिदम संघ नियमों और निर्णय के पेड़ थे.

Microstrategy में मॉडल संघ - डीवीडी फिल्म खरीदें

  • ) में स्टैंडिंग वर्गीकरण वर्गीकरण (, वे तरीकों का इरादा सुविधाएँ अलग जानने के लिए कि डेटा वर्गों में वर्गीकृत पूर्व निर्धारित सेट.एक नए पूर्वनिर्धारित कक्षाएं, विशेषताओं का एक नंबर और प्रशिक्षण डेटा या प्रशिक्षण, वर्गीकरण के तरीकों का एक सेट स्वचालित रूप से पहले से वर्गीकृत आंकड़ों के वर्ग भविष्यवाणी कर सकते हैं को देखते हुए. अधिक महत्वपूर्ण वर्गीकरण के मुद्दों से संबंधित शक्ति और भविष्यवाणी वर्गीकरण त्रुटियों की कर रहे हैं मूल्यांकन के आँकड़े सबसे अधिक इस्तेमाल किया गणितीय तकनीकों के लिए. और वर्गीकरण हैं द्विआधारी निर्णय वृक्ष, तंत्रिका नेटवर्क, रैखिक प्रोग्रामिंग. पेड़ का प्रयोग एक द्विआधारी निर्णय, मॉडल में शामिल एक पेड़ फार्म सी-नहीं, हम विशेषताओं के अपने मूल्य के आधार पर कर सकते हैं कक्षा में विभिन्न डेटा स्थिति.बहरहाल, यह वर्गीकरण इष्टतम नहीं होगा यदि भविष्यवाणी की शक्ति कम हो सकता है. तंत्रिका नेटवर्क का उपयोग, एक प्रेरण तंत्रिका मॉडल की एक निर्माण कर सकते हैं. इस मॉडल में, विशेषताओं इनपुट परतों और डेटा के साथ जुड़े उत्पादन परतों है वर्गों रहे हैं. इनपुट और आउटपुट के बीच की परतों छुपा कनेक्शन की एक बड़ी संख्या है कि वर्गीकरण (अगर वे अपने चारों ओर उन के साथ एक न्यूरॉन के कनेक्शन थे के रूप में) की विश्वसनीयता सुनिश्चित कर रहे हैं. तंत्रिका प्रेरण मॉडल विश्लेषण में कई अच्छे परिणाम देता है खनन, जब रिश्तों की एक बड़ी संख्या विशेषताओं की बड़ी संख्या के लिए विधि के कार्यान्वयन पेचीदा डेटा.तकनीकों का प्रयोग रैखिक प्रोग्रामिंग, वर्गीकरण समस्या रैखिक प्रोग्रामिंग का एक विशेष मामले के रूप में देखा. रैखिक प्रोग्रामिंग डेटा के वर्गीकरण का अनुकूलन है, लेकिन समय गणना बड़ा कर सकते हैं नेतृत्व करने की आवश्यकता है जटिल मॉडल है कि. या रसद प्रतिगमन discriminant, अन्य सांख्यिकीय तरीकों जैसे रेखीय प्रतिगमन भी लोकप्रिय हैं और अक्सर इस्तेमाल किया वर्गीकरण की प्रक्रिया में .

Microstrategy में निर्णय ट्री

  • ) क्लस्टरिंग (विभाजन: उपयोग कर स्वचालित तकनीक से विश्लेषण और क्लस्टर का समूह ले जा डेटा के बिना इन समूह के बनाता है.क्लस्टरिंग supevisado नहीं है और आवश्यकता है कोई प्रशिक्षण डेटा सेट. वर्गीकरण के साथ तरीकों का एक सेट के शेयरों. यही है, गणितीय भी गुच्छ विश्लेषण करने के लिए लागू किया जा सकता वर्गीकरण में प्रयुक्त मॉडल के कई. क्लस्टरिंग एल्गोरिथ्म क्लस्टरिंग का प्रयोग और अनुक्रम.
  • भविष्यवाणी (भविष्यवाणी) का अनुमान: भविष्यवाणी प्रतिगमन विश्लेषण तकनीक से संबंधित है.भविष्य कहनेवाला विश्लेषण का मुख्य विचार के लिए स्वतंत्र और आश्रित चर और स्वतंत्र चरों के बीच रिश्तों के बीच संबंधों की खोज है. उदाहरण के लिए, बिक्री अगर एक स्वतंत्र चर रहा है, एक आश्रित चर benefición जा सकता है.
  • समय श्रृंखला (पूर्वानुमान): प्रतिगमन का उपयोग ऐतिहासिक nonlinear या रैखिक के डेटा को एक साथ साथ तकनीक, हम उत्पादन कर सकते हैं प्रतिगमन घटता भविष्य के लिए भविष्यवाणी कर रहे थे इस्तेमाल किया जाएगा. एल्गोरिदम समय श्रृंखला का उपयोग कर.

उदाहरण 1. विश्लेषण टोकरी (एसोसिएशन).

एक ठेठ करने के लिए डाटा खनन (बच्चा डायपर और बीयर की बिक्री के बीच सहयोग के साथ) का उपयोग के क्षेत्र की व्याख्या करते थे उदाहरण है.हमारे मामले में, उनके मंच में MicroStrategy द्वारा प्रदान की गई उदाहरण, परियोजना सीखने का उपयोग कर, MicroStrategy ट्यूटोरियल कहा जाता है, हम संघ विश्लेषण तकनीक का उपयोग का एक उदाहरण देखेंगे.

उदाहरण में, हम एक डिपार्टमेंटल स्टोर से डीवीडी की बिक्री का विश्लेषण करने और विभिन्न फिल्मों की बिक्री के बीच सहयोग ढूँढ़ने की कोशिश. यानी एक साथ करने के लिए शीर्षक बेच रहे हैं क्रम में करने के लिए, फिल्मों के हॉल, छूट को बढ़ावा देने में एक साथ स्थान दूसरी इकाई, आदि खरीदने के द्वारा उन (फिल्में जैसे, पैक की बिक्री के आगे पदोन्नति स्थापित खोजने की कोशिश बिक्री बढ़ाने के उद्देश्य से).विश्लेषण संघ के नियमों का इस्तेमाल किया विश्लेषण के इस प्रकार के लिए.

उदाहरण 2. ग्राहक विभाजन (क्लस्टर विश्लेषण).

इस विश्लेषण के साथ हम अपने ग्राहकों का विश्लेषण करने और उन जनसांख्यिकीय जानकारी (उम्र, शिक्षा, बच्चों, वैवाहिक स्थिति या घर के प्रकार की संख्या), का उपयोग बाजार विभाजन बनाने के लिए कुछ उत्पादों या प्रोमोशनल ऑफर करने के प्रक्षेपण के लिए तैयार.

इस मामले में, हम एल्गोरिथ्म जाएगा आचरण का उपयोग करते हुए विश्लेषण एक क्लस्टर K-अर्थ है, जो Microstrategy है समर्थन.

उदाहरण 3.बिक्री एक अभियान (निर्णय वृक्ष) के पूर्वानुमान.

यह एक निर्णय के पेड़ का उपयोग करने के लिए कुछ उत्पादों पर ग्राहकों को छूट के एक विशेष समूह के के स्कूल में वापस युग की प्रतिक्रिया में यह निर्धारित विश्लेषण में. यह अंत करने के लिए, निर्णय के पेड़ द्विआधारी का उपयोग करें (याद है कि निर्णय के पेड़ दोनों वर्गीकरण के लिए और प्रतीपगमन विश्लेषण के लिए इस्तेमाल किया जा सकता है इस मामले में के रूप में). निर्धारित करने के लिए कि कैसे वे उम्र, या बिक्री अभियान में खरीदारी की संभावना पर बच्चों की संख्या सेक्स जैसे कारकों प्रभाव का प्रयास करें.

में अगले ब्लॉग प्रविष्टि इन दा के उपकरण का उपयोग कर उदाहरण विस्तार होगाटा खनन Microstrategy.