Skip to main content

什麼是數據挖掘?基礎知識及其技術。

什麼是數據挖掘?基礎知識及其技術。

Geoffrey Carr

第四次工業革命的基礎將在很大程度上取決於 數據連接. 分析服務 能夠開發或創建數據挖掘解決方案將在這方面發揮關鍵作用。它可以幫助分析和預測客戶購買行為的結果,以針對潛在買家。數據將成為一種新的自然資源,從這些未分類數據中提取相關信息的過程將具有極大的重要性。因此,正確理解該術語 - 數據挖掘,它的流程和應用程序可以幫助我們開發關於這個流行語的整體方法。

數據挖掘基礎知識及其技術

數據挖掘,也稱為 數據中的知識發現 (KDD)是關於搜索大型數據庫以發現超出簡單分析的模式和趨勢。然而,這不是一步到位的解決方案,而是一個多步驟的過程,並在各個階段完成。這些包括:

1]數據收集和準備

它始於數據收集及其適當的組織。這有助於顯著提高查找可通過數據挖掘發現的信息的機會

2]模型構建和評估

數據挖掘過程的第二步是應用各種建模技術。這些用於將參數校準到最佳值。所採用的技術在很大程度上取決於解決組織需求範圍和做出決策所需的分析能力。

讓我們簡要地研究一些數據挖掘技術。結果發現,大多數組織將兩種或多種數據挖掘技術結合在一起,形成滿足其業務需求的適當流程。

:什麼是大數據?

數據挖掘技術

  1. 協會 - Association是眾所周知的數據挖掘技術之一。在此基礎上,基於同一事務中的項之間的關係來破譯模式。因此,它也被稱為關係技術。大品牌零售商依靠這種技術來研究顧客的購買習慣/偏好。例如,在跟踪人們的購買習慣時,零售商可能會發現顧客在購買巧克力時總會購買奶油,因此建議他們下次購買巧克力時也可能會購買奶油。
  2. 分類 - 該數據挖掘技術與上述不同之處在於它基於機器學習並使用諸如線性規劃,決策樹,神經網絡之類的數學技術。在分類中,公司嘗試構建可以學習如何將數據項分組的軟件。例如,公司可以在應用程序中定義一個分類,“給出從公司辭職的員工的所有記錄,預測將來可能從公司辭職的個人數量。”在這種情況下,公司可以將員工的記錄分為兩組,即“離開”和“停留”。然後,它可以使用其數據挖掘軟件將員工分類為先前創建的單獨組。
  3. 聚類 - 通過自動化將表現出類似特徵的不同對象組合在一個集群中。許多這樣的集群被創建為類,並且相應地將對象(具有相似特徵)放置在其中。為了更好地理解這一點,讓我們考慮一下庫中圖書管理的一個例子。在圖書館中,大量的書籍被完全編目。相同類型的項目一起列出。這使我們更容易找到我們感興趣的書。同樣,通過使用聚類技術,我們可以在一個集群中保留具有某種相似性的書籍,並為其指定合適的名稱。因此,如果讀者想要獲取與他感興趣相關的書籍,他只需要去那個書架而不是搜索整個圖書館。因此,聚類技術定義類並在每個類中放置對象,而在分類技術中,將對象分配到預定義的類中。
  4. 預測 - 預測是一種數據挖掘技術,通常與其他數據挖掘技術結合使用。它涉及分析趨勢,分類,模式匹配和關係。通過以適當的順序分析過去的事件或實例,可以安全地預測未來的事件。例如,如果將銷售選擇為獨立變量並且利潤作為依賴於銷售的變量,則可以在銷售中使用預測分析技術來預測未來利潤。然後,基於歷史銷售和利潤數據,可以繪製用於利潤預測的擬合回歸曲線。
  5. 決策樹 - 在決策樹中,我們從一個有多個答案的簡單問題開始。每個答案都會引出另一個問題,以幫助對數據進行分類或識別,以便對其進行分類,或者根據每個答案進行預測。例如,我們使用以下決策樹來確定是否玩板球ODI:數據挖掘決策樹:從根節點開始,如果天氣預報預測下雨,那麼我們應該避免當天的匹配。或者,如果天氣預報明確,我們應該進行比賽。

數據挖掘是跨越各種行業和學科的分析工作的核心,如通信,保險,教育,製造,銀行和零售等。因此,在應用不同的技術之前,掌握正確的信息是必不可少的。

Link
Plus
Send
Send
Pin