
��一、問題提出
隨著市場競爭加劇大,如何用歷史交易數據預測市場潛在客戶,成為研究熱點。粗糙集是用已有知識刻畫不確定或不精確的知識,確定給定問題的近似域。運用粗糙集預測潛在客戶可提高發現效率。
��二、粗糙集相關概念
(一) 近似集
設�X∈U�,�U�上的一個等價關系用�R�表示。當集合�X�能表示成某些�R�基本知識的并集時,稱集合�X�為�R�的精確集;否則,集合�X�只能以逼近的方式刻畫,稱集合�X�是�R�粗糙集或不可定義集。
�包含X的最小R精確集稱為X 的R上近似,記為R(X);X所包含的最大R精確集稱為X 的R下近似,記為�R�-(X)。即:R(X)={a∈U|[a]�R∩X≠φ}
;R-(X)={a∈U|[a]�R}�X
;稱BN�R(X)=R(X)-R-(X)
為X的R邊界區域。�
(二)信息系統與決策表
設四元組�S=(U,A,V,F)�,其中�S�為知識表達系統,�U={X�1,X�2,…X�n}�是對象的非空有限集合,為論域:�A={a�1,a�2,…,a�m}�是屬性的非空有限集合;�V=U�a∈A�V�n�是屬性值域;�f∶V×A�V�為信息函數,�a∈A,x∈U,f(x,a)∈V�a。�
�具有條件屬性C和決策屬性D,A=C∩D,C∩D=φ�的信息系統稱為決策表。
(三) 屬性的依賴性與重要度
在�S=(U,A,V,f)�
中屬性�D對屬性C�的依賴度為:�γ�c(D)=|POS�c(D)||U|�
�其中POS�c(D)表示D在U/IND(C)上的正區域。γ�c(D)給出屬性C用分類特性對分類U/D的全部信息。�
�在決策系統S=(U,A,V,f)中,a∈C的屬性重要度為:�
�SGF��(C,D)�(a)=γ�C(D)-γ��C-{a}�(D)γ�C(D)�
�其中SGF��(C,D)�(a)∈[0,1],若SGF�(C,D)(a)=0,則屬性a對于D可省略;若SGF��(C,D)�(a)≠0,則屬性a對于D不可缺少。SGF��(C,D)�(a)
值越大,屬性a對于D就越重要。�
��三、預測模型的設計
基于粗糙集預測潛在客戶步驟:
1)明確系統目標,建立相關數據集;
2)數據預處理:對數據包含的空值進行處理,如填入、刪除或連續屬性離散化;
3)計算條件屬性集的約簡;
4)產生分類規則,選擇和過濾規則。
(一)數據預處理
1.決策表補齊
對不完備的信息表補齊遺漏數據的方法:
1)刪除缺損數據,得到完備的數據表,此方法局限于信息表數據量極大而缺損數據量相對很小時;
2)將缺損數據作為特殊屬性值處理;
3)通過統計方法,根據決策表中各屬性值取值的記錄情況估計缺損數據;
4)運用粗糙集建立數據間的不可分辨關系,補齊缺損數據。
2.不完備數據分析方法
空缺數據值的填補要使完整化后的信息系統產生的分類規則具有盡可能高的支持度,盡量集中產生的規則,使信息系統的其他相似對象與具有遺漏值的對象的屬性值之間高度一致,使屬性值之間差異較小。
3.連續屬性值的離散化
運用粗糙集處理決策表時要求用離散數據表達屬性值。把連續屬性的取值區間劃分成若干小區間稱為離散化,每個小區間有相應離散符號。可根據某種規則由系統自動劃分或由領域專家根據經驗劃分。
離散化后決策表要盡量保持較少的空間維數,即剩余屬性值的個數;且離散化后決策表不能改變原有決策表的不可辨識關系,即盡量減少信息丟失。
(二)數據約簡
1.屬性約簡
在知識庫的分類或決策能力不變條件下,刪除其中冗余知識稱為屬性約簡,約簡后的屬性被應于導出分類規則。約簡后屬性個數越少,表明相對應的分類規則所需考慮的因素越少。屬性值組合數目最小的約簡為最優屬性約簡。
2.一般的屬性約簡算法
1)設決策表的條件屬性集為C,決策屬性集為D。對于每個條件屬性a�i∈C,計算該屬性重要度r�c(D)-r��c-a�(D)。
2)若r�c(D)-r��c-a�i�(D)=0,則該屬性a�i相對于決策分類是冗余的,可刪除。
3)反之屬性a�i相對于決策分類是必要的,不可刪除。
4)屬性集合不再變化時,輸出結果。
(三) 分類規則約簡
1.分類規則表現形式
在決策表�S=(U,A,V,f)�中,定義形如C�D的邏輯含義為分類規則。C表示規則的前提,D表示規則的結論。規則約簡是對每一條分類規則進行約簡,刪除決策規則的冗余屬性值,使決策規則最小化。
2.分類規則的度量參數
粗糙集分析的目的是將規則應用于實際,規則包括如下測量值:
1)支持量和支持度
支持度定義:sup port(C�D)=|C∩D||U|
其中,支持量定義為|C∩D|
,U為總體,|U|表示總體的數量,支持度用于描述所得規則在數據集中的統計重要性,
sup port(C�D)越大,說明由C得到D的機會越大,規則的價值越大。
2)可信度
規則的可信度:confidence(C�D)=sup port(C∩D)sup port(C)=|C∩D||C|
sup port(C�D)測度了根據C能得出結論D的可信度,并且是條件概率p(D|C)的頻率估計。
3)覆蓋率
規則的覆蓋率越大,其適用性越強,決策值的分布對規則的適用性也有影響。規則的適用度為:
cecoverage(C�D)=sup port(C∩D)sup port(C)=|C∩D||D|
。
3.改進的一般分類規則約簡算法
針對目前的數據存儲系統中經常存在不一致信息現象,修正一般的屬性約簡方法,約簡不一致系統的分類規則。算法步驟:
1)將原始決策表中的沖突記錄標記出,從規則集合里面取任一規則。
2)若該規則為一致規則,對于�γ∈C,如果去掉該條件屬性,該規則沒有和其他規則沖突,即x��C/{r}��[x]�D,說明該條件屬性可以從此規則中刪除掉。若規則沒有全部抽取完畢,則轉到第1步;若每一條記錄結束,則轉到第4步。
3)若該規則為不一致規則,重新定義[x]�D,[x]�D必須包含原始決策表中相關的沖突記錄,然后轉到第2步;
4)算法結束。
��四、 結論
粗糙集理論作為數據挖掘的一種方法,能有效處理不完整、不一致及不確定性的信息。通過基于粗糙集理論預測模型,為企業提供預測潛在客戶的價值水平,更有針對性地制定客戶發展戰略。