一個(gè)數(shù)據(jù)庫有5個(gè)事務(wù),如表所示。設(shè)min_sup=60%,min_conf=80%。
(a)分別用Apriori算法和FP-growth算法找出所有頻繁項(xiàng)集。比較兩種挖掘方法的效率。
(b)比較窮舉法和Apriori算法生成的候選項(xiàng)集的數(shù)量。
(c)利用(1)所找出的頻繁項(xiàng)集,生成所有的強(qiáng)關(guān)聯(lián)規(guī)則和對(duì)應(yīng)的支持度和置信度。
您可能感興趣的試卷
最新試題
當(dāng)數(shù)據(jù)集標(biāo)簽錯(cuò)誤的數(shù)據(jù)點(diǎn)時(shí),隨機(jī)森林通常比AdaBoost更好。
任何對(duì)數(shù)據(jù)處理與存儲(chǔ)系統(tǒng)的操作均需要記錄,這符合數(shù)據(jù)安全的要求。
使用正則表達(dá)式可以找到一個(gè)文本文件中所有可能出現(xiàn)的手機(jī)號(hào)碼。
由于分類是回歸的一種特殊情況,因此邏輯回歸是線性回歸的一種特殊情況。
小數(shù)據(jù)集的數(shù)據(jù)處理最好也由計(jì)算機(jī)手段來完成。
根據(jù)數(shù)據(jù)科學(xué)家與數(shù)據(jù)工程師對(duì)于問題的理解并相互討論,然后確定需要收集數(shù)據(jù)的范圍以及種類,然后數(shù)據(jù)工程師使用數(shù)據(jù)收集工具,架構(gòu),甚至編程的形式來進(jìn)行數(shù)據(jù)收集的工作,然后并把數(shù)據(jù)收集的數(shù)據(jù)放置到對(duì)應(yīng)的存儲(chǔ)系統(tǒng)。
由于決策樹學(xué)會(huì)了對(duì)離散值輸出而不是實(shí)值函數(shù)進(jìn)行分類,因此它們不可能過度擬合。
通過統(tǒng)計(jì)學(xué)可以推測(cè)擲兩個(gè)撒子同時(shí)選中3點(diǎn)的幾率。
管理員不需要驗(yàn)證就可以訪問數(shù)據(jù)存儲(chǔ)系統(tǒng)中的任何數(shù)據(jù),這符合數(shù)據(jù)安全的要求。
當(dāng)MAP中使用的先驗(yàn)是參數(shù)空間上的統(tǒng)一先驗(yàn)時(shí),MAP估計(jì)等于ML估計(jì)。