最新試題
根據(jù)數(shù)據(jù)科學家與數(shù)據(jù)工程師對于問題的理解并相互討論,然后確定需要收集數(shù)據(jù)的范圍以及種類,然后數(shù)據(jù)工程師使用數(shù)據(jù)收集工具,架構(gòu),甚至編程的形式來進行數(shù)據(jù)收集的工作,然后并把數(shù)據(jù)收集的數(shù)據(jù)放置到對應(yīng)的存儲系統(tǒng)。
當數(shù)據(jù)集標簽錯誤的數(shù)據(jù)點時,隨機森林通常比AdaBoost更好。
對于文本數(shù)據(jù)和多媒體數(shù)據(jù)進行特征提取是為了方便對于這類數(shù)據(jù)的觀察和理解。
通常,當試圖從大量觀察中學習具有少量狀態(tài)的HMM時,我們幾乎總是可以通過允許更多隱藏狀態(tài)來增加訓練數(shù)據(jù)的可能性。
管理員不需要驗證就可以訪問數(shù)據(jù)存儲系統(tǒng)中的任何數(shù)據(jù),這符合數(shù)據(jù)安全的要求。
由于決策樹學會了對離散值輸出而不是實值函數(shù)進行分類,因此它們不可能過度擬合。
假設(shè)屬性的數(shù)量固定,則可以在時間上以線性方式學習基于高斯的貝葉斯最優(yōu)分類器,而該數(shù)量是數(shù)據(jù)集中記錄的數(shù)量。
數(shù)據(jù)索引就像給每條數(shù)據(jù)裝了個信箱。
數(shù)據(jù)收集中的拉模式需要通過定時的方式不斷地觸發(fā),才能源源不斷地獲取對應(yīng)的數(shù)據(jù)。
數(shù)據(jù)復制或者備份均是為了從提高數(shù)據(jù)并發(fā)這個角度來設(shè)計和實現(xiàn)的。