你真的了解機器學習、人工智能、統(tǒng)計建模嗎?
一、機器學習
機器學習是以數(shù)據(jù)為基礎,它專注于為回歸和分類算法。其底層隨機機制往往是次要的、不被重視的。當然,許多機器學習技術也可以通過隨機模型和回歸計算來定義,但數(shù)據(jù)并不是由模型生成的。相反,機器學習主要是為了辨識出運行某個特定任務的算法或技術(或者是二者兼有):顧客最好由k-Means聚類,或者是DBSCAN、決策樹、隨機森林,還是支持向量機?
簡而言之,對統(tǒng)計學家來說,模型是首要的,對機器學習專家來說,數(shù)據(jù)才是排在第一位的。因為機器學習強調(diào)的是數(shù)據(jù),而不是模型。把數(shù)據(jù)分離成訓練和測試組的驗證技術是非常重要的。一個解決方案的優(yōu)劣不在于p值,而在于證明這個解決方案在以前看不到的數(shù)據(jù)方面預測良好。把一個統(tǒng)計模型和一套數(shù)據(jù)匹配,或者為一套數(shù)據(jù)訓練決策樹,就需要評估未知量。決策樹的最佳分割點,是由預估參數(shù)數(shù)據(jù)決定的,而預估參數(shù)是由從屬變量的條件分布決定的。
沒有一種技術能夠自稱會學習。訓練才是塑造某物的必經(jīng)之路。學習,從另一方面來講,就暗示著獲得新的技能,而訓練是學習的一部分。通過訓練一個深度神經(jīng)網(wǎng)絡,也就是說,通過輸入數(shù)據(jù)設定好它的砝碼和偏向,它就學會了分類,這個神經(jīng)網(wǎng)絡就變成了一個分類器。
二、深度學習
當一個機器學習系統(tǒng)不是去通過編程是實現(xiàn)某一項功能,而是通過編程去學習一項能力,這就是一個真的學習系統(tǒng),被指定去學習完成某項任務的,稱之為深度學習。深度學習也是一種數(shù)據(jù)驅(qū)動型的實踐。跟機器學習不同的是,深度學習不依賴于強悍的算法技術。幾乎所有這種形式的機器學習應用,多是以深度神經(jīng)網(wǎng)絡為基礎的。
深度學習被頻繁應用于各種弱人工智能應用,在這些領域,機器會去做人類的工作。
三、分布式計算
分布式計算簡單來說,是把一個大計算任務拆分成多個小計算任務分布到若干臺機器上去計算,然后再進行結(jié)果匯總。 目的在于分析計算海量的數(shù)據(jù),從雷達監(jiān)測的海量歷史信號中分析異常信號(外星文明),淘寶雙十一實時計算各地區(qū)的消費習慣等。
海量計算最開始的方案是提高單機計算性能,如大型機,后來由于數(shù)據(jù)的爆發(fā)式增長、單機性能卻跟不上,才有分布式計算這種妥協(xié)方案。 因為計算一旦拆分,問題會變得非常復雜,像一致性、數(shù)據(jù)完整、通信、容災、任務調(diào)度等問題也都來了。
舉個例子,產(chǎn)品要求從數(shù)據(jù)庫中100G的用戶購買數(shù)據(jù),分析出各地域的消費習慣金額等。 如果沒什么時間要求,程序員小明就寫個對應的業(yè)務處理服務程序,部署到服務器上,讓它慢慢跑就是了,小明預計10個小時能處理完。 后面產(chǎn)品嫌太慢,讓小明想辦法加快到3個小時。
平常開發(fā)中類似的需求也很多,總結(jié)出來就是,數(shù)據(jù)量大、單機計算慢。 如果上Hadoop、storm之類成本較高、而且有點大才小用。 當然讓老板買更好的服務器配置也是一種辦法。
四、統(tǒng)計建模
統(tǒng)計建模其實就是解決“哪一種概率模型可以產(chǎn)生我所觀察到的數(shù)據(jù)?”這個問題,所以你可以這樣做:首先從眾多合理的模型中挑選出候選模型,然后評估它的未知量,再比較你所擬合出來的模型跟其他候選模型的最優(yōu)化程度。
舉例來說,如果你的數(shù)據(jù)代表了總數(shù),比如這個數(shù)字代表了客人感到反胃的數(shù)量,或者細胞分裂的數(shù)量,那么泊松模型(Poisson)、負二項模型或者零膨脹模型(zero-inflated model)都有可能是適用的。
一旦選擇了一個統(tǒng)計模型,那預估模型就會被用作調(diào)查的設備:測試假說,創(chuàng)建預測值和測量置信度。預估模型就會成為我們解讀數(shù)據(jù)的棱鏡。我們從來沒有聲稱所選模型生成的數(shù)據(jù),但會把它當做一個在隨機的過程中合理的近似,然后再基于它去驗證推論。
驗證推理是統(tǒng)計建模中一個重要的方面。舉例來說,如果要在三個可能的醫(yī)療設備中,決定哪個對病人最有益,你就會對這樣的模型感興趣:它能捕捉病人使用什么樣的途徑治療是明顯有效果的??偸沁@樣,那些能很好地捕捉數(shù)據(jù)生成途徑的模型,同時也是在觀測數(shù)據(jù)范圍內(nèi)最好地做出預測的模型,或許它還能預測出新的觀測結(jié)果。
在統(tǒng)計建模中,數(shù)據(jù)指引人們到一個隨機模型的可挑選范圍里,它就相當于是抽象的利益問題的概率表達,實現(xiàn)預測的功能和對某些事物的前瞻判斷。
慧都控件網(wǎng)年終促銷最后一波,全場6折起,豪禮搶不停>>>
截止時間:2016年12月31日
更多大數(shù)據(jù)與分析相關行業(yè)資訊、解決方案、案例、教程等請點擊查看>>>
詳情請咨詢在線客服!
客服熱線:023-66090381