0:00
好,課程的最後呢,我們來總結一下,我們在這個課裡面上了什麼。
哎,我特別把它叫做Power of Three,OK,這個三的威力。什麼意思呢?我們介紹很多
東西,好像都跟三有關,跟《哈利波特》裡面那個“三人組”一樣,哎,三個人加在一起,威- 力最強。
好,我們介紹了三個什麼呢?我們介紹了三個相關的領域跟機器學習相關的領域。一個是
Data Mining,這個資料的探勘。我們說,哎,它今天想要做的事情是,從大量的資料裡面找出
呃,這個有用的,或者有興趣的一些特性。那它跟Machine Learning,基本上是高度相關的。
還有什麼相關的領域?人工智慧,那我們說,哎,它想要機器做一些有智慧的事情,那機器學- 習可以看起來實現
人工智慧的一個方法。又或者我們講了統計,我們說 統計想要做的事情是,從資料裡面,哎,去做一些推論的動作。
那我們說統計的工具,大量地被使用在很多機器學習的模型裡面。我們還講了什麼呢?
我們還講了三個,哎,這個理論上的保證。好,其中一個理論上的保證,最簡單的就是Hoe- ffding,好,這個抽樣的動作。
我們說它可以用在哪裡?它可以用在測試,對不對?測試的時候,你只有一個Hypothe- sis,
你想要知道它表現怎麼樣,哎,我們說Hoeffding可以告訴你,你可以給什麼樣- 的保證。
然後呢,我們還講了Multi-Bin的Hoeffding,很多個選擇的Hoeff- ding ,那這個很多個選擇的Hoeffding
怎麼樣呢?我們在Validation, 我們在做Model Selection的時候用過了。我們說,有有限多個的時候,你
可以用這個來告訴我們說,你做,哎,有限多個選擇的時候發生什麼事。
無限多個選擇呢?我們則告訴大家VC Bound,別人說,哎,這個我們要把前面的做一番的修改,做一番修改
之後,我們就可以描述,在機器學習的訓練的過程裡面,到底發生什麼事,即使你有無限多個- Hypothesis,
我們也可以描述。好,所以三個理論上的結果,用在三個不同的地方。
好,我們還跟大家講了三個模型。好,第一個模型是,分類的模型,OK,二元分類的模型。
我們說,哎,一開始分類的話,你可以用PLA,可以用Pocket。如果,哎,看是不是- 線性可分的,
那它想要做的事情是,想辦法把0/1Lose,0/1Error做的 越小越好。它
的來源是,希望說,這個的Flipping Noise應該要這個Minimize。
那它用一些特殊的方法,因為這是個很困難的問題,所以它用一些特殊的方法, 來做這個最佳化的動作。
然後呢,我們還介紹了線性的回歸。這是一個,哎,統計裡面我們看到的,它基本上
就把這些線性算出來的分數就直接輸出去了。那,它用的
這個,呃,錯誤函數是平方的。這個平方的是非常好處理的,所以我們可以用一個所謂
的Analytic,OK,這個公式解,來算出來它的最佳解到底在哪裡。
然後我們還講了Logistic Regression,這個這個,邏輯式的這個回歸啊。也就是說,我們想要做
軟性的二元分類的時候,可以做的事情。那我們做的是,把這個分數透過一個S型的函數,再- 輸出去。
那我們推導了說,哎,在這上面所謂的Cross[iii],這樣的方式,是我們常常 想要最佳化的這個Error。那我們用,常常用Gradient
Descent,或Stochastic Gradient Descent,梯度 下降這樣的方法,來做最佳化的動作。我們還講了什麼?
我們還告訴大家三個很重要的工具,一個是Feature Transform。
好,它做的事情是什麼?今天我就把維度擴大,維度擴大,我就有機會把Ein變小。
我要付出的代價是什麼?VC Dimension可能變大。
好,所以我配合上一個,哎,比較複雜的這個轉換,VC Dimension變大,但是Ein變小了,
然後看看我能不能做出,哎,對Eout來說,更好的結果。
好,還有什麼呢?我們跟大家講的Regularization,它則是反其道而行,它- 說什麼?
我想要讓VC Dimension變小一點,變成那個有效的VC Dimension,那個比較小的那個。
然後,但是我的Ein可能做了Regularization以後會變大一點。好,所以我- 考慮,我的演算法真正做什麼事情,讓
Effective VC Dimension變小一點,但是付出的代價是,哎,這個Ein可能
會變得大一點點,那看看這樣子是不是可以讓Eout變好一點。
那它用的機制,是加上一個所謂的Regularization來達成這件事情。
那我們還講了Validation,Validation是什麼?不做Ein了,我乾脆- 留下一塊
乾淨一點的資料,來做Validation的動作。那我也不做整個 Hypothesis,我們乾脆
把,哎,這個初賽選出來的一些代表,我們直接在這有限多個代表上面,
做選擇就好了,好,所以選擇比較少,選擇比較少的話,哎,我們有機會對Eout得到比較- 好的保證。好,這
是Validation做的事情。那這三個工具實際上就是機器學習,我們未來學到各式機- 器學習的方法裡面
基本的工具。好,然後我們還今天跟大家講了三個 錦囊妙計。一個是Occam's Razer,它告訴我們簡單是好的。
第二個是,要小心,這個抽樣的偏差在哪裡。它告訴我們 說,哎,我們的測試,需要跟我們的訓練相配合。
那還告訴我們什麼?要小心,不要偷看資料。也就是 說,你要很誠實地面對你的整個學習的過程。
好,然後呢,大家可能會關心說,那我學完了這些,我未來還要學什麼?
好,有三個,呃,這個還蠻重要方向。那如果大家有機會,上我們之後的機器學習技法的
課程的話,我們會在裡面提到幾個。一個是,哎,更 不一樣,更多不一樣的這些轉換的方式。好,不是只有多項式轉換,
更複雜的轉換方式,然後它們的計算,以及,哎,其他的一些問題要如何解決。
然後呢,再來,哎,更進階的Regularization,到底要怎麼做Regular- ization,還可以有哪些的
觀念可以納進來。我們怎麼樣控制我們的機器,不要像脫韁野馬一樣,哎,就跑掉了。
然後再來呢?則是,如果我們的Label,沒有 那麼多,啊,不是。哎,我們現在都是假設說,我們有全部的Label可以來做一些事情。
如果我們沒有Label呢,例如說,我們要做Unsupervised,會發生什麼樣的- 事情?好,這些都是一些可以做的事情。
那,呃,大家到這邊應該就準備好,哎,我這邊列了這個非常多,密密麻麻這些名詞。實際上,
大家未來會發現,你,看到這些名詞,然後你如果稍微去學一下的話,很多東西都跟我們這1- 6講裡面,
提到的這些Power of Three,這些東西都有非常深的關聯。所以我們希望,
我們教給大家的東西,真的是告訴大家一個基石。有了這些基石之後,你想要學任何的東西, 應該都可以非常的輕鬆,容易。
好,最後給大家一個最後的測試,說,哎,在這個
課裡面,到底有哪些數字,哪個數字或哪些數字,是具有神奇的魔力的?
好,那我希望大家選到正確答案是3。最後一個這個簡單的測驗題,謝謝大家一路
聽到這邊。好,那我們來看看,所以我們今天最後講了什麼呢?我們說Occam's Razor,
簡單就是好的。簡單,簡單,簡單,請大家一定要記得,哎,使用最簡單的模型。
再來,請小心,所謂的Sampling Bias,抽樣的偏差。那我們希望
大家要想想,你測試的環境是什麼,然後讓你的訓練,跟你的測試盡可能地接近。
然後再來,哎,要小心,不要偷看資料。要小心, 衡量你在偷看資料的過程中,這些污染到底是怎麼樣子。
然後最後,我們總結這個過課程,用所謂的Power of Three,OK。我們把,我們講過很多東西,集起來發現,哎,其實我們
常常跟大家講的,所謂三個面向。然後這些三個面向,構成機器學習裡面,最堅固的這些基石。
好,那接下來,OK,如果,這個大家未來,來繼續回來看我們這個,另外頒布的課程,機器-
學習技法的課程的話, 我們會告訴大家,更多有趣的機器學習的這個方向跟模型。好,那今天在這裡,
非常地謝謝大家這16講以來的支持與鼓勵。謝謝大家。
[音樂]
[音樂]
[音樂]