QKC20200115：讀書會_人工智慧的機率理論與統計方法 [複製鏈接]

hlperng

版主

Rank: 7 Rank: 7 Rank: 7

UID: 5
帖子: 1525
主題: 739
記錄: 1
分享: 0
日誌: 213
閱讀權限: 100
最後登錄: 2024-12-11
在線時間: 2326 小時

電梯直達

樓主

發表於 2020-1-3 14:07:03 |只看該作者 |倒序瀏覽

本帖最後由 hlperng 於 2020-1-15 15:15 編輯

品質學會品質知識社群 (QKC) 讀書會
專題：人工智慧的機率理論與統計方法
時間：2020 年 01 月 15 日 (星期三) 14:00 - 18:00
地點：台北市羅斯福路二段 75 號 9 樓 (時代大樓品質學會九樓會議室)
引導：彭鴻霖會友

分享0 收藏0 分享傳送邀請

舉報

hlperng

版主

Rank: 7 Rank: 7 Rank: 7

UID: 5
帖子: 1525
主題: 739
記錄: 1
分享: 0
日誌: 213
閱讀權限: 100
最後登錄: 2024-12-11
在線時間: 2326 小時

沙發

發表於 2020-1-4 09:03:27 |只看該作者

本帖最後由 hlperng 於 2020-2-14 10:49 編輯

使用量大、出事率高！？這似乎是有問題的論述，一個是宏觀的數值、一個是微觀的表達。除非是論述兩個可能原因，否則這樣的說法是欠缺考量的。使用量大，出事的次數隨之增加是合理的推論，但是不能因此而推論出事率一定是高。這是對於數字應用欠缺精確定義的結果，雖然可以表達想要訴說是固的情境，但是對於真因的探索並沒幫助。解決問題在於對議題的分析處理，演繹邏輯方法的應用大於歸納。
推理 (reasoning): algebraically manipulating previously acquired knowledge in order to answer a new question.

人類的一生是學習與推理的過程，不斷地發現問題、了解問題和解決問題。推理分為邏輯推理或機率推理，問題本身則分為系統性 (systematic) 或渾沌性 (chaostic)。系統性議題，本身有模型可以描述，多屬因次數據 (dimensional data) ，處理時最好根據模型的理論基礎，採用因次降低 (dimensionality reduction) 方法往低層次因次 (基本度量衡) 分析數據變數，尋求數據的本質。對於所建立的數學模型，在定案命名時多用物理法則、少用人名表述所發現的模型。

主要元件分析或主要元素分析 (principal components analysis, PCA) 是常用的因次降低方法，屬於無指導學習。。

低價值的工作往往提供解決原始問題的機會。直接推論或者比較推理，相對比較容易發現異同，進而做出合理的推論與判斷。

人工智慧：符號認知、機器學習、深度學習

機率模型 (models)、數據 (data)、算法 (algorithms)

有效的資料數量通常是稀疏的，長尾 (long tail) 特性，常見的數據多為個案，每天的 Google 搜尋中 20 % 是以前沒見過的資訊，看到的只是大數據中少數的樣本。

柏努利分布 (Bernoulli distribution)
類別分布 (categorical distribution)，多項分布
均勻分布 (Uniform distribution)
高斯分布 (Gaussian distribution)

聯合分布
條件分布

函數
概似函數、可能性函數 (likelihood function)
對數概似函數、成本函數 (cost function)

貝氏模型 (Bayesian model)

The LSTM will identify the structure in the time series while Bayesian model will provide the probabilistic estimates.

誤差，偏差與變異數，Error = Bias +Variance。

專有名詞的定義與認知？

機器學習 (machine learning, ML) 算法很多，常見的包括：分類、回歸、聚群、推薦、圖像識別等。

機器學習以統計推論技術為基礎，分為兩類：有指導學習 (supervised learning) 或稱監督學習，無指導學習 (unsupervised learning) 或非監督學習。無指導學習有時候又稱為知識發現 (knowledge dicovering)。從統計觀點，無指導學習屬於機率密度推定的作業，而且是無條件的密度推定。相對而言，有指導學習則式條件式機率密度推定。機器學習與傳統統計方法的最大差別在於，對於特徵表達與處理，傳統統計方法多假設為單變數的數學方法，而機器學習則是多變數的數學方式，因此需要向量、矩陣、與張量的數學基礎。

人、事議題，多採用無指導學習，地、物議題，則多採有指導學習。人與事議題多屬人的獨立行為，通常不需要其他人類專家事先下指導棋。而地與物，則是大多數事先已決定或確定，因此後續動作是有條件或前提的。

有指導學習方法需要花費很大功夫標記數據 (label the data)，人文議題的標記意義不大，必須從輸入源頭下手，希望能夠獲得更多的資訊，尋求得到解答，因此多採無指導學方式。

回歸分析是針對連續反應輸出數據。PCA 是多輸出現性回歸的無指導學習版本。

決策樹 (decision tree, DT)、隨機樹 (random tree, RT)、隨機森林 (random fores, RF)
Boost Tree: 加力樹（提升樹）
Decision tree: if-then 規則的集合。
GBDT: Grandient Boosting Decision Tree = 梯度加力決策樹
Boosting: 加力
Adaboost:
Bootstrap and Bagging
Bagging: Bootstrap Aggegating = 拔靴累積法 = 重取累積法
OOB: Out Of Bag
Bootstrap Method: 自助取樣法、拔靴法，從給定訓練集 (training set) 中取樣後樣本放回的隨機均勻取樣法。
無參數蒙地卡羅模擬法，對觀測資訊進行重新取樣，據以推論群體分布特性的統計方法。

隨機森林算法是將 Bagging 的一般技術應用到樹圖模型機器學習的技法。

$(1-\frac{1}{m})^m= \frac{1}{e} \sim 0.368$

簡化隨機森林

參考資料：

Kevin P. Murphy (2012), Machine Learning - A Probabilistic Perspective

舉報

返回列表

		自動登錄	找回密碼
密碼			立即註冊