睿地可靠度論壇(TW-REDI Forum)

 找回密碼
 立即註冊
查看: 5611|回復: 2
打印 上一主題 下一主題

QKC20200911:彭鴻霖_人工智慧 (AI) 在品質技術的應用系列 (7) 問題確認與資料前處理 [複製鏈接]

Rank: 7Rank: 7Rank: 7

UID
5
帖子
1525
主題
739
記錄
1
分享
0
日誌
213
閱讀權限
100
最後登錄
2024-12-11
在線時間
2326 小時
跳轉到指定樓層
樓主
發表於 2020-9-9 13:30:28 |只看該作者 |倒序瀏覽
本帖最後由 官生平 於 2020-9-15 08:49 編輯

品質學會品質知識社群 (QKC) 研討會
專題:研討會_人工智慧 AI 在品質技術的應用系列 (7) 問題確認與資料前處理
時間:2020 年 09 月 11 日 (星期五) 19:00 - 21:00   
地點:品質學會九樓教室(台北市羅斯福路 2 段 75 號)
主講:官生平會友
附件: 你需要登錄才可以下載或查看附件。沒有帳號?立即註冊

Rank: 7Rank: 7Rank: 7

UID
5
帖子
1525
主題
739
記錄
1
分享
0
日誌
213
閱讀權限
100
最後登錄
2024-12-11
在線時間
2326 小時
沙發
發表於 2020-9-10 07:46:11 |只看該作者

資料前處理

本帖最後由 hlperng 於 2020-9-15 12:47 編輯

品質與統計技術息息相關、人工智慧基於統計學習的發展。
資料分析是利用統計技術與機率理論尋找資料的規律與趨勢,分辨出其中那些是對決策制定有用的真實趨勢、那些是沒有意義的統計雜訊,統計技術對資料分析的影響是不可言語的。

資料分析可以應用在特徵工程 (feature engineering)、資料科學與資料工程 (data science and data engineering)。

資料分析的實踐包括物理、數理、道理等過程。

資料分析分為探索式資料分析 (exploratory data analysis, EDA)  與確認式資料分析 (confirmatory data analysis, CDA)兩類。

探索式資料分析 (EDA) 是一種運用視覺化或基本統計工具進行資料全貌探索分析的方法.  研究人員在應用統計技法之前,根據本身對於物理與工程的專業直覺或知識基礎,從宏觀的角度觀察資料,利用圖形與資料轉換技法,先行對資料進行概廓式的診斷、分析與判斷,作為後續進一步引用更精準細膩方法的基礎。基本上,EDA 是一種藝術、哲學、而不是科學。EDA 是大數據與人工智慧應用的基本功,可以提早發現資料的品質問題,找出重要的變數,甚至為後續分析提供更明確的方向。
  • 了解資料:資料可以提供的資訊,資料的結構等。
  • 檢查資料:資料是否有離群值或異常值,或者不尋常數值。
  • 資料之間關聯:煮出重要的變數。

EDA 包括定量分析法與圖解分析法兩部分,定量分析技法的案例包括:假設檢定、變異數分析,參數點推定語區間推定、最小平方回歸。常用的圖解分析法包括:散布圖、直方圖、機率圖、殘差圖、盒鬚圖、方塊圖等。
即使是簡單的資料,圖形也可以提供許多內涵的訊息。圖形有助於理解與獲得統計模型的品質,避免太早對提議的模型有未審先判與欠缺驗證造成虛耗浪費分析工作的疑慮。

NIST 工程統計手冊推薦的 EDA 視覺化四圖 (4 plot) 圖形:
  • 走勢次序圖 (run sequence plot)
  • 遲滯圖 (lag plot)
  • 直方圖 (histogram)
  • 常態機率圖 (normal probability plot)




六圖圖形:
  • 預測散布圖:反應與預測值對獨立變數
  • 殘差散布圖:殘差對獨立變數
  • 殘差預測散布圖:殘插對預測值散布圖
  • 殘差遲滯圖
  • 殘差直方圖
  • 殘差常態機率圖





確認式資料分析 (CDA) 為傳統統計資料分析,包括機率分布適配、統計假設推定、圖解參數推論、變異數分析、相關與回歸等。

描述統計量
  • 聚中性
  • 離散性
  • 偏態性
  • 峰態性



參考資料:



附件: 你需要登錄才可以下載或查看附件。沒有帳號?立即註冊

Rank: 7Rank: 7Rank: 7

UID
5
帖子
1525
主題
739
記錄
1
分享
0
日誌
213
閱讀權限
100
最後登錄
2024-12-11
在線時間
2326 小時
板凳
發表於 2020-9-10 17:16:57 |只看該作者

資料前處理方法

本帖最後由 hlperng 於 2020-9-10 17:29 編輯

了解數據分析背後的動機,尋找與資料最搭配的數學模型。

標準化 (standardization):

常態化 (normalization):資料前處理步驟,尋求不變量,以便消除或減少後續資料處理作業負擔。

規則化 (regularalization):a method to avoid high variance and overfitting as well as increase generalization.

通用化 (generalization):資料處理時選擇適配的模型進行推論決策 (參數推定或假設檢定) 制定,減少資料量、提前停止、權重衰減、整合、輸入轉換、隨意規則化。增加數學模型的參數數目,擴大模型的詮釋能力或應用領域。適配過度 (overfitting) 或適配不足 (underfitting)
最適化 (optimization):損失最小的最是參數組合。

偏差 (bias) 與變異 (variance)



您需要登錄後才可以回帖 登錄 | 立即註冊

Archiver|手機版|睿地可靠度論壇(TW-REDI Forum)   

GMT+8, 2024-12-22 16:16 , Processed in 0.037519 second(s), 12 queries .

Powered by Discuz! X2

© 2001-2011 Comsenz Inc.

回頂部