目錄人工智能數學基礎pdf 人工智能數學基礎唐宇迪答案 人工智能的矩陣代數方法pdf 人工智能數學基礎課后題答案 人工智能數學基礎pdf唐宇迪
姓名:洪濤 學號:16020188030
【嵌牛導讀】: 概率論是人工智能研究中必備的數學基礎,在進行人工智能研究是必不可少數學概率論的有關知識。
【嵌牛鼻子】:人工智能,數學概率論
【嵌牛提問】:人工智能相關的數學概率論有哪些?
【嵌牛正文】:
概率論(probability theory)也是人工智能研究中必備的數學基礎。隨著連接主義學派的興起,概率統計已經取代了數理邏輯,成為人工智能研究的主流。
同線性代數一樣,概率論也代表了一種看待世界的方式,其關注的焦點是無處不在的可能性。對隨機事件發生的可能性進行規范的數學描述就是概率論的公理化過程。概率的公理化結構體現出的是對概率本質的一種認識。
將同一枚硬幣拋擲 10 次,其正面朝上的次數既可能一次沒有,也可能全部都是,換算成頻率就分別對應著 0% 和 100%。頻率本身顯然會隨機波動,但隨著重復試驗的次數不斷增加,特定事件出現的頻率值就會呈現出穩定性,逐漸趨近于某個常數。
從事件發生的頻率認識概率的方法被稱為“頻率學派”(frequentist probability),頻率學派口中的“概率”,其實是一個可獨立重復的隨機實驗中單個結果出現頻率的極限。因為穩定的頻率是統計規律性的體現,因而通過大量的獨立重復試驗計算頻率,并用它來表征事件發生的可能性是一種合理的思路。
在概率的定量計算上,頻率學派依賴的基礎是古典概率模型。在古典概率模型中,試驗的結果只包含有限個基本事件,且每個基本事件發生的可能性相同。假設所有基本事件的數目為 n,待觀察的隨機事件 A 中包含的基本事件數目為 k,則古典概率模型下事件概率的計算公式為:
從這個基本公式就可以推導出復雜的隨機事件的概率。
前文中的概率定義針對都是單個隨機事件,可如果要刻畫兩個隨機事件之間的關系,這就需要引入條件概率的概念。
條件概率(conditional probability)是根據已有信息對樣本空間進行調整后得到的新的概率分布。假定有兩個隨機事件 A和B,條件概率就是指事件 A 在事件 B已經發生的條件下發生的概率,用以下公式表示:
上式中的P(AB)稱為聯合概率(joint probability),表示的是 A和B 兩個事件共同發生的概率。如果聯合概率等于兩個事件各自概率的乘積,即P(AB)=P(A)?P(B),說明這兩個事件的發生互不影響,即兩者相互獨立。對于相互獨立的事件,條件概率就是自身的概率,即P(A|B)=P(A)。
基于條件概率可以得出全概率公式(law of total probability)。全概率公式的作用在于將復雜事件的概率求解轉化為在不同情況下發生的簡單事件的概率求和,即:
全概率公式代表了頻率學派解決概率問題的思路,即先做出一些假設(P(Bi)),再在這些假設下討論隨機事件的概率(P(A|Bi))。
對全概率公式 進行整理,就演化出了求解“逆概率”問題。所謂“逆概率”解決的是在事件結果已經確定的條件下(P(A)),推斷各種假設發生的可能性(P(Bi|A))。其通用的公式形式被稱為貝葉斯公式:
從科學研究的方法論來看,貝葉斯定理提供了一種全新的邏輯。它根據觀測結果尋找合理的假設,或者說根據觀測數據尋找最佳的理論解釋,其關注的焦點在于后驗概率。概率論的貝葉斯學派(Bayesian probability)正是誕生于這種理念。
在貝葉斯學派眼中,概率描述的是隨機事件的可信程度。
頻率學派認為假設是客觀存在且不會改變的,即存在固定的先驗分布。因而在計算具體事件的概率時,要先確定概率分布的類型和參數,以此為基礎進行概率推演。
相比之下,貝葉斯學派則認為固定的先驗分布是不存在的,參數本身也是隨機數。換句話說,假設本身取決于觀察結果,是不確定并且可以修正的。數據的作用就是對假設做出不斷的修正,使觀察者對概率的主觀認識更加接近客觀實際。
概率論是線性代數之外,人工智能的另一個理論基礎,多數機器學習模型采用的都是基于概率論的方法。但由于實際任務中可供使用的訓練數據有限,因而需要對概率分布的參數進行估計,這也是機器學習的核心任務。
概率的估計有兩種方法:最大似然估計法(maximum likelihood estimation)和最大后驗概率法(maximum a posteriori estimation),兩者分別體現出頻率學派和貝葉斯學派對概率的理解方式。
最大似然估計法的思想是使訓練數據出現的概率最大化,依此確定概率分布中的未知參數,估計出的概率分布也就最符合訓練數據的分布。最大后驗概率法的思想則是根據訓練數據和已知的其他條件,使未知參數出現的可能性最大化,并選取最可能的未知參數取值作為估計值。在估計參數時,最大似然估計法只需要使用訓練數據,最大后驗概率法除了數據外還需要額外的信息,就是貝葉斯公式中的先驗概率。
具體到人工智能這一應用領域,基于貝葉斯定理的各種方法與人類的認知機制吻合度更高,在機器學習等領域中也扮演著更加重要的角色。
概率論的一個重要應用是描述隨機變量(random variable)。根據取值空間的不同,隨機變量可以分成兩類:離散型隨機變量(discrete random variable)和連續型隨機變量(continuous random variable)。在實際應用中,需要對隨機變量的每個可能取值的概率進行描述。
離散變量的每個可能的取值都具有大于 0 的概率,取值和概率之間一一對應的關系就是離散型隨機變量的分布律,也叫概率質量函數(probability mass function)。概率質量函數在連續型隨機變量上的對應就是概率密度函數(probability density function)。
概率密度函數體現的并非連續型隨機變量的真實概率,而是不同取值可能性之間的相對關系。對連續型隨機變量來說,其可能取值的數目為不可列無限個,當歸一化的概率被分配到這無限個點上時,每個點的概率都是個無窮小量,取極限的話就等于零。而概率密度函數的作用就是對這些無窮小量加以區分。雖然在x→∞時,1/x和 2/x 都是無窮小量,但后者永遠是前者的 2 倍。這類相對意義而非絕對意義上的差別就可以被概率密度函數所刻畫。對概率密度函數進行積分,得到的才是連續型隨機變量的取值落在某個區間內的概率。
定義了概率質量函數與概率密度函數后,就可以給出一些重要分布的特性。重要的離散分布包括兩點分布、二項分布和泊松分布,重要的連續分布則包括均勻分布、指數分布和正態分布。
兩點分布(Bernoulli distribution):適用于隨機試驗的結果是二進制的情形,事件發生 / 不發生的概率分別為 p/(1?p)。任何只有兩個結果的隨機試驗都可以用兩點分布描述,拋擲一次硬幣的結果就可以視為等概率的兩點分布。
二項分布(Binomial distribution):將滿足參數為 p的兩點分布的隨機試驗獨立重復 n次,事件發生的次數即滿足參數為(n,p)的二項分布。二項分布的表達式為:
泊松分布(Poisson distribution):放射性物質在規定時間內釋放出的粒子數所滿足的分布,參數為 λ的泊松分布表達式為
當二項分布中的n很大且pp很小時,其概率值可以由參數為λ=np的泊松分布的概率值近似。
均勻分布(uniform distribution):在區間 (a,b) 上滿足均勻分布的連續型隨機變量,其概率密度函數為 1/(b?a),這個變量落在區間(a,b)內任意等長度的子區間內的可能性是相同的。
指數分布(exponential distribution):滿足參數為θ指數分布的隨機變量只能取正值,其概率密度函數為
指數分布的一個重要特征是無記憶性:即 P(X>s+t|X>s)=P(X>t)。
正態分布(normal distribution):參數為正態分布的概率密度函數為:
當 μ=0,σ=1 時,上式稱為標準正態分布。正態分布是最常見最重要的一種分布,自然界中的很多現象都近似地服從正態分布。
除了概率質量函數 / 概率密度函數之外,另一類描述隨機變量的參數是其數字特征。數字特征是用于刻畫隨機變量某些特性的常數,包括數學期望(expected value)、方差(variance)和協方差(covariance)。
數學期望即均值,體現的是隨機變量可能取值的加權平均,即根據每個取值出現的概率描述作為一個整體的隨機變量的規律。方差表示的則是隨機變量的取值與其數學期望的偏離程度。方差較小意味著隨機變量的取值集中在數學期望附近,方差較大則意味著隨機變量的取值比較分散。
數學期望和方差描述的都是單個隨機變量的數字特征,如果要描述兩個隨機變量之間的相互關系,就需要用到協方差和相關系數。協方差度量了兩個隨機變量之間的線性相關性,即變量 Y能否表示成以另一個變量 X 為自變量的 aX+b的形式。
根據協方差可以進一步求出相關系數(correlation coefficient),相關系數是一個絕對值不大于 1 的常數,它等于 1 意味著兩個隨機變量滿足完全正相關,等于 -1 意味著兩者滿足完全負相關,等于 0 則意味著兩者不相關。無論是協方差還是相關系數,刻畫的都是線性相關的關系。如果隨機變量之間的關系滿足 Y=X2,這樣的非線性相關性就超出了協方差的表達能力。
人工智能包括五大核心技術:
1.計算機視覺:計算機視覺技術運用由圖像處理操作及機器學習等技術所組成的序列來將圖像分析任務分解為便于管理的小塊任務。
2.機器學習:機器學習是從數據中自動發現模式,模式一旦被發現便可以做預測,處理的數據越多,預測也會越準確仿薯。
3.自然語言處理:對自然語言文本的處理是指計算機擁有的與人類類似的對文本進行處理的能力。例如自動識別文檔中被提及的人物、地點等,或將合同中的條款提取出來制作成表。
4.機器人技術:近年來,隨備咐者著算法等核心技術提升,機器人取得重要突破。例簡慶如無人機、家務機器人、醫療機器人等。
5.生物識別技術:生物識別可融合計算機、光學、聲學、生物傳感器、生物統計學,利用人體固有的生體特性如指紋、人臉、虹膜、靜脈、聲音、步態等進行個人身份鑒定,最初運用于司法鑒定。
需要扎實的數學基礎。
為什么學習人工智能這么看重數學基礎呢?
這個首先得從目前人工智能的本質說起,目前以神經網絡為基礎的深度學習體系,其實可以看做是一個線性代數矩陣模型,從微觀上來說是微分方程。
人工智能的重點在于智能,而智能的最終體現應該是隨機性,比如你永遠不知道一個獨立的智慧生命在下一秒會做什么事情。
數學是有解可計算的,智能是無解無法預測的,但智能的很多行為又是可以數學進行計算的,所以智能與數學之間應該是具有強關系但并非唯一相關。
這也是為什么國內外大多數研究所招實習生首先看重的就是數學能力。
學人工智能要求怎樣的數學基礎
“線性代數”、“概率論”、“優化論”這三門數學課程,前兩門是建模,后一門是求解,是學習人工智能的基礎。(你們要的我都有)
1.線性代數
線性代數是學習人工智能過程中必須掌握的知識。線性代數中我們最熟悉的就是聯立方程式了,而線性代數的起源就是為了求解聯立方程式。只是隨著研究的深入,人們發現它還有更廣闊的用途。
2.概率論
“概率統計”是統計學習中重要的基礎課程,因為機器學習很多時候就是在處理事務的不確定性。
3.優化
模型建立起來后,如何求解這個模型屬于優化的范疇。優化,就是在無法獲得問題的解析解的時候,退而求其次找到一個最優解。當然,需要提前定義好什么是最優,就好像籃球比賽之前得先定義好比賽規則一樣。
通常的做法是想辦法構造一個損失函數,然后找到損失函數的最小值進行求解。
人工智能訓練師培訓課程如下:
1、機器學習中的Python
Python環境搭建與其基礎語法的學習;熟悉列表元組等基礎概念與python函數的形式;Python的IO操作;Python中類的使用介紹;python使用實例講解機器學習領域的經典算法、模型及實現的任務等。
2、人工智能數學基礎
熟悉數學中的符號表示;理解函數求導以及鏈式求導法則;理解數學中函數的概念;熟悉矩陣相關概念以及數學表示。
3、機器學習概念與入門
了解人工智能中涉及到的相關概羨燃念;了解如何獲取數據以及特征工程;熟悉數據預處理方法;理解模型訓練過程;熟悉pandas的使用;解可視化過程;Panda使用講解;圖形繪制。
4、機器學習的數學基礎—數學分析
掌握和了解人工智能技術底層數學理論支撐;概率論,矩陣和凸優化的介紹,相應算法設計和原理;凸優化理論,流優化手段SGD,牛頓法等優化方法。
5、深度學習框架TensorFlow
了解及學習變量作用域與變量命名;搭建多層神經網絡并完成優化。
人工智能訓練師的工作任務
1、標注和加工圖片、文字、語音等業務的原始數據;
2、分析提煉專業領域特征,訓練和評測人工智能產品相關算法、功能和性能;
3、設計人工智能產品的交互流程和應用胡液解決褲派物方案;
4、監控、分析、管理人工智能產品應用數據;
5、調整、優化人工智能產品參數和配置。
首先,你需要學一門適合人工智能的語言并學習其基礎知識(如Python、R),推薦選擇Python,下文我會說明Python怎么學習人工智能。
人工智能的本質是數學。如果你想真正透徹理仿好解人工智能算法原理的話,你需要學習高等數學,具體內容如下圖:
人工智能數學基礎
如果你選擇了Python,還需要學習一下人工智能所需要的第三方庫(Pandas、Numpy、openCV、Matplotlib等),Pandas、Numpy是數據處理的,openCV是圖像處理的,Matplotlib是畫圖的。
以上是人工智能的基礎,下文將闡述人工智能學習路線:
一.機器學習:
你需要學習一下機器學習的經典算法(如線性回歸、邏輯回歸、KNN、K-Means等)以及一些機器學習的第三方庫,如scikit-learn.
練習。練習是鞏固所學知識的一個重要方法。可以在Kaggle上參加一些新手比賽侍冊,如著名的泰坦尼克號乘客生存率預測。
二.深度學習:
購買顯卡。深度學習的學習對顯卡的要求比較高,因此一張不錯的顯卡是十分必要的。而且注備談鉛意要買英偉達的顯卡,也就是N卡。因為一些深度學習的框架(特別是tensorflow)只能在英偉達的顯卡上跑,目前推薦購買RTX2070,性價比較高。買別的也可以,但是顯存最好大于等于6G。
在深度學習的學習中,你將接觸一個新的概念——神經元網絡。你需要學習一些神經網絡的經典神經網絡,如CNN、RNN。還有一些由它們衍生出來的神經網絡結構,如YOLO。
其次,你需要學習至少一個深度學習庫,如tensorflow(常用于工業開發)、pytorch(適合用于研究)。
練習。練習是鞏固所學知識的一個重要方法??梢栽贙aggle上參加一些正式比賽,也就是有獎金的比賽來提高自己的水平。