13. Linear Models
Linear Functions
- μ°μκ° μ λ ₯(continuous-valued inputs)μ λ°λ μ ν ν¨μ(linear functions)λΌλ λ€λ₯Έ κ°μ€ 곡κ°(hypothesis space) μ¬μ©
- Univariate linear functionλ₯Ό μ¬μ©ν μ ν νκ·(linear regression), μ¦ "μ§μ νΌν (fitting a straight line)"μ λ€λ£Έ
- λ€λ³μ μ¬λ‘(multivariate case) λ° κ²½μ±/μ°μ± μκ³κ°(hard and soft thresholds)μ μ μ©νμ¬ μ ν ν¨μλ₯Ό λΆλ₯κΈ°(classifiers)λ‘ λ³ννλ λ°©λ²λ ν¬ν¨

Univariate Linear Regression
- μ
λ ₯ μ μΆλ ₯ λ₯Ό κ°λ univariate μ ν ν¨μ(μ§μ )μ νν
- κ³Ό λ νμ΅ν μ€μ κ°μ κ³μ(coefficients)
- μ΄ κ³μλ€μ κ°μ€μΉ(weights)λΌκ³ λΆλ¦.
- νλ€μ μλμ κ°μ€μΉ λ³κ²½μΌλ‘ κ° λ³ν
- κ°μ€μΉ 벑ν°(vector) λ₯Ό λ‘ μ μ
- κ°μ€(hypothesis) ν¨μ:
- μ ν νκ·(linear regression)μ μμ : λ°μ΄ν°(data)μ κ°μ₯ μ λ§λ λ₯Ό μ°Ύλ κ²
- λͺ©ν: κ²½νμ μμ€(empirical loss)μ μ΅μννλ κ°μ€μΉ μ°ΎκΈ°
- μ ν΅μ μΌλ‘ λΌ λΆλ¦¬λ μ κ³± μ€μ°¨ μμ€(squared-error loss) ν¨μλ₯Ό λͺ¨λ νμ΅ μμ μ λν΄ ν©μ°νμ¬ μ¬μ©
- λͺ©ν: μ°ΎκΈ°
- μμ€ ν© μ μ μ λν νΈλν¨μ(partial derivatives)κ° μΌ λ μ΅μνλ¨.
- μΌλ‘ μ€μ λλ λ°©μ μ
- μ΄ λ°©μ μλ€μ μ μΌν΄(unique solution)λ₯Ό κ°μ§
Univariate Linear Regression
Proof ( μ λ)
Proof ( μ λ)
- λμ
- (μ¬λΌμ΄λ νκΈ° λ μ λμΌ)
- μλ³μ μ κ³±νκ³ μ λν΄ μ 리
Weight Space
- λ§μ νμ΅ ννκ° μμ€(loss)μ μ΅μννκΈ° μν΄ κ°μ€μΉ(weights)λ₯Ό μ‘°μ νλ κ²μ ν¬ν¨νλ©°, κ°μ€μΉ 곡κ°(weight space)μμ μΌμ΄λλ μΌμ λν μκ°μ μ΄ν΄κ° λμλ¨.
- κ°μ€μΉ 곡κ°: κ°λ₯ν λͺ¨λ κ°μ€μΉ μ€μ μΌλ‘ μ μλλ 곡κ°
- μ: Univariate μ ν νκ·μ κ²½μ°, μ λ‘ μ μλλ κ°μ€μΉ 곡κ°μ 2μ°¨μ
- μμ€ ν¨μ(loss function)λ₯Ό μ μ ν¨μλ‘ 3D plotμ μκ°ν κ°λ₯
- μμ€ ν¨μλ λ³Όλ‘(convex) ν¨μμ΄λ©°, μ΄λ μμ€ ν¨μλ₯Ό μ¬μ©νλ λͺ¨λ μ ν νκ· λ¬Έμ μμ μ¬μ€μ
- λ³Όλ‘ ν¨μλ μ§μ μ΅μ ν΄(local optima)κ° μλ μ μ μ΅μ ν΄(global optimum)λ₯Ό 보μ₯

Gradient Descent κ²½μ¬νκ°λ²
- Univariate linear modelμ νΈλν¨μκ° μ΄ λλ μ΅μ μ ν΄λ₯Ό μ°ΎκΈ° μ½λ€λ μ’μ νΉμ±μ κ°μ§
- νμ§λ§ νμ λΆμμ μΈ ν΄λ₯Ό ꡬνκΈ° μ¬μ΄ κ²μ μλλ―λ‘, λν¨μμ μ§μ μ μ°Ύλ ν΄λ²μ μμ‘΄νμ§ μκ³ λ³΅μ‘μ±μ μκ΄μμ΄ λͺ¨λ μμ€ ν¨μμ μ μ© κ°λ₯ν μμ€ μ΅μν λ°©λ²μ λμ
- μ°μμ μΈ κ°μ€μΉ 곡κ°(continuous weight space)μ λ§€κ°λ³μμ μ μ§μ μμ μ ν΅ν΄ νμ: κ²½μ¬ νκ°λ²(Gradient Descent)

- κ°μ€μΉ 곡κ°μμ μμμ μμμ (starting point) μ ν
- μ: μ ν νκ·μ νλ©΄
- κ²½μ¬(gradient)μ μΆμ μΉ κ³μ°
- κ°μ₯ κ°νλ₯Έ λ΄λ¦¬λ§ λ°©ν₯(steepest downhill direction)μΌλ‘ μ½κ° μ΄λ
- (local) μ΅μ μμ€μ κ°λ κ°μ€μΉ 곡κ°μ ν μ§μ μΌλ‘ convergenceν λκΉμ§ λ°λ³΅
- μκ³ λ¦¬μ¦
(λ§€κ°λ³μ 곡κ°μ μμμ μ§μ )
while (μλ ΄λμ§ μλ λμ) dofor (μ κ° μ λν΄) do
- λ§€κ°λ³μ λ learning rate(νμ΅λ₯ ) λλ step size(μ€ν ν¬κΈ°)λΌκ³ λΆλ¦Ό
- λ κ³ μ μμ(fixed constant)μΌ μλ μκ³ , νμ΅ κ³Όμ μ΄ μ§νλ¨μ λ°λΌ μκ° κ²½κ³Όμ λ°λΌ κ°μ(decay)ν μλ μμ.
Gradient Descent for Univariate Linear Regression
- λ¨λ³λ νκ·μ κ²½μ°, μμ€μ μ΄μ°¨(quadratic)μμ΄λ―λ‘ νΈλν¨μλ μ ν(linear)μ΄ λ¨.
- νλμ νλ ¨ μμ λ§ μλ λ¨μνλ κ²½μ°
- μ λͺ¨λμ μ μ©
- μ΄ κ²°κ³Όλ₯Ό μλμ κ²½μ¬ νκ°λ² λ°©μ μμ λμ
νκ³ , 2λ₯Ό λͺ
μλμ§ μμ νμ΅λ₯ μ ν¬ν¨μν€λ©΄, λ€μ νμ΅ κ·μΉ(learning rule)μ μ»μ
- μ΄ μ λ°μ΄νΈλ μ§κ΄μ μΌλ‘ μ΄ν΄ κ°λ₯: λ§μ½ (μ¦, μΆλ ₯μ΄ λ무 νΌ)μ΄λ©΄, λ₯Ό μ½κ° μ€μ΄κ³ , κ° μμ μ λ ₯μ΄λ©΄ μ μ€μ΄κ³ κ° μμ μ λ ₯μ΄λ©΄ μ λλ¦Ό
Batch and Stochastic Gradient Descent
- κ°μ νλ ¨ μμ μ λν΄, κ° μμ μ κ°λ³ μμ€ ν©κ³λ₯Ό μ΅μννκ³ μ ν¨.
- ν©μ λν¨μλ λν¨μμ ν©μ΄λ―λ‘
- μ΄ μ λ°μ΄νΈλ λ¨λ³λ μ ν νκ·λ₯Ό μν λ°°μΉ κ²½μ¬ νκ°λ²(batch gradient descent) νμ΅ κ·μΉ (κ²°μ λ‘ μ κ²½μ¬ νκ°λ²(deterministic gradient descent)μ΄λΌκ³ λ ν¨)
- λͺ¨λ νλ ¨ μμ λ₯Ό λ€λ£¨λ ν λ¨κ³λ₯Ό μν¬ν¬(epoch)λΌκ³ ν¨.
- λ λΉ λ₯Έ λ³ν: νλ₯ μ κ²½μ¬ νκ°λ²(stochastic gradient descent) λλ SGD
- κ° λ¨κ³μμ 무μμλ‘ μ μ μμ νλ ¨ μμ λ₯Ό μ ννκ³ , κ²½μ¬ νκ°λ² λ°©μ μμ λ°λΌ μ λ°μ΄νΈ
- μλ SGD λ²μ μ κ° λ¨κ³λ§λ€ λ¨ νλμ νλ ¨ μμ λ§ μ ννμ§λ§, νμ¬λ κ° μμ μ€ κ°μ λ―Έλλ°°μΉ(minibatch)λ₯Ό μ ννλ κ²μ΄ λ μΌλ°μ
Stochastic Gradient Descent
- μΌλΆ CPU λλ GPU μν€ν μ²μμλ, μ μ ννμ¬ λ³λ ¬ λ²‘ν° μ°μ°(parallel vector operations)μ νμ©, κ° μμ λ‘ μ€ν μ λ°λ κ²μ΄ λ¨μΌ μμ μ€ν λ§νΌ λΉ λ¦.
- μ΄λ¬ν μ μ½ λ΄μμ, μ κ° νμ΅ λ¬Έμ μ λ§κ² μ‘°μ (tuned)ν΄μΌ νλ νμ΄νΌνλΌλ―Έν°(hyperparameter)λ‘ μ·¨κΈ
- λ―Έλλ°°μΉ SGDμ μλ ΄μ΄ μ격νκ² λ³΄μ₯λμ§λ μμ. μ΅μκ° μ£Όλ³μμ μμ λμ§ μκ³ μ§λ(oscillate)ν μ μμ.
- μ΄λ₯Ό μννκΈ° μν΄ νμ΅λ₯ λ₯Ό κ°μμν€λ μ€μΌμ€(schedule)μ λ§λ€ μ μμ.
- SGDλ μ ν νκ· μ΄μΈμ λͺ¨λΈ, νΉν μ κ²½λ§(neural networks)μ λ리 μ μ©λ¨.
- μμ€ νλ©΄(loss surface)μ΄ λ³Όλ‘νμ§ μμ κ²½μ°μλ, μ΄ μ κ·Ό λ°©μμ μ μ μ΅μκ°μ κ°κΉμ΄ μ’μ μ§μ μ΅μκ°μ μ°Ύλ λ° ν¨κ³Όμ μμ΄ μ μ¦λ¨.
Multivariable Linear Regression
Multivariable (Multivariate) Linear Regression
- κ° μμ κ° -μμ 벑ν°μΈ multivariable linear regression(λ€λ³λ μ ν νκ·) λ¬Έμ λ‘ μ½κ² νμ₯ κ°λ₯
- κ°μ€ 곡κ°(hypothesis space)μ λ€μ ννμ ν¨μ μ§ν©
- λ κ°λ¨ν νκΈ°λ₯Ό μν΄, νμ 1κ³Ό κ°μ κ°μ κ°λ κ°μμ(dummy) μ λ ₯ μμ± λ₯Ό λ§λ¦.
- κ·Έλ¬λ©΄, λ κ°μ€μΉμ μ λ ₯ 벑ν°μ dot product
- μ΅μ μ κ°μ€μΉ λ²‘ν° λ μμ μ λν μ κ³± μ€μ°¨ μμ€μ μ΅μν
How to Compute in Multivariable Linear Regression
- λ¨λ³λ μ ν νκ·μ κ²½μ°μ²λΌ, κ²½μ¬ νκ°λ²μ μμ€ ν¨μμ (μ μΌν) μ΅μκ°μ λλ¬
- κ° κ°μ€μΉ μ λν μ λ°μ΄νΈ λ°©μ μ
- μ ν λμ(linear algebra)μ λ²‘ν° λ―Έμ λΆ(vector calculus)μ λꡬλ₯Ό μ¬μ©νλ©΄, μμ€μ μ΅μννλ λ₯Ό ν΄μμ (analytically)μΌλ‘ ν μλ μμ.
- λ₯Ό νλ ¨ μμ μ μΆλ ₯ 벑ν°, λ₯Ό λ°μ΄ν° νλ ¬(data matrix) (μ¦, νλΉ νλμ -μ°¨μ μμ λ₯Ό κ°λ μ λ ₯ νλ ¬)μ΄λΌ ν¨.
- μμΈ‘λ μΆλ ₯ 벑ν°λ
- λͺ¨λ νλ ¨ λ°μ΄ν°μ λν μ κ³± μ€μ°¨ μμ€
- κΈ°μΈκΈ°λ₯Ό μΌλ‘ μ€μ
- μ¬μ 리νλ©΄, μ΅μ μμ€ κ°μ€μΉ 벑ν°λ λ€μκ³Ό κ°μ. (μ κ· λ°©μ μ(Normal Equation))
Regularization for Multivariable Linear Regression
- κ³ μ°¨μ 곡κ°μ multivariable linear regressionμμλ μ€μ λ‘λ κ΄λ ¨ μλ μ°¨μμ΄ μ°μ°ν μ μ©ν κ²μ²λΌ λ³΄μ¬ κ³Όμ ν©(overfitting)μ μ΄λν μ μμ.
- λ°λΌμ, κ³Όμ ν©μ νΌνκΈ° μν΄ λ€λ³λ μ ν ν¨μμ μ κ·ν(regularization)λ₯Ό μ¬μ©νλ κ²μ΄ μΌλ°μ
- μ κ·νλ₯Ό μ¬μ©νλ©΄ κ°μ€(hypothesis)μ μ΄ λΉμ©(cost)μ μ΅μν, κ²½νμ μμ€κ³Ό κ°μ€μ 볡μ‘λ(complexity)λ₯Ό λͺ¨λ κ³μ°
- 볡μ‘λλ κ°μ€μΉμ ν¨μλ‘ μ§μ κ°λ₯
- μ΄λ©΄, μ κ·ν, μ λκ°μ ν©μ μ΅μν
- μ΄λ©΄, μ κ·ν, μ κ³±μ ν©μ μ΅μν
Property of Regularization
- μ κ·νλ μ€μν μ΄μ μ΄ μμ.
- Sparse modelμ μμ±νλ κ²½ν₯
- μ¦, μ’ μ’ λ§μ κ°μ€μΉλ₯Ό μΌλ‘ μ€μ νμ¬, ν΄λΉνλ μμ±(attributes)μ΄ μμ ν κ΄λ ¨ μλ€κ³ μ μΈ
- λ₯Ό μ΅μννλ κ²μ μ μ½ νμ λ₯Ό μ΅μννλ κ²κ³Ό λμΌ

Linear Classification & Logistic Regression
Linear Classification
- μ ν ν¨μλ regressionλΏλ§ μλλΌ classification(λΆλ₯)λ₯Ό μννλ λ°μλ μ¬μ© κ°λ₯
- μ: μ§μ§/ν΅νλ° λΆλ₯
- κ²°μ κ²½κ³(decision boundary)λ λ ν΄λμ€(classes)λ₯Ό λΆλ¦¬νλ μ (or κ³ μ°¨μμμλ νλ©΄)
- μ ν κ²°μ κ²½κ³λ linear separatorλΌκ³ νλ©°, μ΄λ¬ν seperatorλ₯Ό νμ©νλ λ°μ΄ν°λ₯Ό linearly separableνλ€κ³ ν¨.

Linear Classifers with a Threshold Function
- λ μ ν ν¨μ λ₯Ό μκ³ ν¨μ(threshold function)μ ν΅κ³Όμν¨ κ²°κ³Όλ‘ μκ°ν μ μμ.
- λ¬Έμ : (1) κ²½μ¬ νκ°λ²κ³Ό (2) μ΅μ κ°μ€μΉ()λ₯Ό λμΆνκΈ° μν λ«ν νν(closed form)μ κ³μ°, λ λ€ νμ© λΆκ°
- μΈ μ§μ μ μ μΈν κ°μ€μΉ κ³΅κ° κ±°μ λͺ¨λ κ³³μμ κΈ°μΈκΈ°κ° μ΄κ³ , μΈ μ§μ μμλ κΈ°μΈκΈ°κ° μ μλμ§ μκΈ° λλ¬Έ

Problems of Linear Classification with a Hard Threshold
- μ ν ν¨μμ μΆλ ₯μ μκ³ ν¨μμ ν΅κ³Όμν€λ κ²μ΄ μ ν λΆλ₯κΈ°(linear classifier)λ₯Ό μμ±ν¨μ νμΈ
- νμ§λ§ μκ³κ°μ κ²½μ±(hard nature)μ λͺ κ°μ§ λ¬Έμ λ₯Ό μΌκΈ°
- κ°μ€ λ λ―ΈλΆ λΆκ°λ₯νλ©° μ λ ₯κ³Ό κ°μ€μΉμ λν΄ λΆμ°μ ν¨μμ. μ΄λ perceptron ruleμ μ¬μ©ν νμ΅μ λ§€μ° μμΈ‘ λΆκ°λ₯νκ² λ§λ¦.
- λν, μ ν λΆλ₯κΈ°λ κ²½κ³μ λ§€μ° κ°κΉμ΄ μμ μ λν΄μλ νμ λλ μ μμ ν νμ μ μ°¬ μμΈ‘μ μλ¦Ό. μΌλΆ μμ λ λͺ νν λλ λ‘, λ€λ₯Έ μμ λ λΆλΆλͺ ν κ²½κ³μ μΌμ΄μ€λ‘ λΆλ₯ν μ μλ€λ©΄ λ μ’μ κ²
- μ΄ λͺ¨λ λ¬Έμ λ μκ³ ν¨μλ₯Ό λΆλλ½κ²(softening) ν¨μΌλ‘μ¨ (κ²½μ± μκ³κ°μ μ°μμ μ΄κ³ λ―ΈλΆ κ°λ₯ν ν¨μλ‘ κ·Όμ¬) ν¬κ² ν΄κ²° κ°λ₯
Logistic Function
- λ‘μ§μ€ν± ν¨μ(logistic function) (μκ·Έλͺ¨μ΄λ ν¨μ(sigmoid function)λΌκ³ λ ν¨)

- μκ³ ν¨μλ₯Ό λ‘μ§μ€ν± ν¨μλ‘ λ체
- Data setμ λν μμ€μ μ΅μννκΈ° μν΄ μ΄ λͺ¨λΈμ κ°μ€μΉλ₯Ό λ§μΆλ(fitting) κ³Όμ : λ‘μ§μ€ν± νκ·(logistic regression)
How to Compute in Logistic Regression
- κ°μ€μ΄ λ μ΄μ λλ λ§ μΆλ ₯νμ§ μμΌλ―λ‘ μμ€ ν¨μ μ¬μ©
- λ₯Ό λ‘μ§μ€ν± ν¨μ, μ κ·Έ λν¨μλ‘ μ¬μ©
- λ¨μΌ μμ μ λν΄, κΈ°μΈκΈ° μ λλ μ μ€μ ννκ° μ½μ
λλ μ§μ κΉμ§ μ ν νκ·μ λμΌ
- λ‘μ§μ€ν± ν¨μμ λν¨μ μ λ₯Ό λ§μ‘±
λ°λΌμ,
- μμ€μ μ΅μννκΈ° μν κ°μ€μΉ μ
λ°μ΄νΈλ μ
λ ₯κ³Ό μμΈ‘ κ°μ μ°¨μ΄ λ°©ν₯μΌλ‘ μ€ν
μ λ°μΌλ©°, μ€ν
μ κΈΈμ΄λ μμ μ μ λ°λΌ λ¬λΌμ§
