7. Information Theory
- Information theory๋ (Branch) of applied mathematics (์์ฉ ์ํ์ ํ ๋ถ์ผ)๋ก, ์ ํธ์ ์กด์ฌํ๋ ์ ๋ณด๋์ ์ ๋ํํ๋ ๊ฒ์ ์ค์ฌ์ผ๋ก ํจ
- ์๋๋ (Discrete alphabets, ์ด์ฐ ์ํ๋ฒณ)์์ (Noisy channel, ์ก์ ์ฑ๋)์ ํตํด ๋ฉ์์ง๋ฅผ ๋ณด๋ด๋ ๊ฒ์ ์ฐ๊ตฌํ๊ธฐ ์ํด ๋ฐ๋ช ๋จ (์: ๋ผ๋์ค ์ก์ ์ ํตํ ํต์ )
- (Optimal codes, ์ต์ ์ฝ๋)๋ฅผ ์ค๊ณํ๋ ๋ฐฉ๋ฒ๊ณผ ๋ฉ์์ง์ ์์ ๊ธธ์ด๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ ์ ์ํจ
- ๊ธฐ๋ณธ (Intuition, ์ง๊ด)์ ๋ฐ์ํ ๊ฐ๋ฅ์ฑ์ด ๋ฎ์ (Event, ์ฌ๊ฑด)์ด ๋ฐ์ํ์์ ์๊ฒ ๋๋ ๊ฒ์ด ๋ฐ์ํ ๊ฐ๋ฅ์ฑ์ด ๋์ ์ฌ๊ฑด์ด ๋ฐ์ํ์์ ์๊ฒ ๋๋ ๊ฒ๋ณด๋ค ๋ ๋ง์ (Informative, ์ ๋ณด)๋ฅผ ์ ๊ณตํ๋ค๋ ๊ฒ
- ์: โ์ค๋ ์์นจ ํด๊ฐ ๋ด๋คโ๋ ๋ฉ์์ง๋ ๋ถํ์ํ ์ ๋๋ก ์ ๋ณด๊ฐ ์ ์ง๋ง, โ์ค๋ ์์นจ ์ผ์์ด ์์๋คโ๋ ๋ฉ์์ง๋ ๋งค์ฐ ์ ๋ณด๊ฐ ๋ง์
- ์ด ์ง๊ด์ ๊ณต์ํํ๋ ๋ฐฉ์์ผ๋ก ์ ๋ณด๋ฅผ ์ ๋ํํ๊ณ ์ถ์
- Likely events๋ ๋ฎ์ (Information content, ์ ๋ณด ๋ด์ฉ)์ ๊ฐ์ ธ์ผ ํ๋ฉฐ, ๊ทน๋จ์ ์ธ ๊ฒฝ์ฐ ๋ฐ๋์ ์ผ์ด๋ ์ฌ๊ฑด์ ์ ๋ณด ๋ด์ฉ์ด ์ ํ ์์ด์ผ ํจ
- Less likely events๋ ๋ ๋์ ์ ๋ณด ๋ด์ฉ์ ๊ฐ์ ธ์ผ ํจ
- (Independent events, ๋
๋ฆฝ ์ฌ๊ฑด)์ (Additive information, ๊ฐ์ฐ ์ ๋ณด)๋ฅผ ๊ฐ์ ธ์ผ ํจ
- ์๋ฅผ ๋ค์ด, ๋์ง ์ฝ์ธ์ด ๋ ๋ฒ ์๋ฉด์ด ๋์๋ค๋ ๊ฒ์ ์๊ฒ ๋๋ ๊ฒ์ ํ ๋ฒ ์๋ฉด์ด ๋์๋ค๋ ๊ฒ์ ์๊ฒ ๋๋ ๊ฒ๋ณด๋ค ๋ ๋ฐฐ์ ์ ๋ณด๋ฅผ ์ ๋ฌํด์ผ ํจ
- ์ด ์ธ ๊ฐ์ง ์์ฑ์ ๋ชจ๋ ๋ง์กฑ์ํค๊ธฐ ์ํด, (Event) ์ (Self-information) ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํจ
- (Natural logarithm, ์์ฐ๋ก๊ทธ) (๋ฐ )๋ฅผ ์ฑํํ ๋, ์ ํ๋ฅ ์ ๊ฐ๋ ์ฌ๊ฑด์ ๊ด์ฐฐํ์ฌ ์ป๋ ์ ๋ณด๋์ one ์ด๋ผ ํจ
- ๋ฐ ๋ฅผ ์ด์ฉํ ๋, ๋๋ ๋ผ๊ณ ํจ
Entropy
- (Self-information)์ ๋จ ํ๋์ (Outcome, ๊ฒฐ๊ณผ)๋ง์ ๋ค๋ฃธ
- (Shannon) Entropy๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ฒด (Probability distribution, ํ๋ฅ ๋ถํฌ)์ (Uncertainty, ๋ถํ์ค์ฑ) ์์ ์ ๋ํํ ์ ์์
- ๋ถํฌ์ Shannon Entropy๋ ๊ทธ ๋ถํฌ์์ ์ถ์ถ๋ ์ฌ๊ฑด์ (Expected amount of information, ์์ ์ ๋ณด๋)์
- ๋ถํฌ ์์ ์ถ์ถ๋ Symbol์ ์ธ์ฝ๋ฉํ๋ ๋ฐ ํ๊ท ์ ์ผ๋ก ํ์ํ ๋นํธ ์์ (Lower bound, ํํ)์ ์ ๊ณตํจ
- (Nearly deterministic, ๊ฑฐ์ ๊ฒฐ์ ๋ก ์ )์ธ ๋ถํฌ (๊ฒฐ๊ณผ๊ฐ ๊ฑฐ์ ํ์คํ ๊ฒฝ์ฐ)๋ ๋ฎ์ Entropy๋ฅผ ๊ฐ์ง (Uniform, ๊ท ์ผ)์ ๊ฐ๊น์ด ๋ถํฌ๋ ๋์ Entropy๋ฅผ ๊ฐ์ง
Kullback-Leibler (KL) Divergence
- ๋์ผํ (Random variable, ํ๋ฅ ๋ณ์) ์ ๋ํ ๋ ๊ฐ์ ๊ฐ๋ณ (Probability distributions) ์ ๊ฐ ์์ ๋, (Kullback-Leibler (KL) divergence)๋ฅผ ์ฌ์ฉํ์ฌ ์ด ๋ ๋ถํฌ๊ฐ ์ผ๋ง๋ ๋ค๋ฅธ์ง ์ธก์ ํ ์ ์์
D_{KL}(P \parallel Q) = E_{x \sim P(X)} \left[ \log \frac{P(x)}{Q(x)} \right] $$ $$= E_{x \sim P(X)} [\log P(x) - \log Q(x)]
- KL divergence๋ (Non-negative, ์์๊ฐ ์๋)
- ์ ๊ฐ ๋์ผํ ๋ถํฌ์ธ ๊ฒฝ์ฐ์๋ง KL divergence๋ ์
- ์ข ์ข ์ด ๋ถํฌ๋ค ์ฌ์ด์ ์ผ์ข ์ (Distance, ๊ฑฐ๋ฆฌ)๋ฅผ ์ธก์ ํ๋ ๊ฒ์ผ๋ก ๊ฐ๋ ํ๋์ง๋ง, ๋์นญ์ ์ด์ง ์๊ธฐ ๋๋ฌธ์ () ์ง์ ํ ๊ฑฐ๋ฆฌ ์ธก์ ์ ์๋
Cross-Entropy
- KL divergence์ ๋ฐ์ ํ๊ฒ ๊ด๋ จ๋ ์์ (Cross-entropy) ์ด๋ฉฐ, ์ด๋ ๋ก ์ ์๋์ง๋ง, ๋ค์์ ํํ๋ฅผ ๊ฐ์ง
- ์ ๋ํด Cross-entropy๋ฅผ ์ต์ํํ๋ ๊ฒ์ KL divergence๋ฅผ ์ต์ํํ๋ ๊ฒ๊ณผ (Equivalent, ๋๋ฑ)ํจ. ์ด๋ ๊ฐ ์๋ต๋ ํญ์ ์ฐธ์ฌํ์ง ์๊ธฐ ๋๋ฌธ์
- ์ ์ฌ์ด์ Cross-entropy๋ ์ฝ๋ฉ (Scheme, ๋ฐฉ์)์ด ๊ฐ ์๋ ์ ์ต์ ํ๋ ๊ฒฝ์ฐ, ์ฌ๊ฑด์ ์๋ณํ๋ ๋ฐ ํ์ํ ํ๊ท ๋นํธ ์๋ฅผ ์ธก์ ํจ
- ์ : ๋์ผํ (Underlying set of events, ๊ธฐ๋ณธ ์ฌ๊ฑด ์งํฉ)์ ๋ํ ๋ ํ๋ฅ ๋ถํฌ. ๋ (True distribution, ์ค์ ๋ถํฌ)์ด๊ณ , ๋ (Estimated probability distribution, ์ถ์ ๋ ํ๋ฅ ๋ถํฌ)์
- (Additional info, ์ถ๊ฐ ์ ๋ณด) ๋ํ (Maximum likelihood estimation, ์ต๋ ์ฐ๋ ์ถ์ ) (MLE)์ ๊ด๋ จ์ด ์์ผ๋ฉฐ, (Training neural models, ์ ๊ฒฝ๋ง ๋ชจ๋ธ ํ์ต)์ ์ํ ์ฃผ์ (Objectives, ๋ชฉํ) ์ค ํ๋๋ก ๊ฐ์ฃผ๋จ
Probabilistic Agents
- (Real world, ํ์ค ์ธ๊ณ)์ (Agents, ์์ด์ ํธ)๋ (Partial observability, ๋ถ๋ถ ๊ด์ฐฐ ๊ฐ๋ฅ์ฑ), (Nondeterminism, ๋น๊ฒฐ์ ๋ก ), ๋๋ (Adversaries, ์ ๋์)๋ก ์ธํด (Uncertainty, ๋ถํ์ค์ฑ)์ ์ฒ๋ฆฌํด์ผ ํจ
- ์์ด์ ํธ๋ ์์ ์ด ์ง๊ธ ์ด๋ค ์ํ์ ์๋์ง, ๋๋ ์ผ๋ จ์ ํ๋ ํ์ ์ด๋์ ์๊ฒ ๋ ์ง ํ์ ํ ์ ์์ ์ ์์
- ์: ์น๊ณผ ํ์์ ์นํต ์ง๋จ
- ์ง๋จ์ ๊ฑฐ์ ํญ์ ๋ถํ์ค์ฑ์ ํฌํจํจ
- (Propositional logic, ๋ช ์ ๋ ผ๋ฆฌ)๋ฅผ ์ฌ์ฉํ์ฌ ์น๊ณผ ์ง๋จ ๊ท์น์ ์์ฑํ๋ ค๊ณ ์๋:
- ์ด ๊ท์น์ ํ๋ฆผ. ์นํต ํ์ ๋ชจ๋๊ฐ ์ถฉ์น๋ฅผ ๊ฐ์ง ๊ฒ์ ์๋๋ฉฐ, ์ผ๋ถ๋ ์๋ชธ ์งํ, ๋์ ๋ฑ์ ๊ฐ์ง:
- ์ด ๊ท์น์ ์ฐธ์ผ๋ก ๋ง๋ค๊ธฐ ์ํด์๋ ๊ฑฐ์ ๋ฌด์ ํ์ ๊ฐ๋ฅํ ๋ฌธ์ ๋ชฉ๋ก์ ์ถ๊ฐํด์ผ ํจ
- ๊ท์น์ (Causal rule, ์ธ๊ณผ ๊ด๊ณ ๊ท์น)์ผ๋ก ๋ฐ๊พธ๋ ค๊ณ ์๋:
- ๊ทธ๋ฌ๋ ์ด ๊ท์น๋ ์ณ์ง ์์. ๋ชจ๋ ์ถฉ์น๊ฐ ํต์ฆ์ ์ ๋ฐํ๋ ๊ฒ์ ์๋
- ๊ท์น์ ์์ ํ๋ ์ ์ผํ ๋ฐฉ๋ฒ์ (Logically exhaustive, ๋ ผ๋ฆฌ์ ์ผ๋ก ์์ )ํ๊ฒ ๋ง๋๋ ๊ฒ: ์ถฉ์น๊ฐ ์นํต์ ์ ๋ฐํ๋ ๋ฐ ํ์ํ ๋ชจ๋ (Qualifications, ์กฐ๊ฑด)์ผ๋ก ์ข๋ณ์ ๋ณด๊ฐํ๋ ๊ฒ
- ์๋ฃ ์์ญ (์ด์ ์์์ ๊ฐ์) ๋๋ ๋ง์ ๋ค๋ฅธ ์์ญ์์, ์์ด์ ํธ์ ์ง์์ ๊ด๋ จ (Sentences, ๋ฌธ์ฅ)์ ๋ํ (Degree of belief, ๋ฏฟ์์ ์ ๋)๋ง์ ์ต์ ์ผ๋ก ์ ๊ณตํ ์ ์์
- ๋ฏฟ์์ ์ ๋๋ฅผ ๋ค๋ฃจ๊ธฐ ์ํ ์ฃผ์ (Tool, ๋๊ตฌ)๋ (Probability theory, ํ๋ฅ ์ด๋ก )์
- (Logical agent, ๋ ผ๋ฆฌ์ ์์ด์ ํธ)๋ ๊ฐ ๋ฌธ์ฅ์ด ์ฐธ ๋๋ ๊ฑฐ์ง์ด๋ผ๊ณ ๋ฏฟ๊ฑฐ๋ ์๊ฒฌ์ด ์๋ ๋ฐ๋ฉด, (Probabilistic agent, ํ๋ฅ ์ ์์ด์ ํธ)๋ (ํ์คํ ๊ฑฐ์ง์ธ ๋ฌธ์ฅ)๊ณผ (ํ์คํ ์ฐธ์ธ ๋ฌธ์ฅ) ์ฌ์ด์ ์์น์ ์ธ ๋ฏฟ์์ ์ ๋๋ฅผ ๊ฐ์ง ์ ์์
- ํน์ ํ์์๊ฒ ๋ฌด์์ด ๋ฌธ์ ์ธ์ง ํ์คํ ์์ง๋ ๋ชปํ์ง๋ง, ์นํต์ด ์๋ ํ์๊ฐ ์ถฉ์น๋ฅผ ๊ฐ์ง ํ๋ฅ ์ด ๋ผ๊ณ ๋ฏฟ์ ์ ์์
Probabilistic Inference Using Full Joint Distributions
- ๊ด์ฌ ์๋ (Random variables)์ ๋ํ (Full joint distribution, ์ ์ฒด ๊ฒฐํฉ ๋ถํฌ)๊ฐ ์ฃผ์ด์ง๋ฉด, ์ด๋ฅผ ๋ชจ๋ ์ง๋ฌธ์ ๋ํ ๋ต์ ๋์ถํ ์ ์๋ "(Knowledge base, ์ง์ ๋ฒ ์ด์ค)"๋ก ํ์ฉํ ์ ์์
- ๊ฐ๋จํ ์
- ์ธ ๊ฐ์ง (Boolean variables, ๋ถ ๋ณ์) , , ๋ฐ ๋ก ๊ตฌ์ฑ๋ (Domain, ์์ญ)
- (Full joint distribution)์ ๋ค์๊ณผ ๊ฐ์
- ์์์ ์ฌ๊ฑด ์ ๋ํด ์์ ์๊ธฐ. ๋ (Possible worlds, ๊ฐ๋ฅํ ์ธ๊ณ) (Outcome)
- ์์์ ์ฌ๊ฑด์ ํ๋ฅ ์ ๊ณ์ฐํ๋ ์ง์ ์ ์ธ ๋ฐฉ๋ฒ ์ ๊ณต.
- ์ฌ๊ฑด์ด ์ฐธ์ธ ๊ฐ๋ฅํ ์ธ๊ณ๋ฅผ ์๋ณํ๊ณ ํด๋น ํ๋ฅ ์ ๋ชจ๋ ํฉ์ฐ
P(\text{\text{cavity}} \lor \text{\text{toothache}}) $$ $$= 0.108 + 0.012 + 0.072 + 0.008 + 0.016 + 0.064 = 0.28
Marginalization and Conditioning
- Marginalization (์ฃผ๋ณํ) ๋ฐ Conditioning (์กฐ๊ฑดํ)
- ์ผ๋ถ (Subset of variables, ๋ณ์ ๋ถ๋ถ์งํฉ)์ ๋ํ ๋ถํฌ๋ฅผ ์ถ์ถํ๋ ๊ฒ์ ์ค์ ๋ก (Marginal probability, ์ฃผ๋ณ ํ๋ฅ )์ ๋์ถํ๋ ๊ฒ๊ณผ ๋๋ฑํจ
- ์:
- ์ด๋ Conditioning์ผ๋ก๋ ํํ๋ ์ ์์:
Conditional Probabilities & Normalization
- Conditional probabilities (์กฐ๊ฑด๋ถ ํ๋ฅ )
- ๋ค๋ฅธ ๋ณ์์ ๋ํ (Evidence, ์ฆ๊ฑฐ)๊ฐ ์ฃผ์ด์ก์ ๋, ์ผ๋ถ ๋ณ์์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๊ณ์ฐํ๋ ๋ฐ๋ ๊ด์ฌ์ด ์์
P(\text{\text{cavity}}|\text{\text{toothache}}) = \frac{P(\text{\text{cavity}} \land \text{\text{toothache}})}{P(\text{\text{toothache}})} $$ $$= \frac{0.108 + 0.012 + 0.072 + 0.008}{0.108 + 0.012 + 0.016 + 0.064} = 0.6
P(\neg \text{\text{cavity}}|\text{\text{toothache}}) = \frac{P(\neg \text{\text{cavity}} \land \text{\text{toothache}})}{P(\text{\text{toothache}})} $$ $$= \frac{0.016 + 0.064}{0.108 + 0.012 + 0.016 + 0.064} = 0.4
- Normalization (์ ๊ทํ)
- ์์ ๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ํฉ์ ์ด์ด์ผ ํจ
- ํญ์ ์ด ๋ ๊ณ์ฐ ๋ชจ๋์ (Denominator, ๋ถ๋ชจ)์ ์์ ์ด๋ ๋ถํฌ ์ ๋ํ (Normalization constant, ์ ๊ทํ ์์)๋ก ๊ฐ์ฃผ๋ ์ ์์ผ๋ฉฐ, ํฉ์ด ์ด ๋๋๋ก ๋ณด์ฅ
- ์ด๋ฌํ ์์๋ฅผ ๋ํ๋ด๋ ๋ฐ ๋ฅผ ์ฌ์ฉ. ์ด ํ๊ธฐ๋ฒ์ผ๋ก, ์์ ๋ ๋ฐฉ์ ์์ ํ๋๋ก ์์ฑํ ์ ์์:
Normalization & General Inference Rule
- Normalization
- ๋ค์ ๋งํด, ๊ฐ์ ๋ชฐ๋ผ๋ ๋ฅผ ๊ณ์ฐํ ์ ์์
- Normalization์ ๊ณ์ฐ์ ๋ ์ฝ๊ฒ ๋ง๋ค๊ณ , ์ผ๋ถ ํ๋ฅ ํ๊ฐ (์ ๊ฐ์)๋ฅผ ์ฌ์ฉํ ์ ์์ ๋ ์งํํ ์ ์๋๋ก ํ๋ ๋ฑ ๋ง์ ํ๋ฅ ๊ณ์ฐ์์ ์ ์ฉํ (Shortcut, ๋จ์ถํค)๊ฐ ๋จ
- (General inference rule, ์ผ๋ฐ ์ถ๋ก ๊ท์น)
- ๋จ์ผ ๋ณ์ , (Evidence variables, ์ฆ๊ฑฐ ๋ณ์ ๋ชฉ๋ก) , ์ ๋ํ (Observed values, ๊ด์ฐฐ๋ ๊ฐ ๋ชฉ๋ก) , ๋ฐ (Remaining unobserved variables, ๋๋จธ์ง ๊ด์ฐฐ๋์ง ์์ ๋ณ์) ๊ฐ ์ฃผ์ด์ง๋ฉด,
- ํ๋ฅ ๋ถํฌ ๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ ์ ์์
- ๋ณ์ , , ๋ฐ ๋ ํจ๊ป Domain์ ๋ํ (Complete set of variables, ์์ ํ ๋ณ์ ์งํฉ)์ ๊ตฌ์ฑํ๋ฏ๋ก, ๋ ๋จ์ํ (Full joint distribution)์์ ์จ ํ๋ฅ ๋ค์ (Subset, ๋ถ๋ถ์งํฉ)์
Conclusions & Limitations - ์์ฝ
- (Full joint distribution)์ด ์ฃผ์ด์ง๋ฉด, (Discrete variables, ์ด์ฐ ๋ณ์)์ ๋ํ ํ๋ฅ ์ (Queries, ์ง์)์ ๋ตํ ์ ์์
- ๊ทธ๋ฌ๋, (Scale well, ํ์ฅ์ฑ์ด ์ข์ง ์์). ๊ฐ์ (Boolean variables)๋ก ์ค๋ช ๋๋ (Domain)์ ๊ฒฝ์ฐ, ํฌ๊ธฐ์ (Input table, ์ ๋ ฅ ํ ์ด๋ธ)์ด ํ์ํจ
- ๋ฐ๋ผ์, (Full joint distribution) (ํ ํ์)์ (Reasoning systems, ์ถ๋ก ์์คํ )์ ๊ตฌ์ถํ๊ธฐ ์ํ ์ค์ฉ์ ์ธ (Tool, ๋๊ตฌ)๊ฐ ์๋
- ๋ค์ ๋จ๊ณ๋ (Chain rule, ์ฐ์ ๋ฒ์น) ๋ฐ (Concept of independence and conditional independence, ๋ ๋ฆฝ ๋ฐ ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ ๊ฐ๋ )์ ์์กดํ์ฌ, (Joint distribution, ๊ฒฐํฉ ๋ถํฌ)๋ฅผ (Subsets of variables, ๋ณ์์ ๋ถ๋ถ ์งํฉ)์ ๋ํ ๋ ๊ฐ๋จํ (Probabilitiy distributions)์ ๊ณฑ์ผ๋ก (Factorize, ์ธ์๋ถํด)ํ๋ ๊ฒ
- Chain rule:
- Independence: ,
- Conditional independence: ,
- (Bayesian network, ๋ฒ ์ด์ฆ ๋คํธ์ํฌ)๋ ์ด๋ฌํ (Factorization)์ ์ฒด๊ณ์ ์ผ๋ก ๋ํ๋ผ ์ ์๊ฒ ํจ
Bayesian Network - ์์ฝ
- (Full joint probability distribution)์ด (Domain)์ ๋ํ ๋ชจ๋ ์ง๋ฌธ์ ๋ตํ ์ ์์์ ๋ณด์์ง๋ง, ๋ณ์์ ์๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ (Intractably large, ๋ค๋ฃจ๊ธฐ ํ๋ค ์ ๋๋ก ์ปค์ง)
- ๋ํ, (Conditional) independence๊ฐ (Full distribution)์ ์ ์ํ๋ ๋ฐ ํ์ํ ํ๋ฅ ์ ์๋ฅผ ํฌ๊ฒ ์ค์ผ ์ ์์์ ๋ณด์์
- Bayesian network๋ ๋ณ์๋ค ์ฌ์ด์ (Dependencies, ์ข ์์ฑ)์ ๋ํ๋ด๋ (Data structure, ๋ฐ์ดํฐ ๊ตฌ์กฐ)์
- Bayesian networks๋ ๋ณธ์ง์ ์ผ๋ก ๋ชจ๋ (Full joint probability distribution)์ ๋ํ๋ผ ์ ์์
- Bayesian network๋ ๊ฐ ๋ ธ๋์ (Quantitative probability information, ์ ๋์ ํ๋ฅ ์ ๋ณด)๊ฐ ์ฃผ์์ผ๋ก ๋ฌ๋ ค ์๋ (Directed graph, ๋ฐฉํฅ์ฑ ๊ทธ๋ํ)์
- Bayesian networks (Bayes net)๋ 1980๋ ๋์ 1990๋ ๋์ (Belief networks, ์ ๋ ๋คํธ์ํฌ)๋ผ๊ณ ๋ถ๋ ธ์
- (Probabilistic) graphical model (PGM) ์ฉ์ด๋ Bayesian networks๋ฅผ ํฌํจํ๋ ๋ ๋์ (Class, ๋ฒ์ฃผ)๋ฅผ ์ง์นญํจ
- Bayesian networks์ (Full specification, ์ ์ฒด ๋ช ์ธ)
- ๊ฐ ๋ ธ๋๋ (Random variable) (์ด์ฐ ๋๋ ์ฐ์)์ ํด๋นํจ
- (Directed links, ๋ฐฉํฅ์ฑ ๋งํฌ) ๋๋ ํ์ดํ๊ฐ ๋ ธ๋ ์์ ์ฐ๊ฒฐํจ. ๋ ธ๋ ์์ ๋ ธ๋ ๋ก ํ์ดํ๊ฐ ์์ผ๋ฉด, ๋ ์ (Parent, ๋ถ๋ชจ)๋ผ๊ณ ํจ. ๊ทธ๋ํ๋ (Directed cycles, ๋ฐฉํฅ์ฑ ์ํ)์ด ์์ผ๋ฏ๋ก (Directed acylic graph, ๋ฐฉํฅ์ฑ ๋น์ํ ๊ทธ๋ํ) (DAG)์
- ๊ฐ ๋ ธ๋ ๋ ๋ถ๋ชจ๊ฐ ๋ ธ๋์ ๋ฏธ์น๋ ์ํฅ์ ์ ๋ํํ๋ ๊ด๋ จ ํ๋ฅ ์ ๋ณด ๋ฅผ ๊ฐ์ง
- Properties (์์ฑ)
- (Network)์ (Topology, ํ ํด๋ก์ง)๋ (Domain)์์ ์ฑ๋ฆฝํ๋ (Conditional independence relationships, ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ ๊ด๊ณ)๋ฅผ ๋ช ์ํจ
- ํ์ดํ์ (Intuitive meaning, ์ง๊ด์ ์ธ ์๋ฏธ)๋ ์ผ๋ฐ์ ์ผ๋ก ๊ฐ ์ (Direct influence, ์ง์ ์ ์ธ ์ํฅ)์ ๋ฏธ์น๋ค๋ ๊ฒ์ด๋ฉฐ, ์ด๋ (Causes, ์์ธ)์ด (Effects, ๊ฒฐ๊ณผ)์ (Parents)์ฌ์ผ ํจ์ ์์ฌํจ
- Bayes net์ (Topology)๊ฐ ๊ฒฐ์ ๋๋ฉด, ๊ฐ ๋ณ์์ ๋ํ (Local probability information, ์ง์ญ ํ๋ฅ ์ ๋ณด)๋ง ์ง์ ํ๋ฉด ๋จ
- (Full joint distribution)์ (Topology)์ (Local information)์ ์ํด ์ ์๋จ
Conditional Probability Table (CPT)
- (Conditional Probability Tables, ์กฐ๊ฑด๋ถ ํ๋ฅ ํ) (CPT)๋ (Discrete variables)์ ๋ํ (Local probability information)์ ๋ํ๋
- CPT์ ๊ฐ ํ์ (Conditioning case, ์กฐ๊ฑดํ ์ฌ๋ก)์ ๋ํ ๊ฐ ๋ ธ๋ ๊ฐ์ (Conditional probability, ์กฐ๊ฑด๋ถ ํ๋ฅ )์ ํฌํจํจ
- (Conditioning case)๋ (Parent nodes)์ ๋ํ ๊ฐ์ ๊ฐ๋ฅํ (Combination, ์กฐํฉ)์
- ๊ฐ ํ์ ํฉ์ ์ด์ด์ผ ํจ. ๊ทธ๋ฌ๋ (Boolean variables)์ ๊ฒฝ์ฐ, ์ข ์ข ๋ ๋ฒ์งธ ์ซ์๋ ์๋ตํจ
The Semantics of Bayesian Networks
- (Random variables) ์ ๊ฐ์ง๊ณ ์๋ค๊ณ ๊ฐ์ ํจ
- ๊ทธ๋ฌ๋ฉด (Joint distribution, ๊ฒฐํฉ ๋ถํฌ)๋ , ๋๋ ๊ฐ๋จํ ์
- Bayesian networks๋ (Joint distribution)์ ๊ฐ (Entry, ํญ๋ชฉ)์ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํจ:
- ๋ฐ๋ผ์, (Joint distribution)์ ๊ฐ ํญ๋ชฉ์ Bayes net์ (Local conditional distributions, ์ง์ญ ์กฐ๊ฑด๋ถ ๋ถํฌ)์ ์ ์ ํ ์์๋ค์ ๊ณฑ์ผ๋ก ํํ๋จ
- ์: ๊ฒฝ๋ณด๊ฐ ์ธ๋ ธ์ง๋ง, ๊ฐ๋๋ ์ง์ง์ ๋ฐ์ํ์ง ์์๊ณ , John๊ณผ Mary ๋ชจ๋ ์ ํํ ํ๋ฅ
Relationship between Chain Rule and Bayes Net
- Chain rule
- Bayesian networks
- ์ด๋ฉฐ, ์ฌ๊ธฐ์ ์
- ๋ ๋ ธ๋๋ฅผ (Topological order, ์์ ์์)๋ก ๋ฒํธ ๋งค๊ธฐ๋ฉด ๋ง์กฑ๋จ
- ์ฆ, (Directed graph structure, ๋ฐฉํฅ์ฑ ๊ทธ๋ํ ๊ตฌ์กฐ)์ ์ผ์นํ๋ ์์์ ์์๋ก
