베이지안 네트워크에서 신경 네트워크로 : 다변량 회귀를 다중 출력 네트워크로 전치하는 방법 N( 0

나는 베이지안 계층 선형 모델 (여기서 그것을 설명하는 네트워크)을 다루고 있습니다.

는 슈퍼마켓에서 관찰 된 제품의 일일 판매량을 나타냅니다. $Y$

Y

$Y$

는 가격, 프로모션, 요일, 날씨, 휴일을 포함하여 알려진 회귀 행렬입니다. $X$

X

$X$

는 각 제품의 알려지지 않은 잠재 재고 수준으로, 가장 많은 문제를 유발하고, 이진 변수로 구성된 벡터를 고려합니다. 각 제품마다 개가품절됨을 나타내므로 제품을 사용할 수 없습니다.
이론적으로 알 수없는 경우에도 각 제품에 대해 HMM을 통해 추정 했으므로 X라고알려진 것으로 간주됩니다. 적절한 형식을 위해 음영 처리하기로 결정했습니다. $S$

S

$S$ $1$

1

$1$

는 고려 된 혼합 효과가 제품 가격, 판촉 및 재고 부족 인 단일 제품에 대한 혼합 효과 매개 변수입니다. $η$

η

$\eta$

는 고정 회귀 계수의 벡터이고, 및 는 혼합 효과 계수의 벡터입니다. 한 그룹은브랜드를 나타내고 다른그룹은맛을나타냅니다(실제로는 많은 그룹이 있지만 여기서는 명확성을 위해 2 개만보고합니다). $β$

β

$\beta$ $b_{1}$

b_{1}

$b_1$ $b_{2}$

b_{2}

$b_2$

, 및 는 혼합 효과에 대한 하이퍼 파라미터입니다. $Σ_{η}$

Σ_{η}

$\Sigma_{\eta}$ $Σ_{b_{1}}$

Σ_{b_{1}}

$\Sigma_{b_1}$ $Σ_{b_{2}}$

Σ_{b_{2}}

$\Sigma_{b_2}$

카운트 데이터를 가지고 있기 때문에 각 제품 판매를 회귀 변수에 대한 Poisson 분포 조건부로 취급한다고 가정 해 봅시다 (일부 제품의 경우 선형 근사가 유지되고 다른 제품의 경우 0 팽창 모델이 더 낫습니다). 그런 경우 나는 제품 대해 가질 것입니다 ( 이것은 베이지안 모델 자체에 관심이있는 사람을위한 것입니다. 관심이 없거나 사소하지 않은 것으로 판명되면 질문으로 건너 뛰십시오 ) : $Y$

Y

$Y$

$Σ_{η} \sim I W (α_{0}, γ_{0})$

Σ_{η} \sim I W (α_{0}, γ_{0})

$\Sigma_{\eta} \sim IW(\alpha_0,\gamma_0)$

$Σ_{b_{1}} \sim I W (α_{1}, γ_{1})$

Σ_{b_{1}} \sim I W (α_{1}, γ_{1})

$\Sigma_{b_1} \sim IW(\alpha_1,\gamma_1)$

, 알려져 있습니다. $Σ_{b_{2}} \sim I W (α_{2}, γ_{2})$

Σ_{b_{2}} \sim I W (α_{2}, γ_{2})

$\Sigma_{b_2} \sim IW(\alpha_2,\gamma_2)$ $α_{0}, γ_{0}, α_{1}, γ_{1}, α_{2}, γ_{2}$

α_{0}, γ_{0}, α_{1}, γ_{1}, α_{2}, γ_{2}

$\alpha_0,\gamma_0,\alpha_1,\gamma_1,\alpha_2,\gamma_2$

$η \sim N (0, Σ_{η})$

η \sim N (0, Σ_{η})

$\eta \sim N(\mathbf{0},\Sigma_{\eta})$

$b_{1} \sim N (0, Σ_{b_{1}})$

b_{1} \sim N (0, Σ_{b_{1}})

$b_1 \sim N(\mathbf{0},\Sigma_{b_1})$

$b_{2} \sim N (0, Σ_{b_{2}})$

b_{2} \sim N (0, Σ_{b_{2}})

$b_2 \sim N(\mathbf{0},\Sigma_{b_2})$

, 알려져있다. $β \sim N (0, Σ_{β})$

β \sim N (0, Σ_{β})

$\beta \sim N(\mathbf{0},\Sigma_{\beta})$ $Σ_{β}$

Σ_{β}

$\Sigma_{\beta}$

, $λ_{t i j k} = β * X_{t i} + η_{i} * X_{p p s_{t i}} + b_{1_{j}} * Z_{t j} + b_{2_{k}} Z_{t k}$

λ_{t i j k} = β * X_{t i} + η_{i} * X_{p p s_{t i}} + b_{1_{j}} * Z_{t j} + b_{2_{k}} Z_{t k}

$\lambda _{tijk} = \beta*X_{ti} + \eta_i*X_{pps_{ti}} + b_{1_j} * Z_{tj} + b_{2_k} Z_{tk}$

$Y_{t i j k} \sim P o i (e x p (λ_{t i j k}))$

Y_{t i j k} \sim P o i (e x p (λ_{t i j k}))

$Y_{tijk} \sim Poi(exp(\lambda_{tijk}))$

, , $i \in 1, \dots, N$

i \in 1, \dots, N

$i \in {1,\dots,N}$ $j \in 1, \dots, m_{1}$

j \in 1, \dots, m_{1}

$j \in {1,\dots,m_1}$ $k \in 1, \dots, m_{2}$

k \in 1, \dots, m_{2}

$k \in {1,\dots,m_2}$

2 개 그룹에 대한 혼합 행렬의 효과는 가격, 증진 및 간주 stockout 생성물을 나타낸다. 는 역위 샤트 분포를 나타내며, 일반적으로 정규 다변량 사전의 공분산 행렬에 사용됩니다. 그러나 여기서는 중요하지 않습니다. 가능한 의 예는모든 가격의 행렬이거나 라고 말할 수도있습니다. 혼합 효과 분산 공분산 행렬에 대한 선행 사항과 관련하여 항목 사이의 상관 관계를 유지하려고하면 가 양수 $Z_{i}$

Z_{i}

$Z_i$ $X_{p p s_{i}}$

X_{p p s_{i}}

$X_{pps_i}$ $I W$

나는 여

$IW$ $Z_{i}$

지_{나는}

$Z_i$ $Z_{i} = X_{i}$

지_{나는} = {엑스}_{나는}

$Z_i=X_i$ $σ_{i j}$

σ_{나는 j}

$\sigma_{ij}$ 와 는 동일한 브랜드 또는 동일한 맛의 제품입니다. $i$

나는

$i$ $j$

j

$j$

이 모델의 직관은 주어진 제품의 판매가 가격, 가용성 여부에 따라 다르지만 다른 모든 제품의 가격과 다른 모든 제품의 재고량에 달려 있다는 것입니다. 모든 계수에 대해 동일한 모델 (읽기 : 동일한 회귀 곡선)을 원하지 않기 때문에 매개 변수 공유를 통해 데이터에있는 일부 그룹을 활용하는 혼합 효과를 도입했습니다.

내 질문은 :

이 모델을 신경망 아키텍처로 바꾸는 방법이 있습니까? 베이지안 네트워크, 마르코프 랜덤 필드, 베이지안 계층 모델 및 신경망 사이의 관계를 찾는 많은 질문이 있다는 것을 알고 있지만 베이지안 계층 모델에서 신경망으로가는 것을 찾지 못했습니다.
신경망에 대해 질문합니다. 높은 차원의 문제 (340 제품이 있다고 생각), MCMC를 통한 매개 변수 추정에는 몇 주가 걸립니다 (runJags에서 병렬 체인을 실행하는 20 개의 제품에 대해서만 시도했으며 며칠이 걸렸습니다) . 그러나 나는 무작위로 가고 싶지 않고 블랙 박스처럼 신경망에 데이터를 제공합니다. 네트워크의 의존성 / 독립 구조를 이용하고 싶습니다.

여기에 신경망을 스케치했습니다. 보시다시피 , 상단의 회귀 분석기 ( 및 는 각각 제품 의 가격과 재고를 나타냄 )는 제품 별 (여기서 가격과 재고를 고려) 숨겨진 레이어에 입력됩니다 . $P_{i}$

$피_{나는}$
$P_i$ $S_{i}$
${에스}_{나는}$
$S_i$ $i$
$나는$

$i$ (파란색과 검은 색 가장자리는 특별한 의미가 없으며 그림을 더 명확하게하기위한 것입니다). 또한 과 는 높은 상관 관계가있을 수 있습니다 $Y_{1}$

${와이}_{1}$
$Y_1$ $Y_{2}$
${와이}_{2}$
$Y_2$ $Y_{3}$
${와이}_{삼}$

$Y_3$ 완전히 다른 제품 일 수 있지만 (오렌지 주스 2 개와 레드 와인에 대해 생각) 신경망에서는이 정보를 사용하지 않습니다. 그룹화 정보가 가중치 초기화에 사용되는지 또는 문제에 맞게 네트워크를 사용자 정의 할 수 있는지 궁금합니다.

편집, 내 생각 :

내 생각은 다음과 같습니다. 이전과 마찬가지로 과 는 상관 된 제품이지만 은 완전히 다른 제품 입니다. 이것을 선험적으로 알고 나는 두 가지 일을합니다. $Y_{1}$

{와이}_{1}

$Y_1$ $Y_{2}$

{와이}_{2}

$Y_2$ $Y_{3}$

{와이}_{삼}

$Y_3$

숨겨진 계층의 일부 뉴런을 내가 가진 그룹에 미리 할당합니다.이 경우에는 2 개의 그룹 {( ), ( )}이 있습니다. $Y_{1}, Y_{2}$
입력과 할당 된 노드 (굵은 가장자리) 사이에 높은 가중치를 초기화하고 물론 데이터의 나머지 ‘무작위’를 캡처하기 위해 다른 숨겨진 노드를 작성합니다.

당신의 도움에 미리 감사드립니다

답변

기록을 위해, 나는 이것을 대답으로 보지 않고 단지 긴 의견이라고 생각합니다! 금속 막대를 통한 열 흐름을 모델링하는 데 사용되는 PDE (열 방정식)를 사용하여 옵션 가격을 모델링 할 수도 있습니다. 내가 아는 사람은 옵션 가격 책정과 열 흐름 자체 사이의 연결을 제안하려고 시도한 적이 없습니다. Danilov의 링크에서 인용 한 내용도 마찬가지입니다. 베이지안 그래프와 신경망은 그래프의 언어를 사용하여 서로 다른 내부 조각 사이의 관계를 표현합니다. 그러나 베이지안 그래프는 입력 변수의 상관 구조에 대해 알려주고 신경망의 그래프는 입력 변수에서 예측 함수를 작성하는 방법을 알려줍니다. 이것들은 매우 다릅니다.
DL에서 사용되는 다양한 방법은 가장 중요한 변수를 ‘선택’하려고 시도하지만 이는 경험적인 문제입니다. 또한 전체 변수 세트 또는 나머지 변수의 상관 관계 구조에 대해서는 알려주지 않습니다. 그것은 생존 변수가 prediciton에 가장 좋을 것이라고 제안합니다. 예를 들어 신경망을 보면 독일 신용 데이터 세트로 연결됩니다. 독일 신용 데이터 세트는 2000 데이터 포인트와 5 개의 종속 변수를 올바르게 기억합니다. 시행 착오를 통해 숨겨진 레이어가 1 개이고 변수 중 2 개만 사용하는 그물은 예측에 가장 좋은 결과를 제공한다는 것을 알 수 있습니다. 그러나 이것은 모든 모델을 구축하고 독립적 인 테스트 세트에서 테스트해야만 발견 할 수 있습니다.

How IT

언제든지 물어보세요.

베이지안 네트워크에서 신경 네트워크로 : 다변량 회귀를 다중 출력 네트워크로 전치하는 방법 N( 0

답변

답변