태그 보관물: deep-learning

deep-learning

인공 신경망이란 무엇입니까? 신경망간에 공통 식별이 이루어집니다. 이 식별은 여러

우리가 신경망 문학 을 탐구함에 따라 , 우리는 신경 형태 토폴로지 ( “Neural-Network”-like architectures)로 다른 방법을 식별하게된다. 저는 보편적 근사 정리 에 대해 이야기하고 있지 않습니다 . 아래에 예가 나와 있습니다.

그렇다면 인공 신경망의 정의는 무엇입니까? 그것의 토폴로지는 모든 것을 다루는 것처럼 보입니다.


예 :

우리가 처음으로 식별하는 것 중 하나는 PCA와 인코더 및 디코더에 묶인 가중치를 가진 선형 자동 인코더와 병목 현상 계층의 임계 값 활성화를 사용하는 것입니다.

또한 선형 모델 (특별한 로지스틱 회귀)과 숨겨진 계층이없고 단일 출력 계층이있는 신경망간에 공통 식별이 이루어집니다. 이 식별은 여러 문을 엽니 다.

푸리에와 테일러 시리즈? ANN . SVM ? ANN. 가우스 프로세스? ANN (무한 숨겨진 단위를 가진 단일 숨겨진 레이어).

따라서이 알고리즘의 특수한 손실 함수가 포함 된 임의의 정규화 된 버전을 신경망 프레임 워크에 쉽게 통합 할 수 있습니다.

그러나 우리가 더 많이 파낼수록 더 많은 유사성이 나타납니다. 방금 Deep Neural Decision Trees넘어서서 결정 트리 를 사용하여 특정 ANN 아키텍처를 식별하여 ANN 방법 (예 : Gradient Descent backpropagation)으로 학습 할 수 있습니다. 이것으로부터 우리는 오직 신경망 토폴로지에서만 랜덤 포레스트와 그라디언트 부스트 결정 트리를 구성 할 수 있습니다.

인공 신경망으로 모든 것을 표현할 수 있다면 인공 신경망을 정의하는 것은 무엇입니까?



답변

위르겐 슈미트 후버, “ 신경망의 딥 러닝 : 개요 “는 신경망 및 딥 러닝의 주요 개념의 역사를 추적합니다. 그의 관점에서, 신경망은 각 노드가 일부 계산 단위를 나타내는 방향 그래프로 특징 지을 수있는 모든 모델을 본질적으로 포함하는 것으로 보인다. Schmidhuber는 유명한 신경망 연구자이며 Sepp Hochreiter와 함께 LSTM 네트워크에 대한 원본 논문을 썼습니다.

학습 시스템의 어떤 수정 가능한 구성 요소가 성공 또는 실패를 담당합니까? 어떤 변화가 성능을 향상 시킵니까? 이것을 근본적인 신용 할당 문제라고 부릅니다 (Minsky, 1963). 다양한 이론적 의미에서 시간 최적화 된 범용 문제 해결사에 대한 일반적인 신용 할당 방법이 있습니다 (섹션 6.8). 그러나 이번 조사는 인공 신경망 (NN)에서 딥 러닝 (Deep Learning, DL)의 더 좁지 만 상업적으로 중요한 서브 필드에 초점을 맞출 것이다.

표준 신경망 (NN)은 뉴런이라고하는 단순하고 연결된 많은 프로세서로 구성되며, 각각은 실제 활성화 된 활성화 시퀀스를 생성합니다. 입력 뉴런은 환경을 인식하는 센서를 통해 활성화되고 다른 뉴런은 이전에 활성화 된 뉴런의 가중치 연결을 통해 활성화됩니다 (2 절의 세부 정보). 일부 뉴런은 행동을 유발함으로써 환경에 영향을 줄 수 있습니다. 학습 또는 학점 할당은 NN이 자동차 운전과 같은 원하는 행동을 나타내는 가중치를 찾는 것입니다. 문제와 뉴런이 어떻게 연결되어 있는지에 따라, 그러한 행동은 계산 단계의 긴 인과 관계 체인 (3 절)을 필요로 할 수 있으며, 여기서 각 단계는 네트워크의 전체 활성화를 변환합니다 (종종 비선형 방식으로). 딥 러닝은 여러 단계에 걸쳐 정확하게 크레딧을 할당하는 것입니다.

이러한 단계가 거의없는 얕은 NN 형 모델은 몇 세기가 아니라도 수십 년 동안 사용되어왔다 (5.1 절). 여러 연속적인 비선형 뉴런 층을 가진 모델은 적어도 1960 년대 (5.3 절)와 1970 년대 (5.5 절)로 거슬러 올라갑니다. 역 전파 (BP)라고하는 불연속적이고 차별화 된 임의의 깊이의 네트워크에서 교사 기반 SL (Survised Learning)을위한 효율적인 경사 하강 법이 1960 년대와 1970 년대에 개발되었으며 1981 년에 NN에 적용되었습니다 (5.5 절). 그러나 여러 계층의 심층 NN에 대한 BP 기반 교육은 1980 년대 후반 (Sec. 5.6) 실제로는 어려웠으며, 1990 년대 초까지 명백한 연구 주제가되었습니다 (Sec. 5.9). DL은 Unsupervised Learning (UL)의 도움을 받아 실질적으로 실현 가능해졌습니다 (예 : Sec. 5.10 (1991), Sec. 5.15 (2006). 1990 년대와 2000 년대에도 순전히 감독 된 DL (Sec. 5)이 많이 개선되었습니다. 새로운 밀레니엄에서 깊은 NN은 마침내 수많은 중요한 애플리케이션에서 커널 머신 (Vapnik, 1995; Scholkopf et al., 1998)과 같은 대체 머신 러닝 방법을 능가하여 광범위한 관심을 끌었습니다. 실제로 2009 년부터 감독 된 딥 NN은 많은 공식적인 국제 패턴 인식 대회 (예 : 5.17, 5.19, 5.21, 5.22)에서 우승하여 제한된 영역에서 최초의 초인적 시각 패턴 인식 결과를 달성했습니다 (2011 년 5 월 19 일). 심층 NN은 또한지도 교사가없는 일반 강화 학습 (RL)과 관련이 있습니다 (6 절). 많은 중요한 응용에서 커널 머신 (Vapnik, 1995; Scholkopf et al., 1998)과 같은 대체 머신 러닝 방법보다 성능이 우수합니다. 실제로 2009 년부터 감독 된 딥 NN은 많은 공식적인 국제 패턴 인식 대회 (예 : 5.17, 5.19, 5.21, 5.22)에서 우승하여 제한된 영역에서 최초의 초인적 시각 패턴 인식 결과를 달성했습니다 (2011 년 5 월 19 일). 심층 NN은 또한지도 교사가없는 일반 강화 학습 (RL)과 관련이 있습니다 (6 절). 많은 중요한 응용에서 커널 머신 (Vapnik, 1995; Scholkopf et al., 1998)과 같은 대체 머신 러닝 방법보다 성능이 우수합니다. 실제로 2009 년부터 감독 된 딥 NN은 많은 공식적인 국제 패턴 인식 대회 (예 : 5.17, 5.19, 5.21, 5.22)에서 우승하여 제한된 영역에서 최초의 초인적 시각 패턴 인식 결과를 달성했습니다 (2011 년 5 월 19 일). 심층 NN은 또한지도 교사가없는 일반 강화 학습 (RL)과 관련이 있습니다 (6 절). 최초의 초 인간적인 시각 패턴 인식을 달성하면 제한된 영역 (Sec. 5.19, 2011)이됩니다. 심층 NN은 또한지도 교사가없는 일반 강화 학습 (RL)과 관련이 있습니다 (6 절). 최초의 초 인간적인 시각 패턴 인식을 달성하면 제한된 영역 (Sec. 5.19, 2011)이됩니다. 심층 NN은 또한지도 교사가없는 일반 강화 학습 (RL)과 관련이 있습니다 (6 절).

반면에 머신 러닝 전략을 위해 상호 배타적 인 버킷 분류를 구성하는 것이 반드시 수익성이 있는지 확실하지 않습니다. 모델을 신경망으로 볼 수있는 관점이 있다고 말할 수 있습니다. 나는 모든 관점에서 관점이 반드시 최고이거나 유용하다고 생각하지 않습니다. 예를 들어, 나는 여전히 임의의 숲과 그라디언트 부스트 트리를 구별을 추상화하고 “신경 네트워크 트리”라고 부르는 대신 “트리 앙상블”이라고 언급하려고합니다. 또한 Schmidhuber는 커널 시스템이 NN과 연결되어 있음에도 불구하고 NN과 커널 시스템을 구별합니다. 주로 수많은 중요한 응용 프로그램에서 커널 머신과 같은 대체 머신 러닝 방법을 능가합니다. “


답변

ANN의 기본 정의를 원한다면, 입력 및 출력이 활성화 함수를 통해 각 노드에서 처리되고 대부분의 시간 경사 하강이 ANN을 훈련시키는 데 사용되는 지정 그래픽 모델이라고 말할 수 있습니다. 문제는 실제로 어떤 모델이 그래픽 모델로 표현 될 수 있는가하는 것입니다.

나는 전문가는 아니지만 이론적으로 일부 ANN은 튜링 완료로 표시 될 수 있다고 믿습니다. 즉 가능한 무한한 계산을 수행 할 수 있어야합니다. 자원의 수를 마음).

또한 다음과 같은 방법으로 귀하의 질문을 해석하겠습니다.

주어진 모델에 대해 가능한 한 가깝고 합리적인 시간 내에 해당 모델을 에뮬레이션하기 위해 ANN 모델을 함께 사용할 수 있습니까?

바닐라 신경망은 헤비 사이드 단계 활성화를 사용하여 의사 결정 트리를 에뮬레이션 할 수 있습니다. 문제는 이러한 단위 활성화의 그라데이션이 0이므로 정상적인 그라데이션 하강이 작동하지 않는다는 것입니다. “문제 없습니다. 수정 된 형태의 그라데이션 하강을 사용하십시오.” 그러나 여전히 충분하지 않습니다. 더 좋은 예를 들어, 그라디언트 부스팅 포리스트가 아닌 XGBOOST와 같은 것을 사용하십시오. 분할 점 선택, 가지 치기, 속도 최적화 등의 추가 작업이 많이 있습니다. 충분히 수정 한 후에는 비슷한 모양의 ANN을 만들 수 있지만 그러한 ANN이 최소한 글쎄, 아니면 작업을 수행하도록 최적화되어 있는지 여부.

에프(엑스)=이자형엑스


답변

아마도 ANN에 대한보다 정확한 이름은 “차별 가능한 네트워크”, 즉 경사 하강 또는 그 변형을 사용하여 최적화 할 수있는 복잡한 매개 변수화 된 기능 일 것입니다. 이것은 차별화를 강조하는 매우 일반적인 정의이지만 주요 아이디어, 적합한 작업, 기본 수학 프레임 워크 등에 대해서는 아무 것도 말하지 않습니다.

차별화는 특성이며 필수는 아닙니다. 예를 들어, 경사 하강을 사용하여 SVM을 학습 할 수 있으므로 신경 / 차별 가능한 네트워크의 속성을 보여 주지만 주요 아이디어는 하이퍼 플레인을 사용한 데이터 분리에 있습니다. 변형 자동 인코더는 인코더 및 디코더에 MLP를 사용하지만 최적화하는 기능은 베이지안 통계 등에서 비롯됩니다.

신경망이라고도하지만 학습에 GD를 사용하지 않는 몇 가지 모델도 있습니다. 좋은 예는 RBM입니다. 내 생각에 “신경망”이라는 레이블은 대부분 역사적 이유로 붙어 있습니다. 결국 RBM의 제작자는 Geoffrey Hinton이고 힌튼은 신경망을 가진 사람입니다. 그러나 모델을 분석하면 RBM의 구조가 Markov net 인 것을 알 수 있습니다. 에너지 기반 비용 함수는 20 세기 초의 통계 물리학에서 나 왔으며 MCMC / Gibbs 샘플링은 신경망과 병렬로 완전히 독립적으로 개발되었습니다 .


답변

신경망을 정의하는 데 도움이되는 몇 가지 사항을 가정하려고 할 수 있습니다.

  • 조정 가능한 매개 변수가있는 계산 그래프.
  • 상기 파라미터는 데이터 (실제 또는 시뮬레이션)에 맞게 조정될 수있다.
  • 최적화 될 목적 함수는 내재적으로 또는 명시 적으로 관련됩니다. 전역 또는 로컬 매개 변수 일 수 있습니다.

나는 이것이 오늘날 일반적으로 사용되는 모든 신경망과 일부 난해한 네트워크를 포함한다고 확신합니다.

그래디언트 기반 최적화를 적용하면 진화 된 네트워크는 신경망이되지 않습니다.

뉴런 / 노드 또는 레이어 (오늘날 일부 신경망은 이러한 용어로 거의 설명되지 않음)는 언급하지 않지만, 우리는이를 통합하여 조금 더 제한적이라고 생각합니다.


답변