나는 최근에 큰 데이터 세트로 작업 해 왔으며 많은 스트리밍 방법 논문을 발견했습니다. 몇 가지 예를 들면 다음과 같습니다.
- 규제 리더 및 미러 하강 : 등가 이론 및 L1 정규화 ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
- 스트리밍 학습 : 단일 패스 SVM ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
- Pegasos : SVM을위한 Primal Estimated sub-GrAdient SOlver http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
- 또는 여기 : SVM은 한 번에 하나의 예제를 학습 할 수 있습니까?
- 랜덤 포레스트 스트리밍 ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )
그러나 서로 비교하는 방법에 관한 문서를 찾을 수 없었습니다. 내가 읽은 모든 기사는 다른 데이터 세트에서 실험을하는 것으로 보입니다.
나는 sofia-ml, vowpal wabbit에 대해 알고 있지만 방대한 양의 기존 방법과 비교할 때 매우 적은 방법을 구현하는 것 같습니다!
덜 일반적인 알고리즘은 성능이 충분하지 않습니까? 가능한 많은 방법을 검토하려는 논문이 있습니까?
답변
연결 한 Delgado 논문과 유사한 여러 알고리즘에 대한 엄격한 조사는 내가 아는 한 이용할 수 없지만 알고리즘 계열에 대한 결과를 수집하려는 노력이있었습니다.
다음은 유용하다고 생각되는 출처입니다.
- 데이터 스트림 분류를위한 앙상블 학습에 대한 설문 조사 (Survey)
- 온라인 학습 및 온라인 볼록 최적화 (기술 보고서)
- 빅 데이터 스트림의 온라인 기계 학습 (설문 조사)
- 데이터 스트림을위한 기계 학습 (도서)
- 진화하는 데이터 스트림에 대한 회귀 트리 및 앙상블 학습 알고리즘 (PhD 논문)
- 개념 표류 학습 : 개요 (설문 조사)
- 최적의 적응 형 온라인 학습 (PhD 논문)
- 데이터 스트림 및 빈번한 패턴에 대한 적응 형 학습 및 마이닝 (PhD 논문)
일부 소프트웨어 패키지 :
필요한 경우 더 많은 정보와 소스를 추가 할 수 있습니다. 다른 사람들이 말했듯이이 분야는 포괄적 인 설문 조사를 사용할 수 있습니다.