빅 데이터 란 정확히 무엇입니까? 여기서 가설을 공식화 한 다음

나는 여러 차례 질문을 받았다.

빅 데이터 란?

학생들과 친척 모두 통계와 ML에 대한 화제가되고 있습니다.

CV-post를 찾았 습니다 . 그리고 나는 거기에 유일한 대답에 동의한다고 생각합니다.

위키 백과 페이지는 또한 몇 가지 의견이 있지만 난 정말이 모든에 동의하면 나는 확실하지 않다.

편집 : (나는 Wikipedia 페이지가 이것을 다루는 방법과 아래 언급 한 패러다임을 설명하는 데 부족하다고 생각합니다 .)

나는 최근 Emmanuel Candès 의 강의에 참석 하여 Big-Data 패러다임을 소개했습니다.

먼저 데이터 수집 나중에 질문

이것은 가설을 기반으로 한 연구와의 주요 차이점입니다. 여기서 가설을 공식화 한 다음 데이터를 수집하여 이에 대해 이야기합니다.

그는 데이터 스누핑에 의해 생성 된 가설의 신뢰성을 정량화하는 문제에 많은 관심을 기울였습니다. 나는 그의 강의의 꺼내서 중요한 것은 우리가 정말 제어하기 시작하는 데 필요한 것이 었습니다 FDR을 그가 제시 스킨 냄새 그렇게 할 방법을.

CV는 Big-Data가 무엇이고 정의가 무엇인지에 대해 질문을해야한다고 생각합니다. 나는 너무 많은 다른 “정의들” 이 있다고 생각하는데, 그것이 무엇인지에 대한 일반적인 합의가 없다면, 그것이 무엇인지 실제로 이해하거나 다른 사람들에게 설명하기가 어렵다.

나는 느낌 “정의 / 패러다임 / 설명” 당신의 생각은 무엇인가, Candès에 의해 제공 내가 동의 가장 가까운 일이?

EDIT2 : 대답은 데이터 자체에 대한 설명 이상의 것을 제공해야한다고 생각합니다. 데이터 / 방법 / 패러다임의 조합이어야합니다.

EDIT3는 : 나는 느낌 이 인터뷰 마이클 조던과 함께뿐만 아니라 테이블에 무언가를 추가 할 수 있습니다.

EDIT4 : 나는 가장 높은 투표 답변을 올바른 답변으로 선택하기로 결정했습니다. 모든 답변이 토론에 무언가를 추가한다고 생각하지만 개인적으로 이것이 가설을 생성하고 데이터로 작업하는 방법에 대한 패러다임의 문제라고 생각합니다. 이 질문이 Big-Data가 무엇인지 찾는 사람들에게 참고 자료로 사용되기를 바랍니다. FDR의 다중 비교 문제와 제어를 더욱 강조하기 위해 Wikipedia 페이지가 변경되기를 바랍니다.



답변

저는 RStudio 명성의 Hadley Wickham 박사의 강의에 참석 한 것을 기쁘게 생각했습니다. 그는 그것을 정의했다

  • 빅 데이터 : 한 컴퓨터의 메모리에 맞지 않음 :> 1TB
  • 중간 데이터 : 서버의 메모리에 적합 : 10GB-1TB
  • 작은 데이터 : 노트북의 메모리에 적합 : 10GB 미만

Hadley는 또한 대부분의 데이터는 최소한 다루기 쉬운 문제로 줄일 수 있으며, 실제로는 소량의 데이터가 실제 빅 데이터라고 믿고 있습니다. 그는 이것을 “빅 데이터 신기루”로 표시합니다.

  • 서브 셋팅 / 샘플링 / 요약으로 90 %의 중소 데이터 문제로 줄일 수 있습니다
  • 9 % 매우 적은 수의 작은 데이터 문제로 줄일 수 있습니다
  • 1 %는 엄청나게 크다

슬라이드는 여기 에서 찾을 수 있습니다 .


답변

4 개의 V를 모두 만족하는 경우 데이터 세트 / 스트림을 빅 데이터라고합니다.

  • 음량
  • 속도
  • 정확성
  • 종류

만족하지 않으면 데이터 세트를 빅 데이터라고 부를 수 없습니다.

참고로 내 비슷한 대답입니다.


데이터 과학자로서 Map-Reduce 프레임 워크가 정말 좋습니다. 데이터를 분할하고 매핑 한 다음 매퍼 단계의 결과가 단일 결과로 줄어 듭니다. 이 프레임 워크가 정말 매력적이며 데이터 세계에 어떤 혜택을 주 었는지 알 수 있습니다.

그리고 이들은 매일 업무 중에 데이터 문제를 처리하는 몇 가지 방법입니다.

  1. 컬럼 데이터베이스 : 이들은 데이터 과학자에게 도움이됩니다. 내가 사용하는 AWS 레드 시프트 내 원주 데이터 저장소로합니다. 복잡한 SQL 쿼리를 실행하는 데 도움이되고 고통을 덜어줍니다. 특히 성장 팀이 복잡한 질문을 할 때 정말 좋습니다. “예, 쿼리를 실행했습니다. 하루 만에 얻을 수 있습니다!”
  2. 스파크 및 맵 축소 프레임 워크 : 이유는 위에서 설명했습니다.

그리고 이것은 데이터 실험이 수행되는 방식입니다.

  • 답변해야 할 문제가 식별되었습니다
  • 가능한 데이터 소스가 이제 나열됩니다.
  • 파이프 라인은 로컬 데이터베이스에서 데이터를 Redshift로 가져 오도록 설계되었습니다. 그래, 스파크가 온다. DB의-> S3-> Redshift 데이터 이동 중에 정말 유용합니다.
  • 그런 다음 Redshift의 데이터에 대해 쿼리 및 SQL 분석이 수행됩니다.

예, 하이퍼 로그 로그 등과 같은 빅 데이터 알고리즘이 있습니다. 그러나 나는 그것들을 사용할 필요성을 찾지 못했습니다.

예. 데이터는 가설을 생성하기 전에 먼저 수집됩니다.


답변

빅 데이터의 유용한 정의 는 특정 현상에 대한 모든 정보 를 카탈로그 화하는 데이터라고 생각합니다 . 내가 의미하는 바는 관심있는 일부 모집단에서 샘플링하여 해당 단위에 대한 일부 측정 값을 수집하는 것이 아니라 관심있는 전체 모집단에 대한 측정 값을 수집한다는 것입니다. Amazon.com 고객에 관심이 있다고 가정하십시오. Amazon.com은 일부 사용자 만 추적하거나 일부 트랜잭션 만 추적하는 것이 아니라 모든 고객 구매에 대한 정보를 수집 할 수 있습니다.

내 생각에, 데이터 자체의 메모리 크기에 의존하는 정의는 다소 제한적 유틸리티입니다. 이 측정법에 따르면 충분한 컴퓨터가 주어지면 실제로는 큰 데이터가 아닙니다. 무한대의 대형 컴퓨터에서이 주장은 환원적인 것처럼 보일 수 있지만 소비자 용 랩톱을 Google 서버와 비교하는 경우를 고려하십시오. 분명히 나는 ​​테라 바이트 단위의 데이터를 탐색하려고 시도하는 데 막대한 물류 문제가 있었지만 Google 은이 작업을 매우 쉽게 처리 할 수있는 리소스를 보유하고 있습니다. 더 중요한 것은 컴퓨터의 크기가 데이터의 본질적인 속성이 아니기 때문에 현재 보유하고있는 기술을 참조하여 데이터를 순수하게 정의하는 것은 팔 길이로 거리를 측정하는 것과 같습니다.

이 주장은 단순한 형식주의가 아닙니다. 컴퓨팅 능력이 충분 해지면 복잡한 병렬화 체계와 분산 컴퓨팅 플랫폼의 필요성이 사라집니다. 따라서 빅 데이터가 너무 커서 RAM에 맞지 않다는 정의를 받아들이면 (또는 엑셀 등의 충돌), 머신을 업그레이드 한 후 빅 데이터는 존재하지 않습니다. 바보 같네요

그러나 빅 데이터에 대한 데이터를 살펴 보도록하겠습니다.이를 “빅 메타 데이터”라고합니다. 이 블로그 게시물 은 중요한 추세를 관찰합니다. 사용 가능한 RAM이 데이터 크기보다 더 빠르게 증가하고 있으며 “빅 RAM이 큰 데이터를 먹고 있습니다”라고 도발적으로 주장합니다. 즉, 충분한 인프라가 있으면 더 이상 큰 데이터 문제가 없습니다. 데이터가 있고 기존 분석 방법의 영역으로 돌아갑니다.

또한 표현 방법마다 크기가 다르므로 메모리 내 크기와 관련하여 “빅 데이터”를 정의한다는 의미가 무엇인지 명확하지 않습니다. 많은 중복 정보가 저장되는 방식으로 데이터를 구성하는 경우 (즉, 비효율적 인 코딩을 선택하면) 컴퓨터가 쉽게 처리 할 수있는 임계 값을 쉽게 넘을 수 있습니다. 그러나 왜 정의에이 속성이 있어야합니까? 내 생각에, 데이터 세트가 “빅 데이터”인지 아닌지는 연구 설계에서 효율적으로 선택했는지 여부에 달려 있지 않아야합니다.

104

107

관찰 결과는 완벽합니다. 또한 빅 데이터는 내가 정의한대로 기존 통계에서 개발 한 것 이상의 특수 기술이 필요하지 않을 수도 있음을 의미합니다. 표본과 신뢰 구간은 외삽이 필요할 때 여전히 유용하고 유효한 추론 도구입니다. 선형 모델은 일부 질문에 완벽하게 수용 가능한 답변을 제공 할 수 있습니다. 그러나 내가 정의한 빅 데이터에는 새로운 기술이 필요할 수 있습니다. 훈련 데이터보다 예측 변수가 많거나 예측 변수가 데이터 크기에 따라 커지는 상황에서 새 데이터를 분류해야 할 수 있습니다. 이러한 문제에는 최신 기술이 필요합니다.


따로,이 질문은 정의가 왜 중요한지, 즉 주제를 정의하는 대상에 대해 암묵적으로 다루기 때문에 중요하다고 생각합니다. 1 학년 학생들을위한 추가에 대한 논의는 정해진 이론으로 시작하는 것이 아니라 실제 물체의 수를 세는 것으로 시작합니다. “빅 데이터”라는 용어는 대부분 대중 언론이나 통계 또는 기계 학습 전문가 (예 : 전문 분석을 요구하는 마케팅 자료)가 아닌 사람들 간의 커뮤니케이션에서 발생하는 경험으로, 현대의 컴퓨팅 관행이 악용 될 수있는 풍부한 정보가 있음을 의미한다고 생각합니다. 이것은 거의 항상 개인 정보가 아닌 경우 즉시 눈에 띄지 않는 소비자에 대한 정보를 나타내는 데이터와 관련이 있습니다.

따라서 “큰 데이터”의 일반적인 사용을 둘러싼 내포 및 분석은 데이터가 충분한 추론 적 방법을 적용 할 경우, 사람의 삶에 대한 모호하거나 숨겨져 있거나 개인적인 세부 사항을 드러 낼 수 있다는 아이디어를 전달합니다. 언론이 빅 데이터에 대해보고 할 때, 이러한 익명 성 악화는 일반적으로 그들이 추구하는 것입니다. 대중 언론과 비전문가들은 무작위의 장점에 대해 아무런 관심을 갖지 않기 때문에이 관점에서 “빅 데이터”를 정의하는 것은 다소 잘못된 것으로 보입니다. 포레스트 및 지원 벡터 머신 등은 서로 다른 규모의 데이터 분석 문제에 대한 감각이 없습니다. 그리고 이것은 괜찮습니다.그들의 관점에서의 관심은 정보화 시대의 사회적, 정치적, 법적 결과에 집중되어있다. 미디어 또는 비전문가에 대한 정확한 정의는 이해가 정확하지 않기 때문에 실제로 유용하지 않습니다. (나를 잘난 척하지 마십시오. 모든 사람이 모든 것에 대해 전문가가 될 수있는 것은 아니라는 것을 단순히 관찰하고 있습니다.)


답변

빅 데이터에 대한 거대한 문헌을 교차 점검하면서 최대 14 개의 “V”용어를 수집했으며 그 중 13 개는 약 11 차원을 따라 수집되었습니다.

  • 효력,
  • 값,
  • 변동성 / 변형,
  • 종류,
  • 속도,
  • 진실성 / 유의,
  • 생존 능력,
  • 가상 현실,
  • 심상,
  • 휘발성, 격하기 쉬움,
  • 음량.

14 번째 용어는 Vacuity입니다. 최근의 도발적인 게시물에 따르면 Big Data doess ‘s Exist . 주요 요점은 다음과 같습니다.

  • “빅 데이터”는 크지 않습니다
  • 대부분의 “빅 데이터”는 실제로 유용하지 않습니다
  • [우리는해야한다] 작은 데이터를 최대한 활용

빅 데이터의 적절한 정의는 하드웨어, 소프트웨어, 요구 및 지식에 따라 발전 할 수 있으며 고정 된 크기에 의존해서는 안됩니다. 따라서 빅 데이터 의 의미있는 정의 : 2011 년 6 월 : 혁신, 경쟁 및 생산성의 차세대 경계 :

“빅 데이터”는 일반적인 데이터베이스 소프트웨어 도구가 캡처, 저장, 관리 및 분석 할 수있는 능력을 넘어서는 데이터 세트를 의미합니다.


답변

사람들은 빅 데이터에서 예선 을 고수하는 것 같습니다 . 그러나 크기는이 용어 (도메인)의 구성 요소 중 하나 일뿐입니다. 그것은 당신의 데이터 세트가이었다 충분하지 않아 당신은 또한 그것을 이해하고 분석하고 심지어 처리하기 어려울 필요가 큰 데이터를 문제 (도메인)를 호출합니다. 어떤 사람들은이 기능을 비 구조적 이라고 부릅니다 . 그러나 그것은 서로 다른 조각과 데이터 요소 사이의 관계가 명확하지 않은 구조 일뿐입니다.

고 에너지 물리학 자들이 CERN 과 같은 곳에서 작업하고있는 데이터 세트를 고려하십시오 . 그들은 빅 데이터 용어가 만들어 지기 전에 몇 년간 페타 바이트 크기의 데이터를 사용해 왔습니다 . 그러나 지금도 그들은 내가 아는 한이 빅 데이터를 부르지 않습니다. 왜? 데이터는 다소 규칙적이므로 데이터를 어떻게 처리해야하는지 알고 있습니다. 그들은 모든 관찰을 아직 설명하지 못할 수도 있으므로 새로운 모델 등을 연구합니다.

이제 CERN의 LHC에서 몇 초 안에 생성 될 수있는 크기를 가진 데이터 세트를 처리하는 문제를 Big Data라고합니다. 그 이유는 이러한 데이터 세트는 일반적으로 형식이 다른 여러 소스, 데이터 간의 불명확 한 관계 및 비즈니스에 대한 불확실한 가치를 가진 여러 데이터 요소이기 때문입니다. 단지 1TB 일 수 있지만 모든 오디오, 비디오, 텍스트, 음성 등을 처리하는 것은 매우 어렵습니다. 따라서 필요한 복잡성과 리소스 측면에서 CERN 데이터의 페타 바이트보다 우선합니다. 우리는 데이터 세트에 식별 가능한 유용한 정보가 있는지조차 알지 못합니다.

따라서 빅 데이터 문제 해결에는 파싱, 알 수없는 값의 데이터 요소 추출 및 서로 연결이 포함됩니다. 이미지를 “파싱”하는 것은 큰 문제가 될 수 있습니다. 예를 들어, 도시의 거리에서 CCTV 영상을 찾고 사람들이 더 화를 내는지 여부와 보행자와 관련된 도로 사고에 영향을 미치는지 확인하려고합니다. 수많은 비디오가 있으며 얼굴을 찾고 표정으로 기분을 측정 한 다음 날씨 (예측, 온도) 및 교통 혼잡을 제어하면서 사고 수 데이터 세트, 경찰 보고서 등과 연결합니다. 다양한 종류의 이러한 대규모 데이터 세트를 지원하고 데이터를 서로 효율적으로 연결할 수있는 스토리지 및 분석 도구가 필요합니다.

빅 데이터는 복잡성이 그 크기와 구조 및 정보 인코딩의 복잡성에서 비롯되는 복잡한 분석 문제입니다.


답변

사람들이 빅 데이터에 대해 혼란스러워하는 이유는 그 이점을 보지 못했기 때문입니다. 빅 데이터 (기술)의 가치는 수집 할 수있는 데이터의 양뿐만 아니라 예측 모델링에도 중요합니다.

  1. 예측 모델링 은 통계 및 예측 방식을 완전히 변경하여 데이터에 대한 통찰력을 제공합니다. 새로운 모델, 새로운 기술로 더 나은 추세, 데이터 노이즈를 감지하고 “다차원”데이터베이스를 캡처 할 수 있기 때문입니다. 데이터베이스에 차원이 많을수록 좋은 모델을 만들 수있는 가능성이 높아집니다. 예측 모델링은 빅 데이터 가치의 핵심입니다.
  2. 빅 데이터 (데이터 크기 측면에서)는 예비 단계이며 다음과 같은 방법으로 예측 모델링을 제공합니다. 1. 예측 변수 수 (더 많은 변수), 2. 관측 수.

제한된 하드웨어 성능으로 인해 구조화되지 않은 데이터를 처리 할 수있는 제한된 용량으로 인해 이전에는 캡처 할 수 없었던 데이터를 캡처 할 수 있기 때문에 더 많은 예측 변수가 있습니다. 예측 변수가 많을수록 중요한 예측 변수를 가질 가능성이 높아집니다 (예 : 더 나은 모델, 더 나은 예측, 비즈니스에 대한 더 나은 의사 결정이 가능함).

더 많은 관측은 시간이 지남에 따라 모델을 더욱 견고하게 만들뿐만 아니라 모델이 실제로 제시 / 생성 할 수있는 모든 가능한 패턴을 배우고 감지하는 데 도움이됩니다.


답변

빅 데이터와 반의어 (아마도 스몰 데이터)에 대한 까다로운 점은 이것이 연속체라는 것입니다. 빅 데이터 사람들은 스펙트럼의 한쪽으로 가고 작은 데이터 사람들은 다른쪽으로 갔지만 모든 사람들이 동의 할 수있는 명확한 선은 없습니다.

나는 둘 사이의 행동 차이를 살펴볼 것입니다. 작은 데이터 상황에서는 “작은”데이터 세트가 있으며 가능한 한 모든 데이터 포인트에 대해 최대한 많은 정보를 제공하려고합니다. 더 많은 데이터를 얻으면 더 많은 결과를 얻을 수 있습니다. 그러나 더 많은 데이터를 얻는 것은 비용이 많이들 수 있습니다. 수집 한 데이터는 종종 흥미로운 행동을 선별하기 위해 부분적인 계승 테스트를 수행하는 것과 같이 수학적 모델에 적합하도록 제한됩니다.

빅 데이터 상황에서는 “빅”데이터 세트가 있지만 데이터 세트가 제한되지 않는 경향이 있습니다. 일반적으로 고객이 분석을 쉽게하기 위해 라틴 스퀘어 가구를 구매하도록 설득하지 않아도됩니다. 대신 구조화되지 않은 데이터의 덩어리와 덩어리가있는 경향이 있습니다. 이러한 문제를 해결하기 위해 목표는 작은 데이터에 익숙한 경우 순진하게 시도 할 수있는 것처럼 “최고의 데이터를 선택하고 가능한 한 모든 것을 짜 내지 않는”경향이 있습니다. 목표는 “모든 단일 데이터 포인트에서 작은 smidgen을 얻을 수 있다면 그 합계는 거대하고 심오 할 것입니다.”

그들 사이에는 중간 크기의 데이터 세트가 있으며 구조는 괜찮습니다. 이것들은 “정말 어려운 문제”입니다. 지금 우리는 두 개의 캠프로 구성하는 경향이 있습니다. 하나는 작은 데이터가 마지막 비트를 압착하고 다른 하나는 각 데이터 포인트가 자체적으로 빛을 내도록 관리하려고합니다. 권리. 앞으로 더 큰 데이터 세트에 적응하려고하는 더 작은 데이터 프로세스와 더 구조화 된 데이터를 활용하기 위해 더 큰 데이터 프로세스에 적응하려고합니다.