[Book] 빅데이터가 만드는 세상 (빅토르 마이어 쇤버거, 케네스 쿠키어)

데이터 기반의 의사결정은 사람의 직관 대비 효과적인 결론에 이르게 해줄 수 있다. 사실 사람은 전체를 편향 없이 요약하는 것이 거의 불가능하다고 생각되기 때문이다.
하지만 데이터 프로세싱은 기계에게 맞기더라도 새로운 패러다임은 결국 사람의 직관, 창의성에서 나온다. 아주 창조적인 아이디어가 한 축에, 어마어마한 데이터와 그것을 분석할 수 있는 기술이 다른 한 축에서 우리 사회를 이끌어나갈 것이다. 그 주체가 민간이든 정부든 간에 말이다. 
책에서 상관성과 인과성에 대한 논의를 많이 다루었다. 나는 하나의 컨셉이 다른 하나를 완전히 대체할 수는 없다고 생각한다. 두 개념 모두가 상호 보완적으로 상황을 설명하고 문제를 해결하는 데에 사용될 것이다.
다만 어느 개념을 활용할 때 적은 비용으로 더 효과적인 결과를 얻을 것이냐의 문제에 직면하게 될 것이고, 그것은 그때 그때(문제 해결의 목적과 허용할 수 있는 오차 범위 등에 따라) 다른 결론이 날 수 있다. 
Ch1. 현재
  • (데이터가) 경제 인풋으로서 새로운 형태의 경제적 가치를 창출하는 원료가 된 것이다. 사실 제대로 된 사고방식이 가미된다면 데이터는 영리하게 재사용되어 새로운 서비스와 혁신의 원천이 될 수 있다.
  • 이때 출현한 것이 구글의 매리듀스나 맵리듀스의 오픈 소스 버전이라 할 수 있는 야후의 하둡같은 새로운 데이터 처리 기술이다. 이것들을 이용하면 이전보다 훨씬 더 많은 양의 데이터를 다룰 수 있을 뿐만 아니라, 특히 정렬되지 못하거나 전형적인 데이터베이스 표에 맞지 않는 데이터까지도 다룰 수 있다.
  • 빅데이터란 큰 규모를 활용해 더 작은 규모에서는 불가능했던 새로운 통찰이나 새로운 형태의 가치를 추출해내는 일이다.
  • 빅데이터 시대는 우리가 사는 방식, 세상과 소통하는 방식에 도전한다. 그중에서도 가장 두드러진 부분은 사회가 인과성에 대한 그동안의 집착을 일부 포기하고 단순한 상관성에 만족해야 할 것이라는 점이다.
  • 양이 바뀌면 본질이 바뀐다.
  • 빅 데이터의 핵심은 예측에 있다. (…) 빅 데이터는 엄청난 양의 데이터에 수학을 적용해 확률을 추론하려는 노력이다.
  • 샘플링은 정보 부족 시대의 발명품이다.
  • 하지만 전체 데이터를 사용하면 작은 규모의 데이터로는 파악할 수 없었던 세부 사항들을 볼 수 있다. 빅 데이터를 통해 우리는 낱개 하나하나를 선명하게 볼 수 있고, 샘플로는 알아낼 수 없는 하위 범주와 하위 시장들을 찾을 수 있다.
  • 빅데이터는 들쭉날쭉하고, 속성이 서로 다르며, 전세계 수많은 서버에 산재해 있는 경우가 많다. (…) 미시적 차원의 정확성을 잃는 대신 거시적 차원의 통찰을 얻는 것이다.
  • 앞의 두 변화로부터 세번째 변화가 생긴다. 바로 인과관계 추구라는 오래된 습관에서 멀어지는 일이다.
  • 데이터를 분석하는 사람들은 데이터가 단일 목적으로만 가치 있다고 가정하는 아날로그 패러다음에서 벗어나지 못한 경우가 너무 많았다.
  • 정보에 내포된 잠재적 가치를 끌어낼 수 있다.
  • 사람들은 데이터에서 추출할 수 있는 통찰과 인과관계를 상관과녜로 바꾸었을 때 드러날 잠재적 가치를 찾아 나선다.
  • 우리가 가진 데이터는 어마어마한 규모이고 빠르게 처리될 수 있으며 부정확성이 용인된다. 게다가 데이터의 방대한 크기 때문에 인간이 아닌 기계가 결정을 내리는 경우가 많아질 것이다.
  • 데이터를 통제하고 다루는 방식은 여러모로 달라져야 할 것이다. 지금 다가올 세상은 데이터에 기초한 예상이 난무하는 세상이다. 왜 그런 결정을 내리게 되었는지 아무도 이유를 설명할 수 없을지 모른다.
Ch2. 많아진 데이터
  • IBM의 빅 데이터 전문가 제프 조너스는 ‘데이터가 말하도록’해야 한다고 강조한다.
  • 더 큰 데이터를 수집하고 사용할 수 있게 되었건만 우리는 새로 얻은 이 자유를 아직 제대로 즐기지 못하고 있다. 정보의 이용 가능성에는 한계가 있다는 가정하에 경험을 쌓고 제도를 만들어왔기 때문이다.
  • 무작위 샘플링 조사의 정확성은 샘플 데이터를 수집할 때 무작위성을 얼마나 확보할 수 있는지에 달려 있다. 그런데 이 무작위성을 얻는 것은 쉬운 일이 아니다. 데이터를 수집하는 방식에 체계적 편향이 있을 경우 산정된 결과치는 완전히 다른 수치가 나올 수도 있다.
  • 더 문제가 되는 것은 무작위 샘플의 경우 하위 범주를 포함하도록 크기를 조정하기가 어렵다는 점이다. 결과를 쪼개 더 작은 하위 그룹으로 나누게 되면 예측이 잘못될 가능성이 높아진다.
  • (일부만 분석하는 경우) 분석 회사는 찾고자 하는 것을 싼값에 빠르게 찾을 수 있지만 미리 준비해두었던 질문이 아닌 것에는 답을 줄 수 없다.
  • 물론 어떤 때에는 샘플링 외에는 다른 대안이 없는 경우도 있지만, 이미 많은 영역에서 일부의 데이터를 수집하는 대신 가능한 많은 데이터를, 나아가 전체 데이터를 수집하는 쪽으로 추세가 바뀌고 있다.
  • 예컨대 신용카드 사기를 감지할 때는 비정상적 행태를 찾아내야 하고, 그 최선의 방법은 샘플이 아닌 데이터 전체를 분석하는 것이다.
  • 빅 데이터를 이용하는 조사는 처음 보는 바다에 낚싯대를 드리우는 것과 같다.
  • 빅 데이터는 전체 정보, 혹은 가능한 많은 정보에 의존하기 때문에 세부 사항들을 볼 수 있고 모호해질 염려 없이 새로운 분석을 할 수 있다. 또 다양한 세분화 수준에서 새로운 가설들을 확인해볼 수도 있다.
  • (빅데이터 분석이 스몰데이터 분석과 상반되는 결과 도출)네트워크의 구조의 안정성이라는 측면에서 봤을 때, 친한 친구를 많이 가진 사람보다 친하지 않은 사람들과 연락이 닿는 사람이 훨씬 더 중요할 거라고 누가 생각이나 해보았을까?
Ch3. 들쭉날쭉한 데이터
  • 지금 소굴하는 새로운 많은 상황에서는 부정밀성을 용인하는 것이 단점이 아니라 오히려 긍정적 특징일지 모른다.
  • 예컨대 규모의 이점을 얻을 수 있다면 데이터가 일부 들쭉날쭉한 경우도 수용할 수 있을 것이다.
  • 알고리즘이 좋은 것보다 데이터가 많은 편이 훨씬 더 효과적이라는 사실이 여실히 증명된 사례는 자연어 처리(natural language processing)부문이다.
  • 언뜻 직관에 반하는 소리처럼 들릴지 모르지만, 데이터를 불완전하고 부정확한 것으로 취급하면 더 나은 예측을 할 수 있고 세상을 더 잘 이해할 수 있다.
  • 그래서 기존의 깔끔한 분류 체계가 있던 자리에 새로운 메커니즘이 등장하고 있다. – ‘태그’
  • 가장 흔히 쓰이는 데이터베이스 접근 언어는 오랫동안 SQL이었다. 하지만 최근 몇 년 사이 트렌드는 noSQL이라고 하는 언어 쪽으로 크게 이동했다. noSQL은 미리 정해진 레코드 구조가 필요하지 않다. noSQL은 다양한 종류와 크기의 데이터를 수용하면서도 검색이 성공적으로 수행되게 해준다. 이런 데이터베이스 설계는 들쭉날쭉한 구조를 허용하는 대신 데이터 처리와 스토리지용 자원을 더 많이 필요로 한다.
  • 하둡은 데이터의 양이 숨 막히게 거대해서 이동이란 불가능하고 지금 그 위치에서 분석되어야 하는 것을 당연한 것으로 가정한다.
Ch4. 인과성과 상관성
  • 아마존에 이어 수천개의 웹사이트들이 고객들에게 상품, 콘텐츠, 친구, 집단을 추천할 수 있게 됐다. 사람들이 왜 그 추천 목록에 흥미를 가질 가능성이 높은 것인지 이유는 모르는 채로 말이다.
  • 어떤 현상을 분석할 때 상관성은 그 현상의 내부 원리를 알 수 있는 해결의 실마리를 제공해줄 뿐만 아니라, 무엇이 내부 원리를 아는 데 유용한 대용물이 될 수 있는지 알려준다.
  • 상관성에는 확신은 없다. 개연성이 있을 뿐이다. 하지만 상관성이 강하다면 관련이 있을 가능성은 높다.
  • 빅 데이터 시대에는 오로지 가설에만 의지해 어떤 변수를 검토할지 결정하는 것은 더 이상 효율적이지 않다.
  • 가설에 의한 접근법을 데이터에 의한 접근법으로 대체하는 것이다. 이렇게 하면 편향은 덜하고 정확성은 더 높은 결과를 훨씬 더 빠르게 얻게 될 것이다.
  • 딜로이트 컨설팅에서 개발한 아비바의 예측 모델은 건강 위험 요소를 확인하는 데 성공적인 것으로 생각되었고, 프루덴셜이나 AIG같은 다른 보험사들도 비슷한 방법을 검토했다.
  • 기본적으로 타깃이 쓰는 방법은 최대한 많은 데이터를 수집한 후 상관성이 알아서 해답을 발견하게 하는 것이었다.
  • 이것은 보통 고장이 한번에 갑자기 일어나지 않고 천천히 조금씩 진행된다는 점에 착안한 것이다. 센서 데이터가 있으면 상관분석이나 기타 유사한 방법을 통해서 고장 전에 전형적으로 발생하는 특정 패턴이나 징조가 무엇인지 알 수 있다.
  • 이런 비인과적 분석 덕분에 ‘이유’가 아닌 ‘결론’을 묻는 방식으로 세상을 이해하게 될 것이다.
  • 처음에는 이런 얘기가 직관에 반하는 소리처럼 들릴지 모른다. 무엇보다 우리는 인간이기에 인과적 연결을 통해 세상을 이해하고 싶기 때문이다.
  • 빅 데이터는 이 두 가지 방식 모두의 역할을 바꿔놓을 것이다. 첫 번째는 인과적 연관을 찾고 싶은 우리의 직관적 욕구다.
  • 빅 데이터와 상관성은 느린 사고(인과성을 검토하는 두 번째 방식)의 역할에도 변화를 가져올 것이다.
  • 상관성을 통해 먼저 중요한 변수의 단서를 포착한 다음 그것을 가지고 실험에서 인과성을 조사하면 된다.
  • 그런데 비인과적 분석은 점점 더 많은 분야에서 느린 인과적 사고보다도 더 유용하고 효율적인 툴이 되고 있다. 조심스럽게 통제된(그래서 비용과 시간이 많이 드는) 실험보다 말이다.
  • ‘이론의 종말’이라는 주장은 물리학이나 화학과 같은 실질적 분야에는 이론이 존재했지만 빅 데이터 분석에는 그 어떤 개념적 모델도 필요치 않다고 암시하는 것 같다. (…) 빅 데이터 그 자체도 이론 위에 세워져 있다. (…) 마찬가지로 데이터를 분석할 때는 툴을 선택해야 하는데 그 툴은 이론에 의존한다. 결과를 해석할 때도 우리는 이론을 적용한다. 빅 데이터의 시대에도 이론은 분명히 존재한다. 이론은 처음부터 끝까지 자리를 지키면서 다른 모든 결과를 이끈다.
Ch5. 데이터화
  • 항로를 데이터화했던 모리 이야기. 그는 이렇게 썼다. ‘이렇게 해서 젊은 선원은 경험의 빛이 자신을 비출 때까지 더듬어 앞으로 나아가는 대신 …… 자신에게는 이미 수천 명의 항해사들의 경험이 있고 그 경험이 앞길을 인도해줄 것임을 알게 될 것이다.’
  • 데이터화 vs. 디지털화. 디지털화란 아날로그 정보를 컴퓨터가 처리할 수 있도록 2진법 코드의 0과 1로 만든다는 뜻이다. 어떤 현상을 데이터화 한다는 것은 표로 만들고 분석이 가능하도록 그 현상을 수량화된 형태로 만든다는 뜻이다. (스캔한 문서 그 자체는 디지털화의 결과물이이지만, 데이터화 된 것은 아니다. 스캔한 문서 상의 텍스트가 인식이 된다면 비로소 데이터화가 된 것)
  • 수량화할 수 있는 정보를 얻기 위해서는, 즉 데이터화하기 위해서는 대상을 측정할 방법과 기록할 방법을 알아야 한다. 그러려면 딱 맞는 툴이 필요하다.
  • 수학은 데이터에 새로운 의미를 부여했다. 데이터가 이제 단순히 기록되거나 꺼내보는 것을 넘어 ‘분석’될 수 있게 된 것이다.
  • 구글은 정보가 데이터화되었을 때만 풀려날 수 있는 가치들이 정보 속에 저장되어 있다는 점을 이해했다. 그래서 구글은 디지터 이미지를 읽고 그 안에 있는 글자와 단어, 문장, 단락을 인식할 수 있는 광학식 문자인식 소프트웨어를 사용했다. 이때의 결과물은 디지털화된 사진이 아니라 데이터화된 텍스트였다.
  • 이제 책에 있던 정보는 인간 독자만이 이용할 수 있는 형태가 아니라 컴퓨터가 처리하고 알고리즘이 분석할 수 있는 형태가 됐다.
  • 컬처로믹스: 텍스트의 양적 분석을 통해 인간 행동과 문화 트렌드를 이해하는 컴퓨터 어휘학이다.
  • 출판사들은 수년간 전자책을 가지고 실험해왔지만, 책의 핵심 가치를 콘텐츠라고 보았지 데이터라고 생각하지는 않았기에 그들의 비즈니스 모델 역시 이런 생각에 기초해 만들어졌다.
  • 일단 세상이 데이터화되고 나면 정보의 잠재적 용도를 제한하는 것은 기본적으로 개인의 창의력뿐이다.
  • 현실의 수많은 측면을 데이터로 바꾼다는 것이 지금 사람들에게는 참신하게 보일 수도 있다. 하지만 미래에는 분명 이것을 당연히 주어져 있는 것으로 여길 것이다.
Ch6. 가치
  • 데이터는 오랫동안 소중한 가치를 지니고 있엇지만 사업을 운영하는 핵심적인 것들에 대한 보조적 역할로만 비쳐지거나 지적재산 혹은 개인 정보라는 상대적으로 좁은 범위에 한정된 것으로 여겨졌다. 그러나 빅 데이터 시대에는 모든 데이터가 그 자체로 소중하게 여겨질 것이다.
  • 데이터는 같은 목적으로 여러 번 사용될 수도 있지만, 서로 다른 여러 목적으로 활용될 수도 있다는 점이 더 중요하다. 빅 데이터 시대에 얼마나 많은 정보가 우리에게 가치를 가질지 이해하려면 이 점을 잘 알아야 한다.
  • IBM은 운전자가 자동차 배터리를 충전해야 할 최적의 시간과 장소를 결정할 수 있었다. 또한 충전소는 어디에 짓는 것이 가장 좋을지도 밝혀냈다.
  • 이 시스템은 한 가지 목적으로 생성된 정보를 다른 목적으로 사용한다. 다시 말해 데이터가 1차적 용도에서 2차적 용도로 옮겨간다.
  • 데이터의 진짜 가치는 바다 위에 떠 있는 빙산과 같다. 처음에는 아주 조그만 부분밖에 눈에 봉지 않지만 수면 아래에는 많은 부분이 숨겨져 있다.
  • 데이터의 옵션 가치를 깨우는 강력한 방법이 세 가지 있다. 바로 기본적 재사용, 데이터 집합 합치기, ‘반값 할인’찾기다.
  • 데이터 재사용이 가지는 가치는 커다란 데이터 집합을 수집, 통제하면서도 지금 당장은 제대로 활용하고 있지 못한 오프라인 위주의 전통적 기업과 같은 회사들에게는 좋은 뉴스다. 이들은 아직 손대지 않은 정보의 샘을 깔고 앉아 있는 것인지도 모른다.
  • 하나의 데이터 집합을 다른 것과 결합해야만 잠들어 있는 가치를 깨울 수 있는 경우도 있다. 그리고 이런 경우 데이터 집합들은 서로 완전히 다른 종류일지도 모른다.
  • 데이터 재사용을 가능하게 만드는 한 가지 방법은 데이터를 처음 설계할 때부터 여러 목적에 맞출 수 있게 확장 가능하도록 만드는 것이다.
  • 다양한 종류의 데이터, 혹은 더 많은 데이터를 수집하기 위해 들어가는 추가 비용은 높지 않은 경우가 많다. 따라서 처음부터 잠재적인 2차 용도를 염두에 두고 확장 가능한 데이터, 그리고 최대한 많은 데이터를 수집하는 편이 합리적이다.
  • 모든 데이터가 같은 속도로 혹은 같은 방식으로 가치가 하락하지는 않는다. 그렇기 때문에 일부 회사들은 데이터를 최대한 오래 보관하려고 애쓴다.
  • 전자책 단말기는 이용자가 치는 밑줄, 여백에 적는 메뫄지 기록한다. 읽기라는 행위는 오랜 세월 혼자만 하는 일이었지만 이런 정보들이 모이면 읽기도 이제 일종의 공동 경험이 된다. 단말기에 데이터 잔해가 축적되면 출판사나 저자들은 이전에 알 길이 없었던 내용을 수량화된 형태로 알 수 있다.
  • 유다시티, 코세라, 에드엑스 같은 온라인 교육 프로그램도 생각해볼 수 있다. 이들 프로그램은 웹상에서 학생들의 반응을 추적해 교육적으로 어떤 것이 가장 효과적인지 알아낸다. 강의를 듣는 학생이 수만 명 규모이므로 엄청난 양의 데이터가 만들어진다. 교수들은 학생들 중 다수가 강의 중 특정 부분을 반복해서 시청했다는 사실을 알 수 있고, 이를 통해 학생들이 그 부분을 잘 이해하지 못했음을 짐작할 수 있다.
  • 최근에는 정부가 보유한 데이터에서 가치를 가장 잘 추출하는 방법은 민간 부문과 사회에 일반적 저븐권을 허용하는 것이라는 생각이 커지고 있다.
  • 전 세계적으로 ‘정부 데이터 개방’ 운동이 수없이 일어났다. 정부는 수집한 데이터의 관리인에 불과하고 민간 부문과 사회가 정부보다 혁신적이므로 정부는 시민들을 위해, 그리고 상업적 목적으로도 데이터를 개방해야 한다는 주장이다.
  • 회계의 어려움과 법적 책임에 대한 걱정이 완화되면 데이터의 가치가 새로운 자산 종류로서 기업 재무제표에 표시될 것은 거의 확실한 일이다.
  • 데이터는 플랫폼이다. 새로운 재화와 비즈니스 모델을 만들어내기 위한 벽돌이기 때문이다.
Ch7. 영향
  • 지금까지 생겨난 빅 데이터 회사들은 제공하는 가치에 따라 세 종류로 나눌 수 있다. 그 가치는 각각 데이터, 기술, 아이디어다.
  • 세 번째는 아이디어, 즉 빅 데이터 사고방식이다. 어떤 회사들은 성공의 주된 원인이 데이터나 노하우에 있지 않다. 이들 기업이 두각을 나타내는 것은 설립자나 직원들에게 데이터에서 새로운 형태의 가치를 추출할 수 있는독창적인아이디어가 있기 때문이다.
  • (…) 하지만 기술에 대한 지대한 관심과 데이터의 중요성을 얕보는 풍조는 얼마 못 가 사라질지도 모른다. 업계가 진화함에 따라 배리언이 말하는 기술이 흔해지면 인력 부족은 극복될 것이기 때문이다.
  • 외부의 기술 회사가 얼마나 유용한 서비스를 제공할 수 있는지 보여주는 또 다른 놀라운 사례를 의료 데이터 영역에서 찾을 수 있다. 워싱턴 D.C.에 있는 메드스타 워싱턴 병원 센터는 마이크로소프트 리서치와 공동으로 마이크로소프트 아말가라는 소프트웨어를 사용해 익명 처리된 다년간의 의료 기록(환자에 대한 인구통계적 자료, 테스트 결과, 진단, 치료 등)을 분석했다. 재입원율과 감염률을 줄일 방법을 찾기 위해서였다. 이 두 가지는 의료 서비스 분야에서 가장 높은 비용을 차지하는 영역에 속했으므로 이들 비율을 낮출 수만 있다면 엄청난 비용을 절약할 수 있었다.
  • 빅 데이터를 보유한 회사들은 데이터에서 가치를 추출하기 위해 전문가에게 의지한다. 아낌없는 찬사와 ‘데이터 닌자’같은 근사한 직명에도 불구하고 기술 전문가로 사는 것은 겉보기만큼 항상 매력적이지는 않다.
  • 세 번째 카테고리는 빅 데이터 사고방식을 가진 회사와 개인들로 이뤄진다. 이들의 강점은 남들보다 먼저 기회를 알아본다는 점이다. 그 기회를 실행에 옮길 데이터나 기술이 없더라도 말이다. 아마도 그런 것을 가지지 못한 외부인이기 때문에 오히려 자유로운 상상이 가능한 것일 수도 있다. 실행 가능성에 구애받지 않고 무엇이 가능한지를 보는 것이다.
  • 요즘 자동차에는 마이크로칩이나 센서, 소프트웨어가 장착되어 있어 차량을 서비스받을 때 성능에 관한 데이터를 자동차 회사의 컴퓨터로 업로드한다. 전형적인 중간급 차량의 경우 이제 보통 40여 개의 마이크로프로세서를 장착하고 있다.
  • 빅 데이터의 가치 사슬에서 가장 큰 가치를 손에 쥐는 사람은 누구일까? 현재까지의 대답은 빅 데이터 사고 방식을 가진 자들, 즉 혁신적 아이디어를 가진 쪽인 것 같다.
  • 빅 데이터의 초기 단계에 불과한 현재로서는 아이디어와 기술이 가장 큰 가치를 지닌 것 같다. 하지만 결국에 가면 대부분의 가치는 데이터 자체에 있을 것이다. 왜냐하면 우리는 정보를 가지고 더 많은 것을 할 수 있게 될 것이고, 데이터 보유자들은 자신이 소유한 자산의 잠재적 가치를 더 잘 알게 될 것이기 때문이다.
  • 하지만 장기적으로 데이터 보유자들이 부상할 것이라는 전망에는 주의가 필요한 중요한 측면이 있다. 일부 경우에는 ‘데이터 중개인’들이 나타나서 복수의 출처로부터 데이터를 수집하고 취합한 후 혁신적인 일들을 할 것이라는 점이다.
  • 인릭스는 독립 데이터 중개인의 전형이다. 인릭스는 수많은 라이벌 자동차 회사들로부터 정보를 수집하기 때문에 그 어느 회사가 단독으로 할 수 있는 것보다 더 가치 있는 결과를 만들어낸다.
  • 예일 대학의 경제학자이자 법학 교수인 이언 에어스는 자신의 저서인 <슈퍼 크런처스>에서 사람들은 직감이 들더라도 통계 분석 때문에 어쩔 수 없이 다시 한 번 생각하게 된다고 주장했다.
  • 우리는 많은 영역에서 전공별 전문가들의 영향력이 줄어드는 것을 보고 있다. 미디어 영역을 보면 허핑턴 포스트나 고커, 포브스 같은 웹사이트에서 어떤 콘텐츠가 만들어지고 발표될지는 사람인 편집자가 아니라 데이터가 정기적으로 결정한다.
  • 이것은 직장에서 성공하는 데 필요한 역량이 바뀌고 있음을 보여준다.
  • 분명 전공별 전문가들은 사라지지 않을 것이다. 다만 그 우월성이 줄어들 것이다. 이제부터는 빅 데이터 전문가들과 무대를 나눠 써야 하기 때문이다. 인과성이라는 왕자가 상관성이라는 거지에게도 세상의 이목을 나눠줘야 하는 것처럼 말이다.
  • 수학과 통계학, 그리고 약간의 프로그래밍과 네트워크 과학이 직장 생활의 기본이 될 것이다.
  • (경제학에서 얘기하는) 규모는 중요하지만 여기에도 변화가 있었다. 이제 중요한 것은 데이터의 규모다. 대량의 데이터를 보유하면서 더 많은 데이터를 쉽게 수집할 수 있어야 한다.
  • 개인 정보에 대한 소유권은 개별 소비자들에게 전에 없던 힘을 실어줄지도 모른다. 사람들은 누가 얼마만큼 자신의 데이터를 사용 허가 받을지 스스로 결정하기를 바랄 수도 있다.
Ch8. 리스크
  • 사람들이 행동하기도 전에 그들을 판단하고 벌주기 위해 빅 데이터 예측을 사용한다면 이런 일이 벌어질 수 있다. 그리고 이것은 공정, 정의, 자유 의지라는 개념을 무효화시켜버린다.
  • (빅데이터의 2차 용도로의 사용에 대하여) 아직 존재하지도 않는 목적을 위해 기업들은 어떻게 고지를 할 수 있을까? 아직 모르는 용도에 대해 개인들은 어떻게 고지에 입각한 동의를 할까?
  • 빅 데이터 시대에는 사생활을 보호하기 위해 오랫동안 사용되어온 세 가지 핵심 전략들(개별적 고지와 동의, 탈퇴, 익명화)이 모두 효력을 많이 상실한다.
  • 기업과 정부가 우리의 개인 정보를 알 수 있다는 사실이 골치 아픈 것만큼이나 새롭게 빅 데이터의 문제점으로 부각되고 있는 것이 있다. 바로 우리를 판단하기 위해 예측을 사용하는 일이다.
  • 미래에 일어날 가능성이 있는 어떤 행동에 대해 그 사람을 비난하는 것은 정의의 기초를 무너뜨리는 일이다. 정의란 어떤 사람이 무슨 일을 저질렀을 때에만 그에게 책임을 물을 수 있는 것이다.
  • 빅 데이터 예측이 완벽하다면, 알고리즘이 우리의 미래를 완전무결하고 분명하게 예견할 수 있다면, 앞으로 우리에게 행동의 선택권이란 없을 것이다.
  • 그런 시스템이 있으면 사회는 좀 더 안전하거나 효율적일지도 모른다. 하지만 그렇게 된다면 우리를 인간으로 만들어주는 근본적 부분(자기 행동을 자기가 선택하고 그것에 대해 책임을 지는 것)이 파괴될 것이다. 빅 데이터는 사회에서 인간의 선택을 집단화하고 자유의지를 폐기하는 데 사용되는 툴이 되어 있을 것이다.
  • 상관성에 기초하고 있는 빅 데이터는 우리가 인과성을 판단하고 개인의 책임을 묻는 과정을 돕기에는 전적으로 부적합한 툴이다.
  • 문제는 인간이 세상을 원인과 결과라는 렌즈를 통해 보려고 한다는 점이다. 그래서 빅 데이터는 인과적 목적에 남용될 위험을 언제나 안고 있다.
  • (데이터의 독재) 탁월한 생각은 데이터에 의존하지 않는다. 스티브 잡스가 수년간 지속적으로 맥 노트북을 개선할 때는 현장 보고서를 기초로 삼았을지도 모른다. 하지만 그가 아이팟이나 아이폰, 아이패드를 출시할 때 기초로 삼았던 것은 자신의 직관이지 데이터가 아니었다.
Ch9. 통제
  • 수십 년간 전 세계적으로 사생활 보호법의 핵심적 원칙은 개인들에게 통제권을 주는 것이었다. (…) 인터넷 시대에는 ‘고지와 동의’라는 정형화된 시스템으로 바뀐 경우가 많았다. 그러나 빅 데이터 시대에는 데이터의 가치가 많은 부분 2차적 용도에 있다. 그리고 이 2차적 용도는 데이터가 수집될 당시에는 상상하지 못했던 것일 수도 있기 때문에 바로 앞에서 말한 것과 같은 방법은 더 이상 적합하지 않다.
  • 대중으로부터 데이터 이용자에게도 책임을 이전하는 것은 여러 가지 이유에서 합리적이다. 우선 해당 데이터를 어떻게 사용할 의도인지에 대해서는 그 누구보다 회사가, 소비자나 규제 기관보다 훨씬 더 잘 안다. 자체적으로 평가를 실시함으로써(혹은 전문가를 고용해서 실시함으로써) 회사는 회사 기밀인 사업 전략이 외부에 노출될 위험을 피할 수 있다. 그리고 가장 중요한 것은 데이터의 2차적 용도로 인해 가장 많은 이득을 챙기는 것은 데이터 이용자이므로 그들이 자신들의 행동에 대해 책임을 지고 검토 의무도 지는 편이 공정하다.
  • 데이터의 잠재적 가치를 꺠워야만 현대판 모리 선장들이 스스로를 위해 혹은 사회를 위해 데이터로부터 최대한의 가치를 끌어낼 수 있기 때문이다.
  • 개인 동의에서 데이터 이용자의 책임으로 통제의 형태가 바뀌는 것은 빅 데이터를 효과적으로 다스리기 위해 꼭 필요한 근본적 변화다.
  • 우리는 인간 행위 원칙이 확실히 보장되어야만 정부가 단순한 빅 데이터 분석이 아니라 진짜 행동에 기초해서 우리의 행위를 판단할 것임을 보장할 수 있다.
  • 빅 데이터 규제의 큰 기둥은 ‘객관적으로’데이터를 분석해서 범법자일 가능성을 판단하는 것이 아니라, 계속해서 사람들을 개인적 책임과 실제 행동에 의거해 판단할 거라는 확실한 보장이다. 그래야만 인간을 인간으로서 대우하는 것이다.
  • (…) 이와 같은 시나리오들에서 우리는 빅 데이터 예측과 그 배후에 있는 알고리즘 및 데이터 집합이 블랙박스가 되어버릴 위험이 있다는 것을 알 수 있다. 책임도, 추적 가능성도, 확신도 없는 블래각스 말이다.
  • 알고리즈미스트 (조직 내/외부에서 빅 데이터 예측의 정확성가 유효성에 대한 검토)… 이 새로운 전문직 종사자들은 컴퓨터 과학, 수학, 통계학 분야의 전문가들일 것이다. 그리고 이들은  빅 데이터 분석과 예측의 검토자로서 활동할 것이다.
Ch.10 다음
  • 플라워스는 뉴욕 시의 첫 ‘분석 국장’이 됐다.
  • 플라워스 팀은 대체로 수집된 이후 재사용된 적이 없는, 몇 년간 묵혀 있던 엄청난 양의 데이터를 새로운 방식으로 활용해 진짜 가치를 뽑아냈다. 다량의 정보를 사용하자 더 적은 정보로는 찾아낼 수 없었던 연결점들을 찾을 수 있었다.
  • 궁극적으로 빅 데이터는 ‘정보사회’라는 단어가 약속했던 것을 마침내 완수하는 순간을 나타낸다. 데이터가 무대의 중심에 서는 것이다. 그동안 우리가 수집해놓은 그 모든 디지털 비트들이 이제는 참신한 방식으로 활용되어 새로운 목적에 쓰이고 새로운 형태의 가치를 만들어낼 수 있다.
  • 정확하고 정밀하며 말끔하고 엄밀한 데이터에 집착하는 대신 기준을 조금은 더 느슨하게 풀어줘도 좋다.
  • (…) 하지만 발명을 촉발하는 것은 데이터가 말해주지 않는 무엇이다. 아무리 많은 양의 데이터가 있어도 확인할 수도, 입증할 수도 없는 어떤 것이 발명을 낳는다.
  • 빅 데이터 세상에서 키워나가야 할 것은 우리의 가장 인간적인 특징들, 즉 창의성, 직관, 지적 포부 등이다. 독창성이야말로 진보의 원천이니까 말이다.

답글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.