Thursday 2 August 2018

Cет Cтивенс-Давидовиц "Все лгут. Поисковики, Big Data и Интернет знают о вас всё"


Прочитал. Интересно. 
Автор имел доступ к статистике запросов Гугла, на основании их анализа делал выводы. 
Еще раз, статистика запросов, анализ по ключевым словам. То есть это поиск корреляций, не причинно следственных связей, а корреляций. Приводит примеры своей работы, своих выводов. Это хорошо. К сожалению тематика очень ограничена - секс, для привлечения внимания; анализ расистских настроений в разных штатах для объяснения победы Трампа. Очень интересен анализ запросов во время и сразу после речи Абамы, после терактов совершенных мусульманами - реально, "нам не дано предугадать, чем слово наше отзовется". Да, это работа с большими данными.
Если говорить о big data (в более традиционном понимании), то скорее история по обработке налоговых данных. Там есть интересный момент длительная обработка огромного массива не дала ничего нового пока задавались стандартными вопросами. Но исследователи сумели/догадались спросить то, о чем никогда себя не спрашивали (региональные особенности) и получили неожиданные и интересные данные.
Книга простым языком показывает, что можно попытаться найти в куче, на первый взгляд, не предназначенных для данной задаче данных. Вывод - работа с  big data, пока, искусство возможного. То есть не вариант - у нас есть данные и мы что-то обнаружим. 
Во-первых, что?  - постановка задачи - если вы не знаете о существовании черной кошки, то вы не станете искать ее в темной комнате; во-вторых, как? - как анализировать, как интерпретировать; в-третьих, и чё?  - найденные закономерности могут быть очевидны, а могут быть не нужны. 
Прочитать стоит. Даже просто ради интересных фактов.  Можно и задуматься о методах, но именно задуматься. Это не учебник и не монография, популярное чтиво неплохого уровня.