Матрица слышит, матрица знает

Dataclysm: Who We Are (When We Think No One’s Looking)

Сейчас много разных книжек о том, как большие данные меняют все. Прям меняют все. Эта – хорошая, потому что ее написал не журналист, опрашивающий специалистов, а сооснователь и CEO дейтингового сервиса OkCupid, автор блога OkTrends, математик и наблюдатель за подопечной ему жизнью. Люди ищут пару через сервис, обмениваются сообщениями, ставят друг другу лайки, ходят на свидания и влюбляются а Кристиан смотрит на них сверху, как мальчик на муравейник.

Сначала я подумала, что у автора вместо книжки получилось расширенное и уточненное издание его блога. Но через несколько дней после того, как я дочитала последнюю страницу, я поняла, что это впечатление было поверхностным. Все-таки книжка.

В чем разница? В эээээ сверхидее. Наблюдая за расправами над гусеницами и изменением рисунка муравьиных тропинок, Кристиан увидел лес. Он не пишет прямым текстом никаких манифестов или тезисов, не раскрывает “21 секрет человеческой природы”, но книжка сама по себе оказалась по-хорошему морализаторской. Неважно, что ты говоришь и думаешь о себе, твоя суть –  в ежедневных мелких поступках. Посреди морального релятивизма и оттенков серого есть объективная, холодная правда о каждом человеке. Все наши поступки так или иначе фиксируются, ничто не проходит без следа.

Люди считают, что важно найти человека по совпадению в глобальных вещах типа религии или политических взглядов. Я либерал и атеист, поэтому мне нужен атеист и либерал. Факты, миллионы фактов показывают, что все это ерунда, и намного показательней совпадение в ответах на менее холиварные вопросы типа “любите ли вы фильмы ужасов” и “выезжали ли вы когда-нибудь за границу”. Почему? Потому что характеристика “я – атеист” это, по большей части, надуманность, которая почти не связана с реальностью. А путешествия – это правда, правда, в которой лучше совпадать.

Принято думать, что общий круг общения – это хорошо, но вот анализ данных показывает, что отношения в паре прочнее, если вокруг каждого из супругов есть собственное облако связей. На этой картинке

OkCupid2

более устойчивая пара – та, что справа. Все желающие могут посмотреть, как это выглядит у них на специальном сервисе.

Пропасть между тем, что мы думаем о себе, и нашими настоящими взглядами и принципами – одна из главных тем книги. OkCupid – американский сервис, поэтому у смелого автора есть замечательный материал для исследования расхождений между декларированными, внушенными ценностями и действительным отношением. Люди всех цветов кожи равны и одинаково хороши? Да – на словах, нет – на деле. От совсем простых поступков вроде оценки внешности, которая проходит на сайте мимоходом (это не приглашение на свидание, не сообщение конретному человеку) до серьезных вещей, например, голосования за чернокожего кандидата.

Оценка внешности людей разных рас

На этой замечательной табличке – уже обработанные данные об отклонениях от среднего в оценках внешности женщин разных рас мужчинами разных рас. Видно много удивительных вещей. Азиаты самые замкнутые на своих. Чернокожих женщин все считают менее красивыми, даже свои же чернокожие мужчины (вот людишки, а). Латиноамериканки получают больше всех бонусов к внешности, что, на мой взгляд, немудрено.

Впрочем, слова тоже имеют значение, если их много, очень много. Автор перетряс личные сообщения пользователей и выделил группы слов, наиболее уникальные для разных категорий пользователей. Не часто употребляемые, не самые важные, и не самые типичные а те, которые есть у одних и практически отсутствуют у остальных.

Для белых мужчин, например, такие слова-маркеры – это мои голубые глаза, светлые волосы, охота и рыбалка, работа по дереву, реднек, Роберт Хайнлайн. Для мужчин-азиатов – высокий для азиата, Сеул, инфернальный, кантонец, таец, Сеул. А для латиноамериканцев – сальса, меренга, коррида. В книге много таких таблиц, удивительно интересно. Аналогично можно выявить анти-слова для разных групп. У латиноамериканцев будет “южный акцент”, а у темнокожих женщин “автозагар”. Автор отмечает, что алгоритм, который выдает в списке антислов для чернокожих женщин “автозагар”, должен быть неплох.

В этом деле с данными

“Датаклизм” делает уникальной доступ автора к живым данным хорошего сервиса – достаточно большого, чтобы выборки были релевантными, достаточно маленького, чтобы такая книжка вообще была возможна. Понятно, что Twitter и Facebook ничего подобного не допустит. Все выкладки Кристиана вполне этичны, но по ним становится ясно, как далеко заходит уже настоящий, неигровой анализ данных в больших конторах. Там уже все ушло намного дальше банальщины типа показа рекламы, соответствующей пользовательскому профилю. Одна надежда, что громоздкая структура крупных организаций тормозит работу – пока проведут десять совещаний по проекту, чтобы начать уже познавать нашу истинную природу, технари успеют слегка переделать архитектуру, а начальство – перевести курирующего вицепрезидента на другой сектор.

Прочее чтение  о жизни в мире тотального сбора и обработки данных: