Tag Archives: данные

Не плюй в колодец

The Lost Family: How DNA Testing Is Upending Who We Are

Примерно 30 миллионов человек сделали “развлекательные” тесты ДНК в сервисах типа 23andme, большинство из них – жители США. Тесты эти почти игрушечные, но в одном работают неплохо – показывают степень родства между людьми. В принципе, существующего покрытия тестами американцев достаточно, чтобы для любого из них получить информацию о родственниках хотя бы в третьем колене. И тут, конечно, открылся портал во вселенную сценариев мыльных опер. На Амазоне уже с десяток разных книжек про драмы, которые принесли внезапные результаты теста, я прочитала эту – потому что про нее написали в NYT, так бы я этот новый жанр и не увидела.

Книжка устроена как рассказ о мире любительских ДНК-тестов вообще и приправлена частными историями. Основной сюжет – как невероятно крутая пенсионерка Элис, которая ведет чудесную гиковскую жизнь, почти случайно заказала тест 23andme, плюнула в пробирку, получила результат – и уже не знала, что и думать. Она была старшей из семи детей в семье ирландских католиков, которые всегда гордились этой своей ирландской идентичностью. А результаты тестов показывают, что Элис ирландка только на половину, а вторая половина – откуда-то из Восточной Европы. Первая мысль – ошибка теста – оказалась неверной.

Вторая гипотеза тоже очевидна. Таких ситуаций, когда внезапно вскрывается, что человек всю жизнь считал своим отцом мужчину, с которым биологически никак не связан, ДНК-тесты вскрывают достаточно часто (хотя и не в трети случаев, как говорит расхожая байка), для них уже придумали название NPE – non-parent event, люди, сделавшие такое открытие, пишут о себе: я – NPE, созданы группы поддержки, сообщества, терапия разная. Очень часто за этим стоит усыновление или ЭКО с использованием донорской спермы. Раньше было принято скрывать такие вещи, но вполне безвинные семейные тайны потом больно бьют по людям – вроде бы ничего не меняется фактически, но внезапно осознание себя, своей роли в семье и в мире страшно меняется.

Некоторые находят в базах сразу десять своих сводных братьев и сестер – это означает, что отцом был донор спермы. Тоже непростая ситуация, потому что когда-то донор заключал сделку, условием которой была анонимность и отсутствие возможности найти его выросшим детям. А теперь к порогу приходят толпы потомков, которые хотят познакомиться – и это не то, на что человек рассчитывал тридцать лет назад. Как потомки находят папеньку? Даже если донор не прошел ДНК-тест, кто-то из его родственников почти наверняка уже в базе, есть методы деанонимизации.

И здесь со всеми этими тайнами рождения интересные вещи происходят. Описывается несколько случаев, когда взрослый человек – усыновленный или никогда не имевшей связи с отцовской или материнской ветвью семьи – с помощью архивов и поиска по документам находил родственников. И это очень важное событие, потому что жизнь прожита с этой пустотой на месте кровной семьи, без знания, кто ты есть на самом деле. Мне это чувство не может быть понятно, потому что я к знанию своих корней по умолчанию привыкла, как к части тела, но думаю, что да, это важно, как часть тела. Часто замечательно получается: внезапно у человека отрастает новая ветка – с кузенами, сводными братьями и сестрами, и они чувствуют глубокое родство. Уже все взрослые, и прямая помощь не нужна, просто жизнь достраивается до полноты. День Благодарения за общим столом, Рождество, походы – а потом кто-то плюет в пробирку и оказывается, что нет, все-таки они не родственники. Документы документами, но просто совпало – в тот самый день несколько младенцев подкинули в бэби-бокс, несколько младенцев усыновили, и никакой кровной связи, на самом деле нет. Этот сценарий из раза в раз повторяется – но иногда получается так, что чужие люди становятся родными, потому что считают, что они связаны биологически – и это абсолютная ценность а потом, когда биология опровергается, продолжают считать себя близкими людьми, потому что семья важнее всего, а что такое сейчас семья, довольно трудно понять.

Здесь в комплект, конечно, стоит послушать книжку Эндрю Соломона New Family Values, в которой он рассказывает об удивительно разных по своему устройству семьях. Есть термин “нуклеарная семья”, обозначающая родителей и их несовершеннолетних детей. Эта метафора обнаруживает второй слой – когда-то Бор придумал нуклеарную модель атома, и все подумали, что поняли основу бытия, а потом поняли, как заблуждались, и что материя, в каком-то упрощенном представлении состоит из атомов, но квантовая механика куда как сложнее, и ткань мира состоит из многих разных частиц, связанных с собой не только электромагнитным взаимодействием.

В США отдельная уникальная ситуация сложилась. Там исследование семейной истории давно является почтенным хобби для среднего класса – кто-то ведет род от первых поселенцев и страшно этим гордится, кто-то под влиянием мормонской идеи спасения душ предков через посмертное крещение этим занимается – чтобы спасти предков, нужно точно их знать. Мормоны внесли колоссальный вклад в дело исследования семейных историй, влили прорву денег, с 1930 года они сохраняли микрофильмами архивные записи со всего мира, с 1965 работает общедоступный подземный ковчег данных, куда отовсюду приезжают люди, чтобы неделями искать свое прошлое. Там одних волонтеров работает по 400 человек каждую неделю. Уже в 1879 в NYT была заметка, где США назвали самой хорошо происследованной с точки зрения генеалогии нацией в мире. До эпохи ДНК-тестирования уже были базы данных документов и рынок других инструментов для любителей – как всегда в США примерно все превращается в хорошо работающий бизнес с множеством удобных штук. По подсчетам, средний любительский бюджет такого исследователя семейного прошлого составлял около 500 $ в год – на журналы, выписки, поездки, мастер-классы и встречи.

Первая компания, поставляющая домашние тесты – FamilyTreeDNA основал такой любитель семейной истории. Гринспан узнал, что в университете делают ДНК-исследования, определяющие примерные регионы расселения предков, позвонил туда и спросил, можно ли купить у них пару наборов для тестирования. Ему сказали, что не продают такое. “А кто продает?” – “Да никто!”. И это была идея, которая сделала немолодого генеалога-дилетанта основателем инновационного бизнеса.

Тут, конечно, нельзя не вспомнить еще одну книжку – роман Синклера Льюиса “Кингсблад – потомок королей”. Там в небольшом городке Кингсблады задавались, что ведут род от легендарной личности, одного из отцов-основателей поселения, некого Кингсблада, пока главный герой не раскопал в архивах, что их прославленный предок был негром. Тогда еще негласно работало правило “одной капли” – не важно, какая у тебя доля африканской крови, все равно ты негр. Тайна мгновенно вырвалась на свободу, все эти почтенные люди превратились в негров, прелестную рыженькую дочь героя перестали пускать в школу, все друзья отвернулись, в лавке не продавали продукты, прислуга ушла, соседи уже начали кроить простыни на колпаки с дырками для глаз. Почитайте, если настроение есть, Синклер Льюис вообще отличный автор, с большим чувством юмора. Даже “У нас это невозможно”, которую тоже стоит прочитать, смешная книжка, хотя и пугающая до заикания.

В “Сломанном дереве” описывается похожая ситуация, хотя и без Ку-Клус-Клана – как один парень всегда считал, что он итальянец по крови, даже ездил в Сицилию, вдохнуть воздух исторической родины. Даже взял имя Розарио Кастрономо, пел оперные партии и взращивал в себе итальянскую идентичность. ДНК-тест показал, что он на 18% африканец, немного индеец и чуть-чуть азиат. Продолжил исследовать, узнал, что его бабушка по материнской линии вышла замуж за чернокожего, и в сороковых годах его дед отправился в тюрьму за открытый брак с белой женщиной. Поэтому его мать воспитывалась в приюте и семейная история всегда была покрыта тайной. К счастью, этот герой оказался стойким духом человеком и принялся погружаться в свою новую идентичность. Не всем это удается.

Одна из главных героинь книги – Элис, которая оказалась не настолько ирландкой, как она привыкла думать, посвятила разгадке тайны пару лет своей жизни – протестировала не меньше двадцати человек из числа родственников, стала экспертом по анализу данных генома (ее брат даже специальное приложение сделал), встретилась с предполагаемыми родственниками много раз, вручную перебрала все документы закрытого уже роддома, где появился на свет ее отец. Вместе с сестрами, братьями, двоюродным братом, который оказался ей вовсе не братом, они дошли до правды, и эта история закончилась вполне счастливо.

Я когда-то даже купила набор 23AndMe, но так и не воспользовалась. С вливанием своих генетических данных в мировую сингулярность я решила подождать, пока это еще возможно. Тут же в чем штука: мой генокод – не совсем мой, он наполовину моей сестры, наполовину родителей и наполовину моего сына, на четверть – двоюродных братьев и сестер, и так далее, и не очень ясно, как можно этим предельно личным и предельно распределенным распоряжаться. Это размен развлечения на включение в чужую базу персональных данных, последствия которого мне не до конца ясны. Однажды все там окажутся, разумеется, но не обязательно делать это своими руками.

Матрица слышит, матрица знает

Dataclysm: Who We Are (When We Think No One’s Looking)

Сейчас много разных книжек о том, как большие данные меняют все. Прям меняют все. Эта – хорошая, потому что ее написал не журналист, опрашивающий специалистов, а сооснователь и CEO дейтингового сервиса OkCupid, автор блога OkTrends, математик и наблюдатель за подопечной ему жизнью. Люди ищут пару через сервис, обмениваются сообщениями, ставят друг другу лайки, ходят на свидания и влюбляются а Кристиан смотрит на них сверху, как мальчик на муравейник.

Сначала я подумала, что у автора вместо книжки получилось расширенное и уточненное издание его блога. Но через несколько дней после того, как я дочитала последнюю страницу, я поняла, что это впечатление было поверхностным. Все-таки книжка.

В чем разница? В эээээ сверхидее. Наблюдая за расправами над гусеницами и изменением рисунка муравьиных тропинок, Кристиан увидел лес. Он не пишет прямым текстом никаких манифестов или тезисов, не раскрывает “21 секрет человеческой природы”, но книжка сама по себе оказалась по-хорошему морализаторской. Неважно, что ты говоришь и думаешь о себе, твоя суть –  в ежедневных мелких поступках. Посреди морального релятивизма и оттенков серого есть объективная, холодная правда о каждом человеке. Все наши поступки так или иначе фиксируются, ничто не проходит без следа.

Люди считают, что важно найти человека по совпадению в глобальных вещах типа религии или политических взглядов. Я либерал и атеист, поэтому мне нужен атеист и либерал. Факты, миллионы фактов показывают, что все это ерунда, и намного показательней совпадение в ответах на менее холиварные вопросы типа “любите ли вы фильмы ужасов” и “выезжали ли вы когда-нибудь за границу”. Почему? Потому что характеристика “я – атеист” это, по большей части, надуманность, которая почти не связана с реальностью. А путешествия – это правда, правда, в которой лучше совпадать.

Принято думать, что общий круг общения – это хорошо, но вот анализ данных показывает, что отношения в паре прочнее, если вокруг каждого из супругов есть собственное облако связей. На этой картинке

OkCupid2

более устойчивая пара – та, что справа. Все желающие могут посмотреть, как это выглядит у них на специальном сервисе.

Пропасть между тем, что мы думаем о себе, и нашими настоящими взглядами и принципами – одна из главных тем книги. OkCupid – американский сервис, поэтому у смелого автора есть замечательный материал для исследования расхождений между декларированными, внушенными ценностями и действительным отношением. Люди всех цветов кожи равны и одинаково хороши? Да – на словах, нет – на деле. От совсем простых поступков вроде оценки внешности, которая проходит на сайте мимоходом (это не приглашение на свидание, не сообщение конретному человеку) до серьезных вещей, например, голосования за чернокожего кандидата.

Оценка внешности людей разных рас

На этой замечательной табличке – уже обработанные данные об отклонениях от среднего в оценках внешности женщин разных рас мужчинами разных рас. Видно много удивительных вещей. Азиаты самые замкнутые на своих. Чернокожих женщин все считают менее красивыми, даже свои же чернокожие мужчины (вот людишки, а). Латиноамериканки получают больше всех бонусов к внешности, что, на мой взгляд, немудрено.

Впрочем, слова тоже имеют значение, если их много, очень много. Автор перетряс личные сообщения пользователей и выделил группы слов, наиболее уникальные для разных категорий пользователей. Не часто употребляемые, не самые важные, и не самые типичные а те, которые есть у одних и практически отсутствуют у остальных.

Для белых мужчин, например, такие слова-маркеры – это мои голубые глаза, светлые волосы, охота и рыбалка, работа по дереву, реднек, Роберт Хайнлайн. Для мужчин-азиатов – высокий для азиата, Сеул, инфернальный, кантонец, таец, Сеул. А для латиноамериканцев – сальса, меренга, коррида. В книге много таких таблиц, удивительно интересно. Аналогично можно выявить анти-слова для разных групп. У латиноамериканцев будет “южный акцент”, а у темнокожих женщин “автозагар”. Автор отмечает, что алгоритм, который выдает в списке антислов для чернокожих женщин “автозагар”, должен быть неплох.

В этом деле с данными

“Датаклизм” делает уникальной доступ автора к живым данным хорошего сервиса – достаточно большого, чтобы выборки были релевантными, достаточно маленького, чтобы такая книжка вообще была возможна. Понятно, что Twitter и Facebook ничего подобного не допустит. Все выкладки Кристиана вполне этичны, но по ним становится ясно, как далеко заходит уже настоящий, неигровой анализ данных в больших конторах. Там уже все ушло намного дальше банальщины типа показа рекламы, соответствующей пользовательскому профилю. Одна надежда, что громоздкая структура крупных организаций тормозит работу – пока проведут десять совещаний по проекту, чтобы начать уже познавать нашу истинную природу, технари успеют слегка переделать архитектуру, а начальство – перевести курирующего вицепрезидента на другой сектор.

Прочее чтение  о жизни в мире тотального сбора и обработки данных: