Узнайте совместимость по знаку зодиака
Что исследователи могут найти среди 32 миллионов URL-адресов, которые Facebook только что опубликовал для Social Science One?
Проверка Фактов

Автор: Сергей Нивенс/Shutterstock
Социальные науки один , некоммерческая комиссия, созданная в 2018 году для установления конкретных партнерских отношений между учеными и учреждениями, богатыми данными, такими как Facebook, в настоящее время имеет 32 миллиона отдельных ссылок, извлеченных из сети социальных сетей Марка Цукерберга, по которым можно проводить исследования.
После неожиданной задержки почти на год что-то, что создало расстроен с основателями проекта, коалиция исследователей, наконец, получила от Facebook то, что считается «одним из самые большие наборы ссылок когда-либо созданных для академических исследований».
По крайней мере, так сказал IFCN Соломон Мессинг, бывший директор лаборатории данных Pew Researcher Center, а ныне менеджер по науке о данных в Social Science One.
Теперь группы исследователей, выбранные со всего мира, смогут использовать набор данных для выявления тенденций, закономерностей и популярных тем в мире контента на Facebook.
Согласно платформе, набор данных включает в себя количество раз, когда URL-адреса были опубликованы публично, дату, когда они были впервые опубликованы, дату, когда они были впервые проверены, страну, в которой они были наиболее распространены, а также сводку фактического содержания. содержится в URL-адресе.
Он также включает данные о взаимодействии с пользователем, в том числе количество раз, когда URL-адрес был отмечен пользователем как содержащий ложные новости, и количество раз, когда URL-адрес был передан без фактического нажатия.
Facebook заявил, что выбрал эти точки данных, потому что многие считают их индикаторами дезинформации. Отныне исследователи могут использовать их, чтобы понять, какие темы преобладают на платформе, или для создания моделей машинного обучения на основе этих шаблонов.
Чтобы получить доступ к набору из примерно 32 миллионов URL-адресов, ученые должны получить одобрение своих проектов комиссией Social Science One. Принятые предложения могут получить финансирование, данные и другие преимущества. И все полученные статьи могут быть опубликованы по желанию исследователя, без каких-либо дополнительных ограничений со стороны Facebook или комиссии.
«Мы продолжаем предоставлять дополнительные данные таким образом, чтобы защитить конфиденциальность людей», — сказал Мессинг. «Этот набор данных позволит исследователям ответить на важные вопросы о дезинформации и роли социальных сетей в обществе».
Ожидания высоки.
Задержка доставки данных
В апреле 2018 года, когда Facebook объявил он сотрудничал с учеными, чтобы предоставить им ценные данные для исследования дезинформации, ожидалось, что эти наборы данных будут занять некоторое время подготовить. Но не так долго.
В августе Новости Buzzfeed сообщил что спонсоры Social Science One, в том числе Фонд демократии, Фонд Уильяма и Флоры Хьюлетт, Фонд Джона С. и Джеймса Л. Найт, Фонд Чарльза Коха и Сеть Омидьяра, угрожали выйти из проекта из-за задержки.
Согласно отчету, они дали Facebook крайний срок 30 сентября, чтобы поделиться обещанными наборами данных, иначе проект подойдет к концу.
Однако в январе Social Science One уведомила в своем блоге, что Facebook потребуется больше времени, чтобы опубликовать набор данных URL, ссылаясь на соображения конфиденциальности.
«Facebook не только должен соблюдать новый Общий регламент ЕС по защите данных, а также аналогичные законы о конфиденциальности в юрисдикциях по всему миру, но также должен соблюдать указ о согласии Facebook с Федеральной торговой комиссией США», — говорится в сообщении. Сообщение блога читать. «Из-за беспрецедентного характера нашего проекта Facebook медленно и осторожно движется к тому, чтобы наш проект соответствовал всем применимым правовым нормам».
Набор данных был выпущен в середине сентября, как раз раньше крайнего срока, о котором сообщил Buzzfeed.
Как решались вопросы конфиденциальности?
Согласно Facebook, дифференциальная конфиденциальность была добавлена к URL-адресам, которые вошли в набор данных. Это означает, что вклад любого человека в данные был замаскирован.
Facebook заявил, что охарактеризовал дифференциальную конфиденциальность как дополнительный «статистический шум», который обеспечивает людям дополнительный уровень защиты и защищает их от кибератак.
Какие исследования становятся возможными благодаря этому набору данных?
Более ранняя версия набора данных URL, которая была предоставлена утвержденным исследователям через платформу социального мониторинга CrowdTangle, уже использовалась в изучать о скоординированном неаутентичном поведении по обмену ссылками в преддверии европейских выборов 2019 года в Италии.
Теперь исследователи смогут использовать полный набор данных, чтобы лучше понять, какие виды контента и темы преобладают на Facebook. Они смогут выявлять закономерности в том, чем обмениваются с течением времени, и потенциально могут создавать модели машинного обучения, которые выявляют дезинформацию.
В Facebook заявили, что исследователи давно осознали необходимость большого и разнообразного набора данных для обучения такой модели машинного обучения. Этот набор данных URL-адресов является одним из самых больших из существующих: его размер составляет 7 гигабайт, он содержит около 32 миллионов URL-адресов и около 544 миллионов значений ячеек.
Ученые могли бы определить, как популярный контент связан с политическими событиями и выпуском новых продуктов в Facebook. Другие потенциальные темы для изучения включают в себя роль поляризации, политиков и новостных циклов в распространении дезинформации на платформе.