Cовместимость по знаку зодиака
Cовместимость c селебрити

Узнайте совместимость по знаку зодиака

10 инструментов, которые помогут дата-журналистам работать лучше и эффективнее

Информационные Бюллетени

Трудно одинаково хорошо справляться со всеми задачами, относящимися к журналистике данных. Что еще хуже (или лучше, на самом деле), журналисты данных постоянно открывают и применяют новые методы и инструменты.

Как начинающий дата-журналист, вы захотите развить представление об инструментах, которые другие используют для работы, которой вы восхищаетесь. Выучить их все сразу не получится, да и пытаться не стоит. Тем не менее, вы должны развивать своего рода окружающее понимание используемых инструментов (что-то вроде знаний, которые Facebook дает вам о жизни ваших одноклассников в старшей школе). Держите список инструментов для проверки. Посмотрите демонстрации и просмотрите документацию или код. Затем, когда ваши проекты создадут потребность, вы вспомните достаточно, чтобы начать.

Однако сразу же выберите один или два инструмента и сделайте их частью своей ДНК. Подбери инструмент и выжми из него все, что можно. Прочитайте все, что вы можете найти об этом. Изучите каждую идиосинкразию и оптимизацию. Купите кофейную кружку с горячими клавишами на ней. Просто будьте готовы взять в руки новый инструмент, когда почувствуете, что должен быть более простой способ. Ниже приведены 10 инструментов, которые входят в набор инструментов почти каждого дата-журналиста.

1. Электронная таблица

Почти каждый журналист данных начинает с электронной таблицы. (Открытие: я здесь исключение, как и некоторые другие программисты-журналисты. Я научился использовать электронные таблицы для работы с моими коллегами, которые полагаются на них.)

Электронная таблица является почти универсальным форматом данных, особенно если вы сохраняете данные в виде простого текстового файла с разделителями, например файла значений, разделенных запятыми. Каждый либо уже имеет коммерческую программу для работы с электронными таблицами, либо может легко загрузить бесплатно one, а современные приложения для работы с электронными таблицами удивительно универсальны.

Есть несколько места а также курсы доступны, чтобы помочь вам развить навыки работы с электронными таблицами. Начните с сортировки, фильтрации и промежуточных итогов и перейдите к более сложным формулам. Когда вы научитесь использовать формулы, старайтесь время от времени вводить их напрямую, а не с помощью мастеров. Эта практика даст вам более глубокое знание формул, которые вы используете, а также поможет вам начать выражать свои идеи в коде, который пригодится вам, когда вы освоите другие инструменты.

2. SQL

Через некоторое время вы можете начать чувствовать себя ограниченными возможностями электронных таблиц. Многие журналисты данных переходят на менеджер реляционных баз данных (например, SQLite, MySQL, PostgreSQL, Access), когда у них есть более двух электронных таблиц для объединения или очень большие наборы данных для запроса. SQL позволяет вам точно описать подмножество данных, которые вы хотите извлечь, или точные изменения, которые вы хотите внести, и позволяет выполнять эти запросы по связанным наборам данных. Вы также можете сохранить свои команды в виде сценария, чтобы вы могли документировать все, что вы сделали с данными, и вы можете автоматически повторять эти шаги для будущего набора данных.

Почти каждая программа реляционной базы данных использует какую-либо разновидность SQL, поэтому, изучив основы (пару десятков ключевых слов и немного пунктуации), вы сможете выполнять запросы к базам данных в любом количестве систем, как бесплатных, так и коммерческих. Кроме того, реляционные базы данных часто используются для хранения данных в веб-приложениях, поэтому ваше знание SQL может быть непосредственно полезно при веб-разработке.

Вот учебник чтобы вы начали.

3. Инструменты очистки данных

Все наборы данных «грязные». Повторяйте это про себя три раза всякий раз, когда открываете ноутбук.

Чтобы очистить данные и привести их в удобный формат, вы, вероятно, будете использовать различные инструменты. Мой любимый Google Уточнить , который немного похож на электронную таблицу, но предназначен для таких вещей, как стандартизация имен, чтобы вы могли создавать надежные подсчеты. (Вы можете захотеть, чтобы «Джон Смит», «Смит, Джон» и «Джон К. Смит» считались, например, одним человеком, а не тремя). С использованием Google Уточнить язык выражений , вы сможете выполнять сложные преобразования данных и сделаете еще один шаг к самовыражению в коде. ( Обработчик данных — это новый инструмент с некоторыми функциями, похожими на Refine, который также стоит проверить.)

Вам также следует ознакомиться с инструментами вашей операционной системы, которые могут помочь управлять файлами и данными в них. Если вы используете OSX или Linux, у вас есть но, ладно, grep а также найти . (Есть порты для Windows, а также.) Используя эти утилиты, вы можете начать исследовать и обрабатывать свои данные, даже не утруждая себя открытием программы для работы с электронными таблицами или базами данных.

И пока вы смотрите на инструменты командной строки, ознакомьтесь с CSVKit , удивительный набор инструментов, разработанный журналистами, который поможет вам творить чудеса в этом распространенном формате.

4. Инструменты визуализации

Визуализация — это не украшение. Это не то, что просто сопровождает и иллюстрирует журналистику данных; это центральное место в задаче. Хорошая визуализация позволит вам увидеть выбросы и тенденции таким образом, что это может сильно изменить ваше понимание данных.

Большинство приложений для работы с электронными таблицами имеют как минимум базовые диаграммы и графики (а часто и более сложные визуализации, доступные через надстройки). Пара веб-инструментов визуализации становится стандартной платой за проезд. Проверить Сводные таблицы Google а также Общественный совет . Оба предлагают простоту использования и довольно впечатляющие результаты.

В конце концов, вам может понадобиться что-то более гибкое и мощное; эксперты часто обращаются к чему-то вроде открытого исходного кода р пакет статистики, который сочетает в себе мощные инструменты аналитики и визуализации на надежном языке программирования.

5. Картографическое программное обеспечение

Таблицы Google Fusion и Tableau Public включают в себя быстрые и интуитивно понятные возможности сопоставления. Если ни одна из их карт не дает вам того, что вы хотите, проверьте бесплатную QGIS картографический пакет. (Или, если у вашего отдела новостей есть запасная лицензия, ArcView является мощным коммерческим вариантом.) Чтобы познакомиться с QGIS для журналистов, ознакомьтесь с этим руководство .

Существуют также пространственные расширения для менеджеров баз данных, которые могут помочь в задании географических вопросов о ваших данных. Они расширяют возможности SQL, включая запросы о географии, такие как определение местоположений в пределах границ (например, округа или избирательного округа). ПостГИС а также SpatiaLite являются бесплатными и популярными решениями.

6. Скриптовый язык

Выберите язык, купите книгу, решите проблему. Обучение программированию быстро расширит ваши возможности как журналиста данных: правительство не предоставит вам данные, лежащие в основе веб-сайта? Соскребите это. Не можете получить данные в нужном вам виде с помощью существующих инструментов? Построй свой собственный. Есть опьяняющая сила в том, чтобы стать не просто пользователем программного обеспечения, но и его создателем.

Не так важно, какой язык вы выберете, хотя питон а также Рубин кажутся текущими фаворитами среди журналистов. Если кто-то из ваших знакомых уже работает с Перл или PHP и готов помочь вам начать работу, вы можете начать с этого. Как и в случае с естественными языками, после того, как вы выучили один, вам будет легче выучить следующий, а научиться мыслить как программист гораздо важнее, чем изучить определенный синтаксис. (Кроме того, крутые дети вполне могут использовать что-то совершенно другое к тому времени, когда вы освоите современный язык.)

Если вы хотите начать с парсинга веб-страниц, взгляните на Отличное руководство по парсингу от ProPublica . ScraperWiki это еще один способ намочить ноги и учиться на собственном примере. Научитесь программировать — отличное введение в концепции программирования, в котором в качестве целевого языка используется Ruby.

7. Веб-фреймворк

Независимо от того, создаете ли вы инструменты для себя или создаете приложения для всего мира, если вы создаете для Интернета, вам нужна веб-инфраструктура: Джанго для питона, Рельсы для Руби , симфония для PHP, Катализатор для Perl — выбирайте сами.

Фреймворк избавит вас от скучной, повторяющейся работы, поможет вам внедрить передовой опыт, поможет организовать вас и упростит сотрудничество с другими. Многие фреймворки поставляются с установщиком одним щелчком мыши, который может помочь облегчить начало работы. Взгляните на Битнами Джанго а также Рубин стеки, например.

В процессе создания веб-инструмента вы освоите достаточное количество HTML и CSS. Но все признаки указывают на возрастающую важность JavaScript во всей веб-разработке. Если вы хотите, чтобы ваше веб-приложение было больше похоже на настольное приложение, познакомьтесь с некоторыми элементами JavaScript, особенно с такими библиотеками, как jQuery .

8. Гибкий редактор

Чтобы писать код, вам нужен редактор кода. Это означает, что редактор не добавляет в ваш текст умных, причудливых символов (смотря на вас, Microsoft Word) и, надеюсь, добавляет некоторые прибамбасы, такие как раскраска синтаксиса для конкретного языка, которая поможет вам легко идентифицировать ключевые слова и другой язык. элементы по мере ввода.

Нет более верного способа начать ссору ботаников, чем спросить, какой редактор кода лучше. TextMate (для Mac) является жизнеспособным коммерческим вариантом. А также Блокнот++ (для Windows) — хороший бесплатный вариант. Существуют также бесконечно настраиваемые параметры с открытым исходным кодом. Я ПРИШЕЛ а также Emacs . Однако будьте готовы к кривой обучения с каждым из них. В конце концов, какой-нибудь Java-программист скажет, что вам нужен полный Интегрированная среда разработки . Если кто-то помогает вам научиться кодировать, используйте его или ее редактор и изучите все возможные способы быстрого доступа и настройки. Редактор — это самый личный инструмент, и вы захотите, чтобы он чувствовал себя как дома.

9. Ревизионный контроль

Вы никогда не ошибаетесь? Вы никогда не хотите сотрудничать с кем-либо? Тогда, возможно, вам не нужно контроль версий . Но его стоит использовать, если вам нужен элегантный способ сохранения резервных копий, опробования временных версий файлов и объединения вашей работы с чужой. Возможно, самый простой способ изучить контроль версий — это использовать Гитхаб . Вы также можете установить идти или Подрывная деятельность локально.

10. Инструменты анализа документов

Возможно, самым захватывающим рубежом в журналистике данных сейчас является попытка рассматривать большие наборы документов как данные. DocumentCloud предоставляет удобный интерфейс для ослабления связи с форматом PDF, позволяя выполнять поиск по документам и извлекать интересные объекты.

Головоломка это настольное программное обеспечение, полезное для навигации по относительно большому набору документов. В конце концов, вы можете захотеть изучить вычислительный лингвистический потенциал таких пакетов, как Набор инструментов естественного языка Python или Стэнфордское ядроНЛП . И поскольку журналисты только поверхностно коснулись этой области, новые инструменты которые рассматривают документы как данные, которые появляются все время.

Это вторая история в серии из двух частей о журналистике данных. Вы можете прочитать первую статью «5 советов по началу работы в журналистике данных» здесь.


Эта история также является частью истории Пойнтера. Хаки/Хакеры серия с участием Как сделать акцент на том, чему могут научиться журналисты от новых тенденций в технологиях и новых инструментов.

Исправление: В более ранней версии этой истории говорилось, что пользователи должны платить за Notepad++. На самом деле, это бесплатно.