Начало работы¶
Установка¶
Используете conda?
pandas является частью дистрибутива Anaconda и может быть установлен вместе с Anaconda или Miniconda:
Предпочитаете pip?
pandas можно установить через pip из PyPI.
Нужны подробные инструкции?
Устанавливаете конкретную версию? Устанавливаете из исходников? Загляните на страницу расширенной установки.
Введение в pandas¶
pandas — подходящий инструмент для работы с табличными данными, такими как данные в электронных таблицах или базах данных. pandas поможет вам исследовать, очищать и обрабатывать ваши данные. В pandas таблица данных называется DataFrame
.
В руководстве пользователя
pandas поддерживает интеграцию со многими форматами файлов или источниками данных «из коробки» (csv, excel, sql, json, parquet и другими). Импорт данных из таких источников обеспечивается функцией с префиксом read_*
. Точно так же методы to_*
используются для сохранения данных.
В руководстве пользователя
Выбор или фильтрация определенных строк или столбцов? Фильтрация данных по условию? В pandas доступны методы для получения срезов, выбора и извлечения необходимых данных.
В руководстве пользователя
pandas обеспечивает построение диаграмм «из коробки», используя возможности Matplotlib. Вы можете выбрать тип диаграммы (точечная, гистограмма, диаграмма размаха и так далее), соответствующий вашим данным.
В руководстве пользователя
Для выполнения вычислений не нужно перебирать все строки таблицы. Манипуляции с данными в столбце работают поэлементно. Добавить столбец в DataFrame
на основе существующих данных в других столбцах очень просто.
В руководстве пользователя
Основные статистические показатели (среднее, медиана, минимум, максимум и прочее) легко поддаются вычислению. Стандартный либо пользовательский набор показателей можно получить для всего набора данных, скользящего окна данных или группировок по категориям. Последнее еще называют подходом «разделить-применить-объединить».
В руководстве пользователя
Изменяйте структуру таблицы данных несколькими способами. Функцией melt()
можно преобразовать таблицу данных из широкого в длинный (аккуратный) формат, а функцией pivot()
— из длинного в широкий формат. Благодаря встроенным агрегирующим функциям сводная таблица создается с помощью одной команды.
В руководстве пользователя
Несколько таблиц можно объединить как по столбцам, так и по строкам, поскольку для объединения нескольких таблиц данных предусмотрены операции объединения, как в базах данных.
В руководстве пользователя
pandas отлично поддерживает временные ряды и имеет обширный набор инструментов для работы с датами, временем и с данными, индексированными по времени.
В руководстве пользователя
Наборы данных содержат не только числовые данные. pandas предоставляет широкий набор функций для очистки текстовых данных и извлечения из них полезной информации.
В руководстве пользователя
Предшественники¶
Знакомы ли вы с другим программным обеспечением для обработки табличных данных? Изучите операции, которые эквивалентны в pandas и в программном обеспечении, которое вы уже знаете:
Язык программирования R
предоставляет структуру данных data.frame
и несколько пакетов, таких как tidyverse
, для удобной обработки данных, аналогично pandas.
Уже знакомы с SELECT
, GROUP BY
, JOIN
и так далее? Большинство этих запросов к SQL имеют эквиваленты в pandas.
data set
, включенный в пакет статистического программного обеспечения STATA
, соответствует DataFrame
в pandas. Многие операции из STATA имеют эквивалент в pandas.
Пользователи Excel
или других программ для работы с электронными таблицами обнаружат, что многие концепции можно перенести на pandas.
Набор статистического программного обеспечения SAS
также предоставляет data set
, соответствующий DataFrame
в pandas. Кроме того, векторизованные операции SAS, фильтрация, операции обработки строк и многое другое имеют аналогичные функции в pandas.
Учебные материалы¶
Краткий обзор функциональности pandas см. в статье 10 Minutes to pandas.
Вы можете обратиться к шпаргалке по pandas, в ней в сжатом виде приведена информация об управлении данными в pandas.
Сообщество выпускает множество учебных пособий, доступных в Интернете. Некоторые материалы включены в список предоставленных сообществом (см. раздел Учебные материалы сообщества).