Начало работы

Установка

Используете conda?

pandas является частью дистрибутива Anaconda и может быть установлен вместе с Anaconda или Miniconda:

Предпочитаете pip?

pandas можно установить через pip из PyPI.

Нужны подробные инструкции?

Устанавливаете конкретную версию? Устанавливаете из исходников? Загляните на страницу расширенной установки.

Подробнее

Введение в pandas

pandas — подходящий инструмент для работы с табличными данными, такими как данные в электронных таблицах или базах данных. pandas поможет вам исследовать, очищать и обрабатывать ваши данные. В pandas таблица данных называется DataFrame.

../_images/01_table_dataframe.svg

Ко вводному уроку

В руководстве пользователя

pandas поддерживает интеграцию со многими форматами файлов или источниками данных «из коробки» (csv, excel, sql, json, parquet и другими). Импорт данных из таких источников обеспечивается функцией с префиксом read_*. Точно так же методы to_* используются для сохранения данных.

../_images/02_io_readwrite.svg

Ко вводному уроку

В руководстве пользователя

Выбор или фильтрация определенных строк или столбцов? Фильтрация данных по условию? В pandas доступны методы для получения срезов, выбора и извлечения необходимых данных.

../_images/03_subset_columns_rows.svg

Ко вводному уроку

В руководстве пользователя

pandas обеспечивает построение диаграмм «из коробки», используя возможности Matplotlib. Вы можете выбрать тип диаграммы (точечная, гистограмма, диаграмма размаха и так далее), соответствующий вашим данным.

../_images/04_plot_overview.svg

Ко вводному уроку

В руководстве пользователя

Для выполнения вычислений не нужно перебирать все строки таблицы. Манипуляции с данными в столбце работают поэлементно. Добавить столбец в DataFrame на основе существующих данных в других столбцах очень просто.

../_images/05_newcolumn_2.svg

Ко вводному уроку

В руководстве пользователя

Основные статистические показатели (среднее, медиана, минимум, максимум и прочее) легко поддаются вычислению. Стандартный либо пользовательский набор показателей можно получить для всего набора данных, скользящего окна данных или группировок по категориям. Последнее еще называют подходом «разделить-применить-объединить».

../_images/06_groupby.svg

Ко вводному уроку

В руководстве пользователя

Изменяйте структуру таблицы данных несколькими способами. Функцией melt() можно преобразовать таблицу данных из широкого в длинный (аккуратный) формат, а функцией pivot() — из длинного в широкий формат. Благодаря встроенным агрегирующим функциям сводная таблица создается с помощью одной команды.

../_images/07_melt.svg

Ко вводному уроку

В руководстве пользователя

Несколько таблиц можно объединить как по столбцам, так и по строкам, поскольку для объединения нескольких таблиц данных предусмотрены операции объединения, как в базах данных.

../_images/08_concat_row.svg

Ко вводному уроку

В руководстве пользователя

pandas отлично поддерживает временные ряды и имеет обширный набор инструментов для работы с датами, временем и с данными, индексированными по времени.

Ко вводному уроку

В руководстве пользователя

Наборы данных содержат не только числовые данные. pandas предоставляет широкий набор функций для очистки текстовых данных и извлечения из них полезной информации.

Ко вводному уроку

В руководстве пользователя

Предшественники

Знакомы ли вы с другим программным обеспечением для обработки табличных данных? Изучите операции, которые эквивалентны в pandas и в программном обеспечении, которое вы уже знаете:

img-top

Язык программирования R предоставляет структуру данных data.frame и несколько пакетов, таких как tidyverse, для удобной обработки данных, аналогично pandas.

img-top

Уже знакомы с SELECT, GROUP BY, JOIN и так далее? Большинство этих запросов к SQL имеют эквиваленты в pandas.

img-top

data set, включенный в пакет статистического программного обеспечения STATA , соответствует DataFrame в pandas. Многие операции из STATA имеют эквивалент в pandas.

img-top

Пользователи Excel или других программ для работы с электронными таблицами обнаружат, что многие концепции можно перенести на pandas.

img-top

Набор статистического программного обеспечения SAS также предоставляет data set, соответствующий DataFrame в pandas. Кроме того, векторизованные операции SAS, фильтрация, операции обработки строк и многое другое имеют аналогичные функции в pandas.

Учебные материалы

Краткий обзор функциональности pandas см. в статье 10 Minutes to pandas.

Вы можете обратиться к шпаргалке по pandas, в ней в сжатом виде приведена информация об управлении данными в pandas.

Сообщество выпускает множество учебных пособий, доступных в Интернете. Некоторые материалы включены в список предоставленных сообществом (см. раздел Учебные материалы сообщества).