9.2 Análisis de datos con pandas: Cómo usar la librería pandas para analizar y manipular datos

Análisis de datos con Pandas

Pandas es una biblioteca de Python que se utiliza para la manipulación y análisis de datos. Esta biblioteca proporciona estructuras de datos de alta eficiencia y herramientas de análisis de datos fáciles de usar. En esta unidad, aprenderemos cómo usar pandas para leer, escribir y manipular datos.

Instalación de Pandas

Pandas se puede instalar utilizando PIP. Abre la terminal y escribe el siguiente comando:

pip install pandas

Cómo importar Pandas

Para poder usar Pandas en nuestro código, debemos importar la biblioteca primero. Normalmente, se importa como pd:

import pandas as pd

Leer datos con Pandas

Podemos leer datos de distintas fuentes, como archivos CSV, Excel, bases de datos y archivos JSON. Veamos cómo leer un archivo CSV utilizando pandas:

import pandas as pd

data = pd.read_csv('datos.csv')
print(data.head())

En este ejemplo, estamos usando el método read_csv de Pandas para leer un archivo CSV llamado ‘datos.csv’ y almacenando los datos en una variable llamada ‘data’. El método head() muestra las primeras cinco filas del DataFrame.

Manipular datos con Pandas

Pandas ofrece una variedad de herramientas para manipular datos. Algunas de las operaciones más comunes incluyen:

Selección de datos: seleccionar filas, columnas y subconjuntos de datos
Manipulación de datos: agregar, eliminar y actualizar filas y columnas
Operaciones vectorizadas: aplicar operaciones matemáticas y estadísticas a columnas enteras
Combinación de datos: fusionar y unir diferentes conjuntos de datos

Selección de datos

Para seleccionar una columna específica en un DataFrame, podemos usar la notación de corchetes:

import pandas as pd

data = pd.read_csv('datos.csv')
columna = data['nombre_columna']
print(columna.head())

También podemos seleccionar varias columnas a la vez:

import pandas as pd

data = pd.read_csv('datos.csv')
columnas = data[['nombre_columna_1', 'nombre_columna_2']]
print(columnas.head())

Para seleccionar filas de un DataFrame, podemos utilizar el método loc:

import pandas as pd

data = pd.read_csv('datos.csv')
fila = data.loc[3]
print(fila)

En este ejemplo, estamos seleccionando la cuarta fila del DataFrame utilizando el índice 3.

También podemos seleccionar varias filas a la vez:

import pandas as pd

data = pd.read_csv('datos.csv')
filas = data.loc[[3, 5, 7]]
print(filas)

Aquí estamos seleccionando la cuarta, sexta y octava fila del DataFrame.

Para seleccionar un subconjunto de filas y columnas, podemos utilizar la función iloc:

import pandas as pd

data = pd.read_csv('datos.csv')
subconjunto = data.iloc[1:4, 2:5]
print(subconjunto)

En este ejemplo, estamos seleccionando las filas 2, 3 y 4, y las columnas 3, 4 y 5.

Manipulación de datos

Podemos manipular datos de varias maneras, como agregar, eliminar y actualizar filas y columnas. Veamos algunos ejemplos.

Agregar una columna:

import pandas as pd

data = pd.read_csv('datos.csv')
data['nueva_columa'] = [1, 2, 3, 4, 5]
print(data.head())

En este ejemplo, estamos agregando una nueva columna llamada ‘nueva_columna’ al DataFrame y asignando los valores de [1, 2, 3, 4, 5] a esa columna.

Eliminar una columna:

import pandas as pd

data = pd.read_csv('datos.csv')
data = data.drop(['nombre_columna'], axis=1)
print(data.head())

En este ejemplo, estamos eliminando la columna ‘nombre_columna’ del DataFrame utilizando el método drop.

Actualizar un valor en una celda específica:

import pandas as pd

data = pd.read_csv('datos.csv')
data.loc[3, 'nombre_columna'] = 'nuevo_valor'
print(data.head())

En este ejemplo, estamos actualizando el valor de la celda en la cuarta fila y la columna ‘nombre_columna’ a ‘nuevo_valor’.

Operaciones vectorizadas

Podemos realizar operaciones matemáticas y estadísticas en columnas enteras utilizando operaciones vectorizadas. Esto es mucho más rápido y eficiente que realizar operaciones en cada celda individualmente. Veamos algunos ejemplos.

Sumar todos los valores de una columna:

import pandas as pd

data = pd.read_csv('datos.csv')
suma = data['nombre_columna'].sum()
print(suma)

En este ejemplo, estamos sumando todos los valores en la columna ‘nombre_columna’.

Encontrar el valor mínimo en una columna:

import pandas as pd

data = pd.read_csv('datos.csv')
minimo = data['nombre_columna'].min()
print(minimo)

En este ejemplo, estamos buscando el valor mínimo en la columna ‘nombre_columna’.

Combinación de datos

Podemos fusionar dos conjuntos de datos utilizando el método merge(). Veamos un ejemplo:

import pandas as pd

datos_1 = {'nombre': ['Juan', 'Pedro', 'Ana'], 'edad': [25, 30, 35]}
datos_2 = {'nombre': ['Juan', 'Pedro', 'Ana'], 'salario': [50000, 60000, 70000]}

df1 = pd.DataFrame(datos_1)
df2 = pd.DataFrame(datos_2)

datos_combinados = pd.merge(df1, df2, on='nombre')
print(datos_combinados)

En este ejemplo, estamos fusionando dos conjuntos de datos basados en la columna ‘nombre’. El resultado es un nuevo DataFrame que contiene información de ambos conjuntos de datos combinados.

Conclusión

En resumen, pandas es una biblioteca esencial para la manipulación y análisis de datos en Python. Ofrece herramientas poderosas y fáciles de usar para seleccionar, manipular y analizar datos. En esta unidad, hemos cubierto algunos de los conceptos básicos de pandas, pero hay mucho más que explorar en la documentación oficial de pandas.

Anterior…Siguiente

SynZeN