Análisis de datos con Pandas
Pandas es una biblioteca de Python que se utiliza para la manipulación y análisis de datos. Esta biblioteca proporciona estructuras de datos de alta eficiencia y herramientas de análisis de datos fáciles de usar. En esta unidad, aprenderemos cómo usar pandas para leer, escribir y manipular datos.
Instalación de Pandas
Pandas se puede instalar utilizando PIP. Abre la terminal y escribe el siguiente comando:
pip install pandas
Cómo importar Pandas
Para poder usar Pandas en nuestro código, debemos importar la biblioteca primero. Normalmente, se importa como pd:
import pandas as pd
Leer datos con Pandas
Podemos leer datos de distintas fuentes, como archivos CSV, Excel, bases de datos y archivos JSON. Veamos cómo leer un archivo CSV utilizando pandas:
import pandas as pd data = pd.read_csv('datos.csv') print(data.head())
En este ejemplo, estamos usando el método read_csv de Pandas para leer un archivo CSV llamado ‘datos.csv’ y almacenando los datos en una variable llamada ‘data’. El método head() muestra las primeras cinco filas del DataFrame.
Manipular datos con Pandas
Pandas ofrece una variedad de herramientas para manipular datos. Algunas de las operaciones más comunes incluyen:
- Selección de datos: seleccionar filas, columnas y subconjuntos de datos
- Manipulación de datos: agregar, eliminar y actualizar filas y columnas
- Operaciones vectorizadas: aplicar operaciones matemáticas y estadísticas a columnas enteras
- Combinación de datos: fusionar y unir diferentes conjuntos de datos
Selección de datos
Para seleccionar una columna específica en un DataFrame, podemos usar la notación de corchetes:
import pandas as pd data = pd.read_csv('datos.csv') columna = data['nombre_columna'] print(columna.head())
También podemos seleccionar varias columnas a la vez:
import pandas as pd data = pd.read_csv('datos.csv') columnas = data[['nombre_columna_1', 'nombre_columna_2']] print(columnas.head())
Para seleccionar filas de un DataFrame, podemos utilizar el método loc:
import pandas as pd data = pd.read_csv('datos.csv') fila = data.loc[3] print(fila)
En este ejemplo, estamos seleccionando la cuarta fila del DataFrame utilizando el índice 3.
También podemos seleccionar varias filas a la vez:
import pandas as pd data = pd.read_csv('datos.csv') filas = data.loc[[3, 5, 7]] print(filas)
Aquí estamos seleccionando la cuarta, sexta y octava fila del DataFrame.
Para seleccionar un subconjunto de filas y columnas, podemos utilizar la función iloc:
import pandas as pd data = pd.read_csv('datos.csv') subconjunto = data.iloc[1:4, 2:5] print(subconjunto)
En este ejemplo, estamos seleccionando las filas 2, 3 y 4, y las columnas 3, 4 y 5.
Manipulación de datos
Podemos manipular datos de varias maneras, como agregar, eliminar y actualizar filas y columnas. Veamos algunos ejemplos.
Agregar una columna:
import pandas as pd data = pd.read_csv('datos.csv') data['nueva_columa'] = [1, 2, 3, 4, 5] print(data.head())
En este ejemplo, estamos agregando una nueva columna llamada ‘nueva_columna’ al DataFrame y asignando los valores de [1, 2, 3, 4, 5] a esa columna.
Eliminar una columna:
import pandas as pd data = pd.read_csv('datos.csv') data = data.drop(['nombre_columna'], axis=1) print(data.head())
En este ejemplo, estamos eliminando la columna ‘nombre_columna’ del DataFrame utilizando el método drop.
Actualizar un valor en una celda específica:
import pandas as pd data = pd.read_csv('datos.csv') data.loc[3, 'nombre_columna'] = 'nuevo_valor' print(data.head())
En este ejemplo, estamos actualizando el valor de la celda en la cuarta fila y la columna ‘nombre_columna’ a ‘nuevo_valor’.
Operaciones vectorizadas
Podemos realizar operaciones matemáticas y estadísticas en columnas enteras utilizando operaciones vectorizadas. Esto es mucho más rápido y eficiente que realizar operaciones en cada celda individualmente. Veamos algunos ejemplos.
Sumar todos los valores de una columna:
import pandas as pd data = pd.read_csv('datos.csv') suma = data['nombre_columna'].sum() print(suma)
En este ejemplo, estamos sumando todos los valores en la columna ‘nombre_columna’.
Encontrar el valor mínimo en una columna:
import pandas as pd data = pd.read_csv('datos.csv') minimo = data['nombre_columna'].min() print(minimo)
En este ejemplo, estamos buscando el valor mínimo en la columna ‘nombre_columna’.
Combinación de datos
Podemos fusionar dos conjuntos de datos utilizando el método merge(). Veamos un ejemplo:
import pandas as pd datos_1 = {'nombre': ['Juan', 'Pedro', 'Ana'], 'edad': [25, 30, 35]} datos_2 = {'nombre': ['Juan', 'Pedro', 'Ana'], 'salario': [50000, 60000, 70000]} df1 = pd.DataFrame(datos_1) df2 = pd.DataFrame(datos_2) datos_combinados = pd.merge(df1, df2, on='nombre') print(datos_combinados)
En este ejemplo, estamos fusionando dos conjuntos de datos basados en la columna ‘nombre’. El resultado es un nuevo DataFrame que contiene información de ambos conjuntos de datos combinados.
Conclusión
En resumen, pandas es una biblioteca esencial para la manipulación y análisis de datos en Python. Ofrece herramientas poderosas y fáciles de usar para seleccionar, manipular y analizar datos. En esta unidad, hemos cubierto algunos de los conceptos básicos de pandas, pero hay mucho más que explorar en la documentación oficial de pandas.
Deja una respuesta