Excel com Python
Mesmo para usuários 🥰 Linux 🥰 convictos como eu, às vezes a necessidade bate à porta e precisamos nos aventurar no mundo dos arquivos do Excel (XLSX). Felizmente, nosso amigo Python está sempre à disposição para nos ajudar. Até nessas horas, o Python mostra sua versatilidade e consegue abrir e manipular arquivos do Excel sem nenhum problema. E sem precisar instalar o Windows 🤣…
Como entusiastas da IA, estamos constantemente cercados por grandes quantidades de dados, e um dos formatos de arquivo mais comuns é a planilha do Excel. Neste post, exploraremos como ler e salvar arquivos XLSX em Python.
O que são arquivos XLSX?
XLSX (Excel Open XML) é um formato de arquivo usado por aplicativos do Microsoft Office, como o Excel. Você também pode abrir esse formato em outros aplicativos de planilha, como Apple Numbers, Google Docs e OpenOffice. Ele consiste em um arquivo compactado em zip que contém vários arquivos XML. Eles armazenam dados, formatação e outros metadados sobre a planilha.
Por que usar Python para arquivos XLSX?
Para mim, a principal resposta para essa questão é simples: para não usar o Windows (sem mágoas 😁!). Mas, para a maioria das pessoas normais, a resposta é um pouco diferente. A grande vantagem de se usar o Python para trabalhar com arquivos XLSX é poder contar com sua extensa fauna de bibliotecas para manipulação e análise de dados. E, neste quesito, uma biblioteca em particular se destaca: pandas.
bibliotecas necessárias
Para começar a trabalhar com arquivos XLSX em Python, podemos contar com algumas bibliotecas:
openpyxl ou xlrd/xlwt: bibliotecas enxutas que fornecem uma maneira simples de ler e gravar arquivos XLSX.
pandas: uma biblioteca poderosa para manipulação e análise de dados.
Para esse post, usaremos nosso querido pandas para demonstrar como você pode facilmente abrir seus arquivos Excel no Python. A sua instalação com pip podem ser feita com o seguinte comando:
pip install pandas
Excel em Python com pandas
O pandas possui uma função integrada, read_excel(), que permite ler dados de arquivos do Excel (.xls,.xlsx,.xlsm,.xlsb, etc.). No entanto, para usar arquivos.xlsx, você normalmente precisa de um mecanismo de escrita do Excel como a biblioteca openpyxl. Mas não se preocupe. O pandas geralmente a instala automaticamente.
Com o pandas instalado em seu sistema, você pode usar a função read_excel() para abrir um arquivo .XLSX como um DataFrame, como mostrado no exemplo abaixo:
import pandas as pd
# Carregue o arquivo do Excel em um DataFrame
df = pd.read_excel('caminho/para/seu/arquivo.xlsx')
# Exibe as cinco primeiras linhas
print(df.head())
Neste exemplo, usamos o Python para abrir e ler o arquivo do Excel e imprimir suas 5 primeiras linhas (com a função integrada head()). Você também pode usar o pandas para especificar uma planilha por nome ou índice:
# Por nome da planilha
df = pd.read_excel('seu_arquivo.xlsx', sheet_name='Planilha2')
# Por índice da planilha (a primeira planilha é 0)
df = pd.read_excel('seu_arquivo.xlsx', sheet_name=0)
Salvando Arquivos Excel em Python
Também podemos salvar um arquivo do Excel com pandas em Python. O método principal é usar a função to_excel(). Ela exporta seu DataFrame do pandas para um arquivo XLSX. Veja um exemplo demonstrativo:
# Exemplo de DataFrame
df = pd. DataFrame({"A": [1, 2], "B": [3, 4]})
# Salva arquivo Excel
df.to_excel("seu_novo_arquivo.xlsx", index=Falso)
Para salvar vários DataFrames no mesmo arquivo do Excel (em planilhas diferentes), podemos usar pd. ExcelWriter:
with pd.ExcelWriter("multiplas_planilhas.xlsx") as writer:
df1.to_excel(writer, sheet_name="Planilha1", index=False)
df2.to_excel(writer, sheet_name="Planilha2", index=False)
A opção index=False pode ser usada para determinar que os índices das linhas não sejam salvos no arquivo.
Conclusão
A biblioteca pandas é sempre uma ótima escolha para manipulação e análise de dados eficientes. Mas ela também pode ler e gravar arquivos XLSX com a ajuda da biblioteca openpyxl. Ao trabalhar com grandes conjuntos de dados, considere o uso de DataFrames do pandas para otimizar o desempenho dos seus arquivos Excel. Ao saber trabalhar com arquivos XLSX em Python, você poderá analisar e manipular com eficiência dados de várias fontes.