图片OCR转Excel
是什么:从图片中识别表格数据并导出为Excel文件。
为什么:快速提取图片中的表格数据,避免手动录入。
Python 示例
python
import pytesseract
from PIL import Image
import pandas as pd
import cv2
import re
def image_table_to_excel(image_path, output_excel="output.xlsx"):
"""从图片中识别表格并导出为Excel"""
# 1. 预处理图片
img = cv2.imread(image_path)
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
# 2. OCR识别
text = pytesseract.image_to_string(gray, lang='chi_sim+eng')
# 3. 解析表格数据
rows = text.strip().split('\n')
table_data = []
for row in rows:
# 按多个空格或制表符分割
cells = re.split(r'\s{2,}', row.strip())
if cells and any(cell.strip() for cell in cells):
table_data.append(cells)
# 4. 创建DataFrame并保存为Excel
if table_data:
df = pd.DataFrame(table_data)
df.to_excel(output_excel, index=False, header=False)
print(f"识别完成: {output_excel} ({len(table_data)}行数据)")
else:
print("未识别到表格数据")
# 使用示例
image_table_to_excel("table_screenshot.jpg", "table_data.xlsx")
安装依赖:
bash
pip install pytesseract pillow opencv-python pandas # 还需安装 Tesseract-OCR:https://github.com/UB-Mannheim/tesseract/wiki
一句话总结:使用OCR技术识别图片中的表格数据,自动解析并导出为Excel文件,极大提高数据录入效率。