拖拽你的图片到这里 或者

选择语言
转换类型

图片OCR转Excel

是什么:从图片中识别表格数据并导出为Excel文件。

为什么:快速提取图片中的表格数据,避免手动录入。


Python 示例

python

import pytesseract
from PIL import Image
import pandas as pd
import cv2
import re

def image_table_to_excel(image_path, output_excel="output.xlsx"):
    """从图片中识别表格并导出为Excel"""

    # 1. 预处理图片
    img = cv2.imread(image_path)
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

    # 2. OCR识别
    text = pytesseract.image_to_string(gray, lang='chi_sim+eng')

    # 3. 解析表格数据
    rows = text.strip().split('\n')
    table_data = []

    for row in rows:
        # 按多个空格或制表符分割
        cells = re.split(r'\s{2,}', row.strip())
        if cells and any(cell.strip() for cell in cells):
            table_data.append(cells)

    # 4. 创建DataFrame并保存为Excel
    if table_data:
        df = pd.DataFrame(table_data)
        df.to_excel(output_excel, index=False, header=False)
        print(f"识别完成: {output_excel} ({len(table_data)}行数据)")
    else:
        print("未识别到表格数据")

# 使用示例
image_table_to_excel("table_screenshot.jpg", "table_data.xlsx")

安装依赖

bash

pip install pytesseract pillow opencv-python pandas
# 还需安装 Tesseract-OCR:https://github.com/UB-Mannheim/tesseract/wiki

一句话总结:使用OCR技术识别图片中的表格数据,自动解析并导出为Excel文件,极大提高数据录入效率。