河南夢之網網絡科技有限公司
夢之網科技出品
掃描關注夢之網科技微信公眾賬號

掃小程序碼聯系客服

Python新工具:用三行代碼提取PDF表格數據-鄭州網站建設

夢之網科技?2019-10-09?文章動態?

從 PDF 表格中獲取數據是一項痛苦的工作。不久前,一位開發者提供了一個名為 Camelot 的工具,使用三行代碼就能從 PDF 文件中提取表格數據。

PDF 文件是一種非常常用的文件格式,通常用于正式的電子版文件。它能夠很好的將不同的排版格式固定下來,形成版面清晰且美觀的展示效果。然而,對于想要從 PDF 中提取信息的人們來說,PDF 是個噩夢,尤其是表格。

大量的學術報告、論文、分析文章都使用 PDF 展示其中的表格數據,但是對于如果想要直接從表格中復制數據則會非常麻煩。不久前,有一位開發者提供了一個可從文字 PDF 中提取表格信息的工具——Camelot,能夠直接將大部分表格轉換為 Pandas 的 Dataframe。

項目地址:https://github.com/camelot-dev/camelot

Camelot 是什么

據項目介紹稱,Camelot 是一個 Python 工具,用于將 PDF 文件中的表格數據提取出來。

具體而言,用戶可以像使用 Pandas 那樣打開 PDF 文件,然后利用這個工具提取表格數據,最后再指定輸出的形式(如 csv 文件)。

代碼示例

項目提供的 PDF 文件如圖所示,假設用戶需要提取這些文字之間的表格 2-1 中的信息。

Python新工具:用三行代碼提取PDF表格數據-鄭州網站建設

PDF 文件。我們需要提取表格 2-1。

使用 Camelot 提取表格數據的代碼如下:

以下為輸出的結果,對于合并的單元格,Camelot 在抽取后做了空行處理,這是一個穩妥的方法。

Python新工具:用三行代碼提取PDF表格數據-鄭州網站建設

安裝方法

項目作者提供了三種安裝方法。首先,你可以使用 Conda 進行安裝,這是最簡單的。

最流行的安裝方法是使用 pip 安裝。

還可以從項目中克隆代碼,并使用源碼安裝。

文章關鍵詞
表格
代碼
Python
Pandas
pdf
急速赛车国语 肉串赚钱吗 孩子什么行业最赚钱 赚钱挖矿农场APPw 2018什么微商好赚钱 魔兽世界7.0制造业赚钱 中介怎么通过独家房源赚钱 门窗工程赚钱 魔兽厄运 赚钱 海口滴滴哪个时间段好赚钱 搜狗搜索真的能赚钱吗 能看小说还能赚钱的游戏 肇东招住宿生赚钱吗 18年看新闻赚钱软件 g片赚钱吗 知道银行卡号怎样赚钱吗 微信红包怎么玩最赚钱吗