Python - ( @h_okumura )Haruhiko Okumuraさんのツイートより - PDFの取り扱い(PyPDF2)

退屈なことはPythonにやらせよう
原著
楽天ブックス(Kobo) Yahoo!

開発環境

macOS Mojave - Apple (OS)
Emacs (Text Editor)
Windows 10 Pro (OS)
Visual Studio Code (Text Editor)
Python 3.7 (プログラミング言語)
PyPDF2(パッケージ)

「厚労省は2年かけて手作業で集計したのですか」というツッコミ歓迎＞2016年がん速報
— Haruhiko Okumura (@h_okumura) 2019年1月17日

ということで、PDFの情報を取得してみた。

コード

Python 3

#!/usr/bin/env python3
import PyPDF2

# ダウンロードしたPDFファイルの名前
filename = 'sample.pdf'
with open(filename, 'rb') as f:
    pdf_reader = PyPDF2.PdfFileReader(f)
    for k, v in pdf_reader.documentInfo.items():
        print(f'{k}: {v}')

入出力結果(Terminal、cmd(コマンドプロンプト)、Jupyter(IPython))

$ python3 sample.py 
/Author: ANIHO
/CreationDate: D:20190110151935+09'00'
/Creator: Microsoft Word - 01_事業の概要0110.docx
/ModDate: D:20190116094801+09'00'
/Producer: Gaaiho PDF
/Title: Microsoft Word - 01_事業の概要0110.docx
$

MS Wordで作成したのをGaaiho PDF(ソフトウェア)で編集して公開？

ということで、MS Wordで編集中にExcel使用してるのかも。

(PyPDF2は日本語の取り扱いは得意ではない(？)みたいなので、各ページのテキストを取得するのは上手くいかなかった。(getPageメソッド、textExtractメソッド))

Kamimura's blog

ほしい物リスト

2019年1月17日木曜日

Python - ( @h_okumura )Haruhiko Okumuraさんのツイートより - PDFの取り扱い(PyPDF2)

0 コメント:

コメントを投稿