開発環境
- macOS Mojave - Apple (OS)
- Emacs (Text Editor)
- Windows 10 Pro (OS)
- Visual Studio Code (Text Editor)
- Python 3.7 (プログラミング言語)
- PyPDF2(パッケージ)
「厚労省は2年かけて手作業で集計したのですか」というツッコミ歓迎>2016年がん速報
— Haruhiko Okumura (@h_okumura) 2019年1月17日
ということで、PDFの情報を取得してみた。
コード
Python 3
#!/usr/bin/env python3 import PyPDF2 # ダウンロードしたPDFファイルの名前 filename = 'sample.pdf' with open(filename, 'rb') as f: pdf_reader = PyPDF2.PdfFileReader(f) for k, v in pdf_reader.documentInfo.items(): print(f'{k}: {v}')
入出力結果(Terminal、cmd(コマンドプロンプト)、Jupyter(IPython))
$ python3 sample.py /Author: ANIHO /CreationDate: D:20190110151935+09'00' /Creator: Microsoft Word - 01_事業の概要0110.docx /ModDate: D:20190116094801+09'00' /Producer: Gaaiho PDF /Title: Microsoft Word - 01_事業の概要0110.docx $
MS Wordで作成したのをGaaiho PDF(ソフトウェア)で編集して公開?
ということで、MS Wordで編集中にExcel使用してるのかも。
(PyPDF2は日本語の取り扱いは得意ではない(?)みたいなので、各ページのテキストを取得するのは上手くいかなかった。(getPageメソッド、textExtractメソッド))
0 コメント:
コメントを投稿