システム開発メモ

rubyでPDF解析（テキスト抽出）

ruby

rubyバージョン： 1.9.3
OS: Windows7

gem install pdf-reader

以下のコードでPDF内のテキスト吐き出し。

require 'pdf/reader'

reader = PDF::Reader.new "test.pdf"
reader.pages.each do |page|
  puts page.text
end