rubyでPDF解析(テキスト抽出)
pdf-readerを使用。
https://github.com/yob/pdf-reader
gem install pdf-reader
以下のコードでPDF内のテキスト吐き出し。
require 'pdf/reader' reader = PDF::Reader.new "test.pdf" reader.pages.each do |page| puts page.text end
pdf-readerを使用。
https://github.com/yob/pdf-reader
gem install pdf-reader
以下のコードでPDF内のテキスト吐き出し。
require 'pdf/reader' reader = PDF::Reader.new "test.pdf" reader.pages.each do |page| puts page.text end