Dokumen berjenis PDF yang merupakan salah-satu jenis dokumen yang dapat dibaca pada semua platform sistem operasi komputer yang beredar saat ini. Dan beberapa format file dokumen pun, juga telah lama dapat diubah menjadi file berformat PDF baik melalui aplikasi pengolah dokumen maupun situs online.
Dan untuk mengolah kembali file PDF, maka dibutuhkan sebuah aplikasi khusus untuk menyuntingnya. Pada sistem operasi Windöws dapat digunakan Adöbé Acrobåt. Sedang pada sistem Linux lain lagi masalahnya. Dan kali ini yang dibahas adalah pengolahan PDF di sistem operasi Linux, dengan sistem yang digunakan oleh penulis adalah Slitaz 4.0 GNU/Linux.
Aplikasi yang dibutuhkan
-
poppler-apps
-
imagemagick
-
gocr
Aplikasi poppler-apps termasuk aplikasi bawaan baku beberapa distro Linux seperti Ubuntu. Aplikasi ini bila dipasang akan menghasilkan beberapa perintah
berikut:
-
pdffonts -- analisa font
-
pdfimages -- ekstraksi gambar
-
pdfinfo -- informasi dokumen
-
pdfseparate -- alat pengekstrak halaman
-
pdftocairo -- pengubah PDF ke PNG/JPEG/PDF/PS/EPS/SVG menggunakan Cairo
-
pdftohtml -- pengubah PDF ke HTML
-
pdftoppm -- pengubah PDF ke gambar PPM/PNG/JPEG
-
pdftops -- pengubah PDF ke PostScript (PS)
-
pdftotext -- ekstraksi teks
-
pdfunite -- alat penggabung dokumen PDF
Sedangkan aplikasi gocr berfungsi untuk mengekstrak teks dari file berformat gambar, dengan menggunakan proses yang disebut dengan Optical Character Recognition.
Untuk menginstal paket-paket di atas pada Linux Slitaz dapat dilakukan dengan memberikan perintah pada terminal:
# tazpkg -gi poppler-apps gocr imagemagick
Mengubah PDF berjenis teks
Ciri dokumen PDF yang berjenis teks adalah
-
dapat dilakukan proses salin-tempel pada teks yang dipilih pada dokumen tersebut.
-
merupakan dokumen yang dibuat dari aplikasi pengolah kata.
Untuk mengekstrak halaman dokumen PDF berjenis teks menjadi file berformat teks dapat dilakukan dengan perintah pdftotext seperti contoh di bawah ini.
$ pdftotext -f 10 -l 14 -x 72 -y 36 -W 500 -H 706 dokumen.pdf dokumen10-14
Sedangkan untuk mengubahnya menjadi file berformat html, dapat menggunakan pdftohtml, seperti contoh berikut:
$ pdftohtml -f 10 -l 14 -i -noframes dokumen.pdf dokumen10-14.html
Mengubah PDF berjenis gambar
Ciri dokumen PDF yang berjenis gambar adalah
-
pemilihan teks tidak dapat dilakukan pada dokumen tersebut, begitu pula proses salin-tempel.
-
merupakan dokumen yang dibuat dari mesin pemindai atau aplikasi pengolah gambar.
Untuk mengekstrak teks dari dokumen PDF dapat dilakukan melalui tahapan:
-
PDF --> Gambar; menggunakan pdfimages
-
Penyunting Gambar; mengatur kembali file gambar bila gambar ada yang miring. Dapat menggunakan mtpaint atau imagemagick
-
Gambar --> teks; menggunakan gocr.
Contoh prosesnya:
$ pdfimages -p -f 5 -l 7 dokumen.pdf test
Contoh lainnya:
$ touch test;for x in `seq 5 7`;do pdfimages -p -f $x -l $x dokumen.pdf test;gocr -i test-00$x-000.pbm >> test;rm test-00$x-000.pbm;done
Penjelasan perintah terakhir di atas:
touch test; # Buat file kosong test
for x in `seq 5 7`; # pengulangan for untuk proses halaman 5 s/d 7
do
pdfimages -p -f $x -l $x dokumen.pdf test; # ubah halaman PDF ke-x ke file gambar test-00x-000.pbm
gocr -i test-00$x-000.pbm >> test; # ubah file gambar ke teks lalu tambahkan ke file test
rm test-00$x-000.pbm; # hapus file test-00x-000.pbm
done
Pemisahan dan Penggabungan dokumen PDF
Pemisahan
$ pdfseparate -f 1 -l 5 dokumen.pdf %d.pdf
Pemisahan oleh pdfseparate dilakukan secara halaman per halaman.
Penggabungan
Contoh prosesnya menggunakan pdfunite:
$ pdfunite 1.pdf 2.pdf 3.pdf dokumen1-3.pdf
$ pdfunite 4.pdf 5.pdf dokumen4-5.pdf
$ pdfunite dokumen1-3.pdf dokumen4-5.pdf dokumen_doc.pdf
Konversi file ke PDF
Untuk dokumen berbasis office seperti Abiword dan Gnumeric
dapat dilakukan saat penyimpanan melalui:
Menu File --> Save as --> ketik nama file -->
ubah pilihan File type menjadi PDF --> Tekan tombol
Save.
Dokumen yang berjenis teks dan html, dapat dilakukan dengan cara:
Buka dokumen menggunakan Peramban (misal: Firefox) -->
Pilih Menu/tombol Print pada peramban --> Print to File -->
Output Format: PDF --> Ubah folder penyimpanan di isian
Save in folder --> Tekan tombol Print
Untuk gambar dapat menggunakan perintah convert dari imagemagick pada terminal, dengan contoh berikut ini.
$ convert 1.png 2.jpg 3.gif gambar.pdf
$ convert *.png gambar.pdf