生信菜鸟团 » pdf

用php脚本把Rstudio公司的所有cheatsheet合并

ulwvfje — Thu, 02 Jun 2016 23:51:19 +0000

R studio公司毕竟是商业化公司，在R语言推广方面做得很棒。网站什么总共有9个cheatsheet，R语言入门完全可以把这个当做笔记，写代码随时查用！

我批量下载了所有，但是想打印的时候，发现挺麻烦的，因为我不知道批量打印的方法，索性我还是半个程序猿，所以搜索了一下批量合并pdf的方法，这样就可以批量打印了，也方便传输这个文件。

其实如果在linux系统里面，一般都会自带pdf toolkit工具，里面有命令可以合并PDF文档。

正好我搜索到了一个比较好玩的实现方法，就是PHP脚本，我还是第一次听说PHP也可以来当做脚本运行，简单浏览了一下，发现跟perl其实差不多，它需要require一些其它public的php脚本，perl就是需要载入一些模块。

首先列出所有下载地址，用wget批量来下载：

http://www.rstudio.com/wp-content/uploads/2016/05/base-r.pdf

http://www.rstudio.com/wp-content/uploads/2016/02/advancedR.pdf

http://www.rstudio.com/wp-content/uploads/2015/03/rmarkdown-reference.pdf

https://www.rstudio.com/wp-content/uploads/2016/01/rstudio-IDE-cheatsheet.pdf

https://www.rstudio.com/wp-content/uploads/2015/02/data-wrangling-cheatsheet.pdf

https://www.rstudio.com/wp-content/uploads/2015/02/rmarkdown-cheatsheet.pdf

https://www.rstudio.com/wp-content/uploads/2015/03/ggplot2-cheatsheet.pdf

https://www.rstudio.com/wp-content/uploads/2015/06/devtools-cheatsheet.pdf

https://www.rstudio.com/wp-content/uploads/2015/02/shiny-cheatsheet.pdf

然后写一个PHP函数，get到待合并目录下面的所有pdf文件：

$dir="./Rstudio_cheatsheets/";

$file=array_diff(scandir($dir),array('..','.'));

print_r($file);

?>

上面的代码相当于简单的PHP语法入门，其实这个语言感觉跟perl挺像的，就是列出文件夹里面的文件。

然后需要下载两个PHP压缩包，解压到当前文件夹

FPDF: http://www.fpdf.org/en/download.php

FPDI: https://www.setasign.com/products/fpdi/downloads

然后写一个脚本来实现合并的功能。

这个语法对我来说很诡异，最后居然还报错！！！

PHP Fatal error: Uncaught exception 'Exception' with message 'This document (/home/jmzeng/tmp/test_php/Rstudio_cheatsheets/advancedR.pdf) probably uses a compression technique which is not supported by the free parser shipped with FPDI. (See https://www.setasign.com/fpdi-pdf-parser for more details)' in /home/jmzeng/tmp/test_php/pdf_parser.php:322

Stack trace:

#0 /home/jmzeng/tmp/test_php/pdf_parser.php(195): pdf_parser->_readXref(Array, 116)

#1 /home/jmzeng/tmp/test_php/fpdi_pdf_parser.php(64): pdf_parser->__construct('/home/jmzeng/tm...')

#2 /home/jmzeng/tmp/test_php/fpdi.php(123): fpdi_pdf_parser->__construct('/home/jmzeng/tm...')

#3 /home/jmzeng/tmp/test_php/fpdi.php(101): FPDI->_getPdfParser('/home/jmzeng/tm...')

#4 /home/jmzeng/tmp/test_php/merge_pdf.php(11): FPDI->setSourceFile('advancedR.pdf')

#5 {main}

thrown in /home/jmzeng/tmp/test_php/pdf_parser.php on line 322

简单看了下报错内容，估计是PDF这个技术更新的太快了，R studio公司的 cheatsheet 用的PDF标准不被PHP的那两个模块支持！

后来我直接用了pdfjoin Rstudio_cheatsheets/*pdf 这个命令，简单粗暴，一下子就搞定了！

----

pdfjam: This is pdfjam version 2.08.

pdfjam: Reading any site-wide or user-specific defaults...

(none found)

pdfjam: Effective call for this run of pdfjam:

/usr/bin/pdfjam --fitpaper 'true' --rotateoversize 'true' --suffix joined -- Rstudio_cheatsheets/advancedR.pdf - Rstudio_cheatsheets/base-r.pdf - Rstudio_cheatsheets/data-wrangling-cheatsheet.pdf - Rstudio_cheatsheets/devtools-cheatsheet.pdf - Rstudio_cheatsheets/ggplot2-cheatsheet.pdf - Rstudio_cheatsheets/rmarkdown-cheatsheet.pdf - Rstudio_cheatsheets/rmarkdown-reference.pdf - Rstudio_cheatsheets/rstudio-IDE-cheatsheet.pdf - Rstudio_cheatsheets/shiny-cheatsheet.pdf -

pdfjam: Calling pdflatex...

pdfjam: Finished. Output was to '/home/jmzeng/tmp/test_php/shiny-cheatsheet-joined.pdf'.

但是，格式不怎么正常，我最后还是推荐用一个网页工具，你直接上传你的PDF，人家马上就给你合并好了，你直接下载即可。

这种技术，玩玩就好，不要深究。

perl操作pdf文档

ulwvfje — Fri, 17 Jul 2015 03:47:22 +0000

大家看看就好，这个模块写的不怎么样，而且有高手已经写了一个pdftoolkit就是完全用这个模块实现了大部分pdf文档的操作

PDF::API2模块使用笔记

一：简单使用方法

use PDF::API2;

# Create a blank PDF file	$pdf = PDF::API2->new();
# Open an existing PDF file	$pdf = PDF::API2->open('some.pdf');
# Add a blank page	$page = $pdf->page();
# Retrieve an existing page	$page = $pdf->openpage($page_number);
# Set the page size	$page->mediabox('Letter');
# Add a built-in font to the PDF	$font = $pdf->corefont('Helvetica-Bold');
# Add an external TTF font to the PDF	$font = $pdf->ttfont('/path/to/font.ttf');
# Add some text to the page	$text = $page->text(); $text->font($font, 20); $text->translate(200, 700); $text->text('Hello World!');
# Save the PDF	$pdf->saveas('/path/to/new.pdf');

实例：

use PDF::API2;

$pdf=PDF::API2->new;

$pdf->mediabox('A4');

$ft=$pdf->cjkfont('Song');

$page = $pdf->page;

$gfx=$page->gfx;

$gfx->textlabel(50,750,$ft,20,"\x{Cool44}\x{4EA7}"); # 资产二字

$pdf->saveas('Song_Test.pdf');

二：主要对象及方法

1、pdf对象可以创造，可以打开，可以保存，可以更新，还有一堆参数可以设置

$pdf->preferences(%options)还可以设置一些浏览参数，不过本来pdf阅读器可以设置，没必要在这里花时间。

这个可以当做是个人创建pdf的保密信息，也许有一点用吧。

还可以可以设置页脚$pdf->pageLabel($index, $options

2、Page对象，可以新建，可以打开，可以保存（需要指定保存的位置）

$page = $pdf->page()

$page = $pdf->page($page_number)

$page = $pdf->openpage($page_number);

还可以更新旧的pdf，这样可以循环获取pdf页面不停的累积到一个新的pdf

$page = $pdf->import_page($source_pdf, $source_page_number, $target_page_number)

$pdf = PDF::API2->new();

$old = PDF::API2->open('our/old.pdf'); # Add page 2 from the old PDF as page 1 of the new PDF

$page = $pdf->import_page($old, 2);

$pdf->saveas('our/new.pdf');If $source_page_number is 0 or -1, it will return the last page in the document.

$count = $pdf->pages()Returns the number of pages in the document.

这样就可以写一个简单程序把我们的pdf文件合并

use PDF::API2;

my $new = PDF::API2->new;

foreach my $filename (@ARGV) { my $pdf = PDF::API2->open($filename); $new->importpage($pdf, $_) foreach 1 .. $pdf->pages;}$new->saveas('new.pdf'); $pdf->mediabox($name)

可以指定A4，A3，A5等等$pdf->mediabox($w, $h)可以指定宽度和高度$pdf->mediabox($llx, $lly, $urx, $ury)

3，还可以随意画点线面及表格，太复杂了就不看了