03.17 Excel催化劑開源-pdf相關功能實現及類庫介紹,pdf提取圖片、表格

在Excel催化劑剛推出的pdf相關功能中,反饋很熱烈,不止是用戶層面好多人喜歡,也聽到在.NET開發群裡有詢問pdf在winform上展現的功能訴求,一段時間沒寫開源篇,生怕大家以為Excel催化劑太小氣了,不再開發了,趕緊趁著還有餘溫,補上一篇pdf相關的技術要點和好用輪子簡介

pdf轉圖片

pdf轉圖片的功能,找了好久,百度肯定是沒答案的了,或者找到的都是一堆堆的軟文,指向雲csdn下載破解版dll,這種事情在我大中華出現多了,也不足為怪了。

在google上也找了好大一圈,好多的方案還是不好用或者沒看懂,其中一個方案是要求以COM的方式雲調用Adobe的pdf軟件,這肯定沒有吸引力的,雖然我大中國是很有辦法找Adobe的破解版軟件,但聽說Adobe咬起人來,比狼還要狠,動不動罰你個天價不為奇,程序員就不要往這裡靠了。

最後,在github上一個很無名的小項目上抄到了代碼,不敢獨佔,也獻上了一個寶貴星星。


Excel催化劑開源-pdf相關功能實現及類庫介紹,pdf提取圖片、表格


github上的示例

調用的是PdfiumViewer輪子。這個輪子又依賴於PDFium輪子,PDFium好像分86和64兩個版本。


Excel催化劑開源-pdf相關功能實現及類庫介紹,pdf提取圖片、表格


源代碼節錄

直接在nuget上搜PDFium會有多個版本,用PdfiumViewer搜索,好像可以搜索到不分86和64的版本,現在用著是它,沒測試過32位機器是否不會出問題。


Excel催化劑開源-pdf相關功能實現及類庫介紹,pdf提取圖片、表格


PdfiumViewer關鍵詞下好像有一個86和64合成版

PdfiumViewer更多的用途可以在winform上顯示pdf文檔,這裡只是借用了人家直接pdf轉圖片的小部分功能。

pdf抽取表格內容

同樣最後在github上找到了,尋找過程也是很曲折,不展開了。大家用到時,不妨多多給原作者打個星星。


Excel催化劑開源-pdf相關功能實現及類庫介紹,pdf提取圖片、表格


github上的輪子

這個類庫的調用,有點奇怪,他拿到Table後,不能很方便地取到Table上的內容,結果只能用Table.ToString()拿到文本,再自己雲拆解。裡面提供的Table的行、列座標,貌似測試了好久,不能用來在itextSharp上提取到數據。

pdf提取內容

這個用的是itextSharp,但聽說這個是開源有限制的,5.0高版本的不能用在商業軟件上。有大牛可以用最後的開源無限制版本寫一下提取文本的代碼給我下就最好,現在暫時還是用著人家5.0的版本,在中國應該問題不大吧,還好Excel催化劑是免費的,應該不算是商業用途吧。求專業人士指導下。網絡上的代碼都是基於5.0寫出來的,實在抄不到4.x版本的代碼。

代碼很簡單,隨便一搜就有,包括百度,可能文章長度有限制就不帖代碼了。

pdf提取圖片

這個也是用的itextSharp,厚道點,這裡直接給大家貼代碼,不用花時間找了。


public static Dictionary<string> ExtractImages(string filename)
{
var images = new Dictionary<string>();
using (var reader = new PdfReader(filename))
{
var parser = new PdfReaderContentParser(reader);
ImageRenderListener listener = null;
for (var i = 1; i <= reader.NumberOfPages; i++)
{
parser.ProcessContent(i, (listener = new ImageRenderListener()));
var index = 1;
if (listener.Images.Count > 0)
{
foreach (var pair in listener.Images)
{
images.Add(string.Format("{0}_Page_{1}_{2}{3}",
System.IO.Path.GetFileNameWithoutExtension(filename), i.ToString("D3"), index.ToString("D3"), pair.Value), pair.Key);
index++;
}
}
}
return images;
}
}
}
internal class ImageRenderListener : IRenderListener
{
Dictionary<system.drawing.image> images = new Dictionary<system.drawing.image>();
public Dictionary<system.drawing.image> Images
{
get { return images; }
}
public void BeginTextBlock() { }
public void EndTextBlock() { }
public void RenderImage(ImageRenderInfo renderInfo)
{
try
{
PdfImageObject image = renderInfo.GetImage();
PdfName filter = (PdfName)image.Get(PdfName.FILTER);
if (filter != null)
{
System.Drawing.Image drawingImage = image.GetDrawingImage();
string extension = ".";
if (filter == PdfName.DCTDECODE)
{
extension += PdfImageObject.ImageBytesType.JPG.FileExtension;
}

else if (filter == PdfName.JPXDECODE)
{
extension += PdfImageObject.ImageBytesType.JP2.FileExtension;
}
else if (filter == PdfName.FLATEDECODE)
{
extension += PdfImageObject.ImageBytesType.PNG.FileExtension;
}
else if (filter == PdfName.LZWDECODE)
{
extension += PdfImageObject.ImageBytesType.CCITT.FileExtension;
}
this.Images.Add(drawingImage, extension);
}
}
catch (Exception)
{
}
}
public void RenderText(TextRenderInfo renderInfo)
{
}
}
/<system.drawing.image>/<system.drawing.image>/<system.drawing.image>/<string>/<string>

圖片轉pdf

這個也是用的itextSharp,因為想做到按圖片大小來調整當前頁的尺寸,測試了好久,還是厚道著給大家獻上勞動成果吧。

 private static void InsertPicToPdf(string saveFilePath, List listImageInfo)
{
var firstImage = listImageInfo.FirstOrDefault();
var rec = new Rectangle(firstImage.Width, firstImage.Height);
Document doc = new Document(rec, 0, 0, 0, 0);
PdfWriter.GetInstance(doc, new FileStream(saveFilePath, FileMode.Create));
doc.Open();
var firstImagePage = iTextSharp.text.Image.GetInstance(firstImage.ImageData);
firstImagePage.ScalePercent(24F);
doc.Add(firstImagePage);
int ipage = 0;
foreach (var item in listImageInfo.Skip(1))
{
ipage++;

if (ipage > 1)
{
doc.NewPage();
}
var rectangle = new Rectangle(item.Width, item.Height);
doc.SetPageSize(rectangle);
doc.SetMargins(0, 0, 0, 0);
var inertImage = iTextSharp.text.Image.GetInstance(item.ImageData);
inertImage.ScalePercent(24F);
doc.Add(inertImage);
}
doc.Close();
}
private static List GetImageInfos(List<string> filePaths)
{
List listImageInfo = new List();
foreach (var picPath in filePaths)
{
string ext = Path.GetExtension(picPath).ToLower();
ImageFormat imageFormat = ext == ".png" ? ImageFormat.Png : ext == ".bmp" ? ImageFormat.Bmp : ext == ".gif" ? ImageFormat.Gif : ImageFormat.Jpeg;
System.Drawing.Image image = System.Drawing.Image.FromFile(picPath);
float height = image.Height * 0.24F;
float width = image.Width * 0.24F;
MemoryStream mstream = new MemoryStream();
image.Save(mstream, imageFormat);
byte[] byData = new Byte[mstream.Length];
mstream.Position = 0;
mstream.Read(byData, 0, byData.Length);
mstream.Close();
listImageInfo.Add((picPath, width, height, byData));
}
return listImageInfo;
}
/<string>

搞了好久老是錯位,最終才測試出第2頁時不要NewPage才行。

 if (ipage > 1)
{
doc.NewPage();
}

代碼出處的作者,大概意思是pdf的分辨率是72pi,不是打印機的300pi,所以要縮小為原大小的24%,打印效果才比較好。

 System.Drawing.Image image = System.Drawing.Image.FromFile(picPath);
float height = image.Height * 0.24F;
float width = image.Width * 0.24F;

結語

Excel催化劑不是什麼造輪子大戶,只會到處找輪子,水平也有限,但還是盡上微博之力,給一些水平也是一般的後來者帶去一點點的便利,希望大家喜歡,也期待整個分享的社區文化越來越好。我助人人,人人助我。


分享到:


相關文章: