perl 实现pdf文档孤字孤行问题

perl 实现pdf文档孤字孤行问题

perl 实现pdf文档孤字孤行问题
大家好,

我现在需要用perl写一个脚本实现的功能是:-
  1.检查pdf中孤字孤行,即一个一行或一个标点一行的
 2.标点符号在句首的

如果检查到,就输出一个日志,表明一个位置。

我是新手,不知道怎么下手,希望高手指导!

谢谢!
大家看看这个:--#!/usr.
大家看看这个:
#!/usr/bin/perl -w
use PDF;
use Encode;

open (IN,"+<mb13_al_late08_EN.pdf") or die "Cannot open this file: $!";
open (OUT,">log.txt") or die "Cannot open this file: $!";
while(my $line=<IN>)
{
  $newline = Encode::decode("gb2312", $line);
  chomp $newline;
  if($newline=~m/^[,\.\?;,“。]/||length($newline)<=2)
     {

   print OUT ("$newline\n");
     
  }


}
close OUT or die "Cannot close this file: $!";
close IN or die "Cannot close this file: $!";

为什么从pdf读取出来是乱码啊?是模块问题?还是得用模块自己方法来读取啊?

谢谢




   

不对 上面代码贴错了,是这样的:
#!/usr/bin/perl -w
use PDF;
use Encode;

open (IN,"+<mb13_al_late08_EN.pdf") or die "Cannot open this file: $!";
open (OUT,">log.txt") or die "Cannot open this file: $!";
while(my $line=<IN>)
{
  $newline = Encode::decode("gb2312", $line);
  chomp $newline;
  if($newline=~m/^[,\.\?;,“。]/||length($newline)<=2)
     {

   print OUT ("$newline\n");
     
  }


}
close OUT or die "Cannot close this file: $!";
close IN or die "Cannot close this file: $!";