PDF Datei nach String durchsuchen

Für Fragen von Einsteigern und Programmieranfängern...
Antworten
Hartkern
Beiträge: 69
Registriert: Sa 5. Dez 2015, 20:03
OS, Lazarus, FPC: Win10 IDE 1.6
CPU-Target: 64Bit
Wohnort: Leipzig

PDF Datei nach String durchsuchen

Beitrag von Hartkern »

Hallo,
Ich hab folgendes Problem auf Arbeit:

Der Kunde für den wir produzieren schickt uns Atbeitslisten in Excel. Diese muss ich umsortieren um besser Arbeiten zu können (erst nach Geschlecht und dann nach Größe). Anschließend schickt der Kunde mir eine PDF mit 700 Seiten, jeweils eine Seite ist ein Lieferschein. Diese PDF ist natürlich nicht geordnet sondern total zufällig. 700 Seiten per Hand sortieren ist doof. Es werden noch mehr kommen. Ich würde gern die Riesen PDF in einzelne PDFs je Lieferschein splitten, machbar, anschließend jede PDF nach 3 Strings durchsuchen lassen und anhand meiner Exceldaten den Dateiname der PDF in fortlaufende Nummern ändern um anschließend alle PDFs wieder zusammfuhren zu können um alle gebündelt auszudrucken oder halt einzeln aber dann geordnet nach unserer Liste zu belassen.

Kann man überhaupt PDF öffnen und nach Strings suchen lassen?

Edit:nein der Kunde kann nicht mir nach meinen Gusto sortierte PDFs schicken.

Mathias
Beiträge: 6162
Registriert: Do 2. Jan 2014, 17:21
OS, Lazarus, FPC: Linux (die neusten Trunk)
CPU-Target: 64Bit
Wohnort: Schweiz

Re: PDF Datei nach String durchsuchen

Beitrag von Mathias »

Kann man überhaupt PDF öffnen und nach Strings suchen lassen?

Die muss gehen, ansonsten hätte man in einem PDF-Reader keine Möglichkeit den Text zu markieren.
Aber ob es für Lazarus so was gibt, kann ich leider nicht sagen.
Mit Lazarus sehe ich grün
Mit Java und C/C++ sehe ich rot

Benutzeravatar
Niesi
Lazarusforum e. V.
Beiträge: 331
Registriert: So 26. Jun 2016, 19:44
OS, Lazarus, FPC: Linux Mint Cinnamon (Windows wenn notwendig), Lazarus 3.0 FPC 3.3.1

Re: PDF Datei nach String durchsuchen

Beitrag von Niesi »

Hallo,

schau mal hier: http://wiki.freepascal.org/PowerPDF

Oder auch das hier: https://forum.lazarus.freepascal.org/in ... ic=17192.0

Und sonst Suchen, z. B. mit "FreePascal PDF", vielleicht auch hier im Forum.

Beste Grüße
Niesi
Wissen ist das einzige Gut, das sich vermehrt, wenn es geteilt wird ...

wp_xyz
Beiträge: 4869
Registriert: Fr 8. Apr 2011, 09:01

Re: PDF Datei nach String durchsuchen

Beitrag von wp_xyz »

Mein Eindruck ist, dass diese Bibliotheken eher fürs Schreiben von pdf gedacht sind. Meines Wissens kann fpvectorial, das mit Lazarus ausgeliefert wird (components/fpvectorial) pdf lesen; allerdings habe ich das nie probiert (http://wiki.lazarus.freepascal.org/fpvectorial).

Außerdem wäre zu bedenken, ob die Lieferscheine nicht eingescannt sind. Dann liegen sie höchstwahrscheinlich als eingebettete Bitmaps vor und du musst schon mit schweren Geschützen wie OCR auffahren, um etwas auswertbares zu erhalten.

braunbär
Beiträge: 369
Registriert: Do 8. Jun 2017, 18:21
OS, Lazarus, FPC: Windows 10 64bit, Lazarus 2.0.10, FPC 3.2.0
CPU-Target: 64Bit
Wohnort: Wien

Re: PDF Datei nach String durchsuchen

Beitrag von braunbär »

Eine entscheidende Frage ist, wie die PDFs erstellt worden sind.
Wenn die PDFs mittels eines PDF Writers erstellt worden sind (dann verstehe ich aber nicht, warum der Kunde das nicht gleich in einer brauchbaren Sortierung liefern kann), dann ist es sicher möglich, den Text zu extrahieren - schlimmstenfalls mit dem Acrobat reader - alles markieren - Text in Zwischenablage legen - und per Lazarus-Programm Zwischenablage auslesen (es geht aber sicher auch besser).

Wenn das PDF über ein Scanprogramm erstellt wurde, dann hast du nur ein Bild und keinen Text im PDF, und dann kannst du nur mit einer OCR Software dein Glück versuchen. Feststellen kannst du das, indem di im Acrobat reader auf einem Wort einen Doppelklick machst. Wir das Wort markiert, dann enthält das PDF TExt, fuktioniert das Markieren eines Wortes nicht, dann hast du im PDF vermutlich nur ein gescanntes Bild.

edit: ich sehe erst, wp_xyz hat auch schon in der Richtung geantwortet.

pluto
Lazarusforum e. V.
Beiträge: 7178
Registriert: So 19. Nov 2006, 12:06
OS, Lazarus, FPC: Linux Mint 19.3
CPU-Target: AMD
Wohnort: Oldenburg(Oldenburg)

Re: PDF Datei nach String durchsuchen

Beitrag von pluto »

Vielleicht wäre ein erster Schritt, die 700 Seiten auf zu trennen in einzelne PDFs.
MFG
Michael Springwald

Antworten