PDF Datei nach String durchsuchen

Für Fragen von Einsteigern und Programmieranfängern...

PDF Datei nach String durchsuchen

Beitragvon Hartkern » 5. Sep 2017, 16:08 PDF Datei nach String durchsuchen

Hallo,
Ich hab folgendes Problem auf Arbeit:

Der Kunde für den wir produzieren schickt uns Atbeitslisten in Excel. Diese muss ich umsortieren um besser Arbeiten zu können (erst nach Geschlecht und dann nach Größe). Anschließend schickt der Kunde mir eine PDF mit 700 Seiten, jeweils eine Seite ist ein Lieferschein. Diese PDF ist natürlich nicht geordnet sondern total zufällig. 700 Seiten per Hand sortieren ist doof. Es werden noch mehr kommen. Ich würde gern die Riesen PDF in einzelne PDFs je Lieferschein splitten, machbar, anschließend jede PDF nach 3 Strings durchsuchen lassen und anhand meiner Exceldaten den Dateiname der PDF in fortlaufende Nummern ändern um anschließend alle PDFs wieder zusammfuhren zu können um alle gebündelt auszudrucken oder halt einzeln aber dann geordnet nach unserer Liste zu belassen.

Kann man überhaupt PDF öffnen und nach Strings suchen lassen?

Edit:nein der Kunde kann nicht mir nach meinen Gusto sortierte PDFs schicken.
Hartkern
 
Beiträge: 68
Registriert: 5. Dez 2015, 20:03
Wohnort: Leipzig
OS, Lazarus, FPC: Win10 IDE 1.6 | 
CPU-Target: 64Bit
Nach oben

Beitragvon Mathias » 5. Sep 2017, 17:12 Re: PDF Datei nach String durchsuchen

Kann man überhaupt PDF öffnen und nach Strings suchen lassen?

Die muss gehen, ansonsten hätte man in einem PDF-Reader keine Möglichkeit den Text zu markieren.
Aber ob es für Lazarus so was gibt, kann ich leider nicht sagen.
Mit Lazarus sehe ich gün
Mit Java und C/C++ sehe ich rot
Mathias
 
Beiträge: 3189
Registriert: 2. Jan 2014, 17:21
Wohnort: Schweiz
OS, Lazarus, FPC: Linux (die neusten Trunc) | 
CPU-Target: 64Bit
Nach oben

Beitragvon Niesi » 5. Sep 2017, 18:10 Re: PDF Datei nach String durchsuchen

Hallo,

schau mal hier: http://wiki.freepascal.org/PowerPDF

Oder auch das hier: https://forum.lazarus.freepascal.org/in ... ic=17192.0

Und sonst Suchen, z. B. mit "FreePascal PDF", vielleicht auch hier im Forum.

Beste Grüße
Niesi
Niesi
 
Beiträge: 9
Registriert: 26. Jun 2016, 18:44

Beitragvon wp_xyz » 5. Sep 2017, 18:37 Re: PDF Datei nach String durchsuchen

Mein Eindruck ist, dass diese Bibliotheken eher fürs Schreiben von pdf gedacht sind. Meines Wissens kann fpvectorial, das mit Lazarus ausgeliefert wird (components/fpvectorial) pdf lesen; allerdings habe ich das nie probiert (http://wiki.lazarus.freepascal.org/fpvectorial).

Außerdem wäre zu bedenken, ob die Lieferscheine nicht eingescannt sind. Dann liegen sie höchstwahrscheinlich als eingebettete Bitmaps vor und du musst schon mit schweren Geschützen wie OCR auffahren, um etwas auswertbares zu erhalten.
wp_xyz
 
Beiträge: 2249
Registriert: 8. Apr 2011, 08:01

Beitragvon braunbär » 5. Sep 2017, 18:56 Re: PDF Datei nach String durchsuchen

Eine entscheidende Frage ist, wie die PDFs erstellt worden sind.
Wenn die PDFs mittels eines PDF Writers erstellt worden sind (dann verstehe ich aber nicht, warum der Kunde das nicht gleich in einer brauchbaren Sortierung liefern kann), dann ist es sicher möglich, den Text zu extrahieren - schlimmstenfalls mit dem Acrobat reader - alles markieren - Text in Zwischenablage legen - und per Lazarus-Programm Zwischenablage auslesen (es geht aber sicher auch besser).

Wenn das PDF über ein Scanprogramm erstellt wurde, dann hast du nur ein Bild und keinen Text im PDF, und dann kannst du nur mit einer OCR Software dein Glück versuchen. Feststellen kannst du das, indem di im Acrobat reader auf einem Wort einen Doppelklick machst. Wir das Wort markiert, dann enthält das PDF TExt, fuktioniert das Markieren eines Wortes nicht, dann hast du im PDF vermutlich nur ein gescanntes Bild.

edit: ich sehe erst, wp_xyz hat auch schon in der Richtung geantwortet.
braunbär
 
Beiträge: 164
Registriert: 8. Jun 2017, 17:21

Beitragvon pluto » 7. Sep 2017, 17:16 Re: PDF Datei nach String durchsuchen

Vielleicht wäre ein erster Schritt, die 700 Seiten auf zu trennen in einzelne PDFs.
MFG
Michael Springwald
Aktuelles Projekt: PlutoArduino
pluto
 
Beiträge: 6476
Registriert: 19. Nov 2006, 12:06
Wohnort: Oldenburg/Oldenburg
OS, Lazarus, FPC: Linux Mint 17.1 Rebecca | 
Nach oben

• Themenende •

Zurück zu Einsteigerfragen



Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

porpoises-institution
accuracy-worried