Texte aus PDF/DWG auslesen

Für alles, was in den übrigen Lazarusthemen keinen Platz, aber mit Lazarus zutun hat.
Antworten
Benutzeravatar
kralle
Lazarusforum e. V.
Beiträge: 988
Registriert: Mi 17. Mär 2010, 14:50
OS, Lazarus, FPC: Linux Mint 20 , FPC 3.3.1 , Lazarus 2.1.0 -Win10 & XE7Pro
CPU-Target: 64Bit
Wohnort: Bremerhaven
Kontaktdaten:

Texte aus PDF/DWG auslesen

Beitrag von kralle »

Moin,

bevor ich das Rad neu erfinde:
Hat sich hier schon mal jemand damit erfolgreich befasst, Text die in einem PDF / einer DWG in einem ganz bestimmten Bereich stehen, auszulesen?
Ich finde er ziemlich umständlich, erst in eine technische Zeichnung mehrere Texte einzugeben und den dann nachher die Texte auch noch in Listen (Excel und Webformular) einzupflegen.
Leider geht es nicht in der Reihenfolge Excel -> Web -> Zeichnung.

Gruß Heiko
OS: Manjaro Linux, Debian und Windows 10
FPC-Version: 3.2.2 , Lazarus 3.0
+ Delphi XE7SP1

Benutzeravatar
theo
Beiträge: 10467
Registriert: Mo 11. Sep 2006, 19:01

Re: Texte aus PDF/DWG auslesen

Beitrag von theo »

Es gibt z.B. https://en.wikipedia.org/wiki/Pdftotext
Aber PDF kann ganz schöner Horror sein, um Texte zu extrahieren, gerade wenn es besonders gestaltet/-layoutet ist.
Das kann auch aus dem Ruder laufen.
PDF als Textquell-/austauschformat würde ich allgemein nicht empfehlen.

Benutzeravatar
kralle
Lazarusforum e. V.
Beiträge: 988
Registriert: Mi 17. Mär 2010, 14:50
OS, Lazarus, FPC: Linux Mint 20 , FPC 3.3.1 , Lazarus 2.1.0 -Win10 & XE7Pro
CPU-Target: 64Bit
Wohnort: Bremerhaven
Kontaktdaten:

Re: Texte aus PDF/DWG auslesen

Beitrag von kralle »

Moin,

ich wollte eigentlich wissen ob schon mal jemand hier, da was in Lazarus programmiert hat.

Aber, Deine Aussage, dass PDFs nicht gerade einfach auslesen sind, ermutigt nicht gerade.
Mit DWGs hast Du keine Erfahrung - oder?

Gruß Heiko
OS: Manjaro Linux, Debian und Windows 10
FPC-Version: 3.2.2 , Lazarus 3.0
+ Delphi XE7SP1

Mathias
Beiträge: 6160
Registriert: Do 2. Jan 2014, 17:21
OS, Lazarus, FPC: Linux (die neusten Trunk)
CPU-Target: 64Bit
Wohnort: Schweiz

Re: Texte aus PDF/DWG auslesen

Beitrag von Mathias »

Vielleicht hilft dir dies weiter: https://wiki.freepascal.org/fpvectorial
Mit Lazarus sehe ich grün
Mit Java und C/C++ sehe ich rot

Timm Thaler
Beiträge: 1224
Registriert: So 20. Mär 2016, 22:14
OS, Lazarus, FPC: Win7-64bit Laz1.9.0 FPC3.1.1 für Win, RPi, AVR embedded
CPU-Target: Raspberry Pi 3

Re: Texte aus PDF/DWG auslesen

Beitrag von Timm Thaler »

Hint: Mit LibreOffice - Draw kann man auch PDFs öffnen und hat dann die einzelnen Elemente (Textboxen...) vorliegen.

Da kann man sich das mal anschauen, ob die PDFs überhaupt sinnvoll Text enthalten.

Denn leider kann "Text" bei PDFs je nach dem Programm mit dem es erstellt wurde alles sein: Zeichenfolgen in Textboxen, jedes einzelne Wort in Textboxen, Wortteile willkürlich in Textboxen, jeder einzelne Buchstabe eines Textes in einer Textbox - und Text als Grafik im Dokument. Letzteres besonders beliebt als "Kopierschutz".

Mathias
Beiträge: 6160
Registriert: Do 2. Jan 2014, 17:21
OS, Lazarus, FPC: Linux (die neusten Trunk)
CPU-Target: 64Bit
Wohnort: Schweiz

Re: Texte aus PDF/DWG auslesen

Beitrag von Mathias »

Oder das schlimmste. Dokumente, die von Papier eingescannt wurden.
Mit Lazarus sehe ich grün
Mit Java und C/C++ sehe ich rot

wp_xyz
Beiträge: 4869
Registriert: Fr 8. Apr 2011, 09:01

Re: Texte aus PDF/DWG auslesen

Beitrag von wp_xyz »

Mathias hat geschrieben:
Do 11. Jun 2020, 07:47
Oder das schlimmste. Dokumente, die von Papier eingescannt wurden.
Noch schlimmer, wenn der Scanner dabei Zeichen vertauscht: https://www.youtube.com/watch?v=7FeqF1-Z1g0

Benutzeravatar
Winni
Beiträge: 1577
Registriert: Mo 2. Mär 2009, 16:45
OS, Lazarus, FPC: Laz2.2.2, fpc 3.2.2
CPU-Target: 64Bit
Wohnort: Fast Dänemark

Re: Texte aus PDF/DWG auslesen

Beitrag von Winni »

Hi!

Im Falle von Linux gibt es einen schnellen Test, ob überhaupt Zeichen in der PDF vorhanden sind:

pdftotext Rein.pdf raus.txt

Winni

Antworten