bookscan.py - ein Buch-eBuch-Konverter

Nicht meckern - selber machen!

Unter genau diesem Motto habe ich mich für das lange Wochenende entschieden eine kleine Buch zu eBuch-Software zu schreiben. bookscan.py ist ein ziemlich rohes und rauhes Stück Code, aber es funktioniert bereits erstaunlich gut.

Man nehme: Python 2.4 (vermutlich auch höher), Qt 4.3.3 (vah), PyQt 4.3.3 (vah), tesseract 2.0 (vah), sane-backends / scanimage 1.0.18 (vah) und alles unter Gentoo/Linux 2.6.23

Der Programmablauf ist weitgehend banal:

  1. Vorschau einscannen
  2. gewünschten Bildauschnitt auswählen / ausmessen (Sitenzahl, Kopfzeile braucht man nicht)
  3. Anzahl der Seiten pro Scan (aufgeschlagenes Buch = 2 Seiten) einstellen
  4. dpi-Zahl einstellen 300 bis 400 sind optimal
  5. scannen ... scannen ... scannen
  6. Texterkennung laufen lassen
  7. ggf. Korrekturen vornehmen
  8. als PDF-ausgeben lassen
  9. auf eBuch-Lesegerät laden - Fertig

Das Programm ist weit davon entfernt allgemein nutzbar zu sein und hat noch viele Einschränkungen und jede Menge Ideen sind noch nicht fertig. Die Bedienoberfläche ist noch in vielen Bereichen eine Baustelle. Aber da es bereits passabel funktioniert im Kern (man muß allerdings ein bisl im Python-Code einige Voreinstellungen noch per Hand anpassen) möchte ich nach der Devise 'realease often and release early' es einfach zu verfügung stellen.

Download:

bookscan.tar.gz


  Nergal

E-Bücher oder eBooks auf deutsch

Ich lese gerne, ich lese viel, aber ich mag es nicht mehr Buchseiten aus Papier umzublättern.

Eigentlich auch kein Problem im Zeitalter der eBook-Reader, aber (!) wehe dem, der deutsche E-Bücher erwerben möchte.

Wenn man die gängigen Online-Händler abklappert (libri.de, amazon.de und natürlich den Münsteraner buch.de), so ergibt sich ein Bild der Hoffnungslosigkeit: Perry Rhodan dominiert mit ca. 95% den Bereich Science Fiction, gerne unterfüttert mit Werken von Jules Verne und ein paar anderen Autoren.

Der EDV-Bereich ist noch 'traditionell' am besten bestückt, aber das sind in der Regel keine Lektüren.

Ein weiteres Highlight sind die Ratgeber und Lebenshilfen, bei denen sich der Druck anscheinend nicht mehr lohnt.

Allmählich besser wird die Situation bei den historischen Romanen, seit Autoren wie Tilman Röhrig oder Tanja Kinkel ihre Werke auch in elektronischer Form veröffentlichen.

Anscheinend der einzige Verlag, der erkannt hat, das elektronische Bücher bei Nachschlagewerken enorme Vorteile bieten ist PONS. Für gut 50 € kann man die beiden Großwörterbücher für DE <-> EN bekommen. Und man ist trotzdem so schnell, als wenn man den kleinen Taschenlangenscheidt durchsucht - nur die Resultate sind umfangreicher ;) .

Ebenfalls in die richtige Nische stoßen die Marco Polo-Reiseführer vor. Es gibt zwar noch ein paar kleinere Anbieter, die ebenfalls auf den elektronischen Markt gehen, aber der ADAC oder National Geographic als echte Referenzen auf dem Gebiet (unter vielen anderen) glänzen hier durhc Abwesenheit.

Am Ende bleibe ich also doch bei meinen kostenlosen Büchern von gutenberg.org, manybooks.net und seit jüngerer Zeit für den iLiad feedbooks.com.

Mein Fazit: die Technik ist da ... die Inhalte fehlen! - Liebe Autoren und Verlage: Es gibt so viele Möglichkeiten um Papier, Lagerraum und Logistik einzusparen und zugleich so unendlich viele Inhalte anzubieten.

Auf etwas Schwung im deutsch-sprachigen eBuch-Markt hoffend ...

  Nergal

Ende der Sendung im Bürgerfunk

Leider war in den letzten Monaten meine Zeit fast zur Gänze fürs Programmieren und Erlernen des Qt-GUI-Toolkits draufgegangen. So daß nichtmal mehr ein paar Minuten für Rezensionen, Sendungsberichte oder anderes blieb.

Da wir in Zukunft wohl nicht mehr die gesetzlichen Vorgaben für den Bürgerfunk werden erfüllen können (drei Personen mit dem sogenannten Radio-Pass, alle wohnhaft in Münster) und auch die Lage des Bürgerfunks in Münster speziell derzeit eine schwierige ist, wird wohl erstmal die Sendung ruhen; vielleicht geht es irgendwann wieder on Air oder ins Internet.

Vielen lieben Dank an alle Hörer, ganz besonders aber auch an Klaus Blödow vom medienforum in Münster, der uns technisch bei allen Sendungen zur Seite stand.

Ich hoffe bald auch hier wieder ein wenig zu meinen Programmier-Projekten mitteilen zu können, was aber derzeit noch in der Schwebe ist - Geduld ;) .

Bis dahin, alles Gute!

  Nergal

Monasteria Obscura

Eine ganze Stunde Sendezeit war wieder zu unserer Verfügung, das haben wir ausgenutzt und auch mal längere Titel gebracht.

Da ein geplantes Interview leider nicht stattfinden konnte, also einfach mal Musik pur.

Um auch ein bischen Lokalkolorit einzubringen haben wir die 90'er Jahre Electro-Band 'X Marks the Pedwalk' aus Münster gespielt, die heutzutage nur noch sehr selten zu hören ist. Durch die spontan noch untergebrachte Pressemitteilung des Bürgerfunks konnte wir das zweite regionale Projekt 'Krenz' nicht mehr voll auspielen.


Unsere Playlist und Links zu den Liedern aus der Sendung:

  1. Sins of Thy Beloved - My Love, vom Album 'Lake of Sorrow' (1998) :: tsotb.tk (Fan-Seite)
  2. X Marks the Pedwalk - Missing Light, von der EP 'FACER' (1995) :: xmtp.de
  3. Sisters of Mercy - Temple of Love touched by the hand of Ofra Haza, von der re-released Maxi 'Temple of Love' (1992) :: the-sisters-of-mercy.com
  4. Strafbomber - Tatort, vom Sampler 'New Blood from the Dark' (2005) :: strafbomber.de
  5. Ozzy Osbourne - Mama, I'm Coming Home, von der Maxi 'Mama, I'm Coming Home' (2003) :: ozzy.com
  6. Front 242 - Headhunter 2000 haujobb Mix von der Maxi 'Headhunter 2000 part 2.0' (2000) :: front242.com
  7. Velvet Acid Christ - Discoloured Eyes, vom Album 'Lust for blood' (2006) :: velvetacidchrist.com
  8. Krenz - Denem U Rar, vom Album 'Serum' :: nich-erschrecken.de

Ausgestrahlt wird die Sendung am 20. Januar um 20.00 Uhr im Bürgerfunk via Antenne Münster auf der Frequenz 95.4 MHz. Empfangbar in Münster und näherem Umland.

Weitere Infos ...

Wir freuen uns auf Euer Einschalten!

  Nergal

GPS / GPX in GoogleMap umwandeln

Wer schon immer mal einfach seine GPS-Daten auf einer GoogleMap veröffentlichen wollte, der wird mit gpx2gm.py das machen können.

Mich hat geärgert, daß es so mühsam ist seine GPS-Tracks zu veröffentlichen. Man muß Sie erst via gpsbabel einlesen und dann kann man das zwar mit einem webdienst umwandlen lassen in eine GoogleMap, aber da muß man dann jede Menge Handarbeit anlegen, bis die so aussieht, wie man das gerne hätte.

gpx2gm.py ist zwar noch lange nicht am Ziel meiner Wünsche, aber die wichtigste Fähigkeit beherrscht es ganz ordentlich.

Das Programm liest eine gpx-Datei ein und wandelt alle Trackpunkte in eine GoogleMap-Polylinie um. Es unterscheidet noch nicht zwischen einzelnen Tracks innerhalb einer Datei, das kann man als Vorteil sehen, wenn man kleinere Unterbrechungen im Empfang hatte, oder als Nachteil , wenn das alles gar nicht zusammen betrachtet werden soll - das ist so eine Sache an der es noch zu arbeiten gilt.

Was es kann (für mittlere Breitengrade), ist aber das nötige Zoomlevel anhand der gewünschten Kartengröße in Pixeln zu wählen und so dafür Sorge zu tragen, daß man da kein lästiges rumprobieren hat.

Einzige Vorraussetzung ist, daß man die Tracks vom Gerät im XML Format als .gpx-Datei vorliegen hat.

Wer es ausprobieren möchte:
auf der Befehlszeile python gpx2gm.py pfad/zur/datei.gpx
eingeben.

In der Programm-Datei sind alle Variablen ausführlich kommentiert, so daß man sich einigermaßen schnell zurecht finden sollte. Für die Zukunft ist hier eine Vereinfachung angedacht. Bevor man aber eine solche Karte veröffentlichen kann, muß man sich von Google eine kostenlosen API-Key zuteilen lassen.

  Nergal

Logdatei von bots befreien

Auf dem webspace auf dem dieser Blog läuft, kann man sich eine Applikation (webalizer) einrichten, um die die Statistiken zu betrachten. Um mir diesen Applikationsslot freizuhalten lade ich mir lieber bei Bedarf die aktuelle access.log herunter und jage sie durch webalizer.

Eigentlich ist das ja auch so simpel wie nur irgendwas, aber eines ärgerte mich dann doch zunehmend, vor lauter Bots war an eine Analyse gar nicht zu denken.

webalizer bietet zwar durchaus in der Konfigurationsdatei einiges an, um sich Bots zu entledigen, aber die zu konfigurieren war mir viel zu umständlich und unflexibel.

Also galt es den ganzen Mist herauszufiltern. Dazu bieten RegEx ein breites Spektrum.

Etwas vergleichbares hatte ich im Internet nicht gefunden, und da vermutlich auch andere dieses Schicksal teilen, werde ich ein kleines Shell-Skript zum herunterladen anbieten.

Im Prinzip muß man es nur von dem Ordner aus aufrufen, in dem sich die access.log-Datei befindet. (Achtung! - webalizer erzeugt u.a. eine index.html-Datei, es sollte also nicht im root-Verzeichnis eines webspaces erledigt werden.) Es wird eine Zwischendatei angelegt, aus der webalizer gespeist wird (eine direkte Pipe ist leider nicht möglich, da webalizer mit dem Erzeugen beginnt, bevor sed fertig ist), diese Hilfsdatei wird aber wieder entfernt. auch die Logdatei bleibt intakt, für diejenigen, die dies gerne auf einem Servre ausführen möchten.

Das Shell-Skript:

antibot.sh

Viel Erfolg!

  Nergal