Collectie: Early Dutch Books Online

Collectie: Early Dutch Books Online

Wie & Wat

Early Dutch Books Online (EDBO) bevat meer dan twee miljoen gedigitaliseerde bladzijden uit boeken gedrukt in de jaren 1781-1800 in het Nederlandse taalgebied. De set is een samenwerkingsproject van de Koninklijke Bibliotheek en de universiteitsbibliotheken van Amsterdam en Leiden. Ieder van deze bibliotheken bezit ongeveer 1/3 van de gedrukte werken. De set telt 11.240 boeken (9.710 titels), met onder meer:

 

Zak- en reis-atlas van geheel Spanje en Portugal

Fig 1. Atlas portatif de l’Espagne & du Portugal. = Zak- en reis-atlas van geheel Spanje en Portugal (Delpher.nl)

 

Mogelijke toepassingen

De boeken zijn sinds november 2013 opgenomen in Delpher. Delpher zorgt voor een fulltext search index. Maar er is meer mogelijk. je kan bijvoorbeeld mooie publiek domein afbeeldingen vinden in deze boeken, of de ontwikkeling van boeken op basis van woordinhoud visualiseren over tijd. Of een boeken in het publieke domein bibliotheek beginnen. En hoe geef je deze boeken een nieuw publiek?

 

Hoe te gebruiken

De set bestaat uit scans van de gedrukte pagina’s voorzien van OCR (voor verbetering vatbaar, uit 2010) en woordlocaties. Naast metadata is er van elk boek is een fulltext PDF beschikbaar, metadata en afbeeldingen van de gescande pagina’s. De data is toegankelijk via SPARQL op lod.kb.nl in de graph http://lod.kb.nl/edbo/. Daarnaast kan je van elk boek ook de webpagina bekijken:

We kunnen alle identifiers van de items in de EDBO datasets selecteren met (link);

select $s where {
$s void:inDataset <http://lod.kb.nl/edbo/>
}

Vervolgens kan je gewenste properties hier met OPTIONAL aan toe voegen. Om een beeld van de beschikbare properties te krijgen, kijken we naar 1 boek (link):

In het veld ” http://xmlns.com/foaf/depiction”  zie je een link naar “http://resolver.kb.nl/resolve?urn=dpo:5105:mpeg21”. De KB resolver verzorgt persistent URI’s en is ook een mooie manier om verschillende versies (formaten) van een object te krijgen. Hier wordt de link gelegd naar het dpo nummer.  Door “:pdf” aan de url  toe te voegen krijg je de pdf  versie met text inbedding.

http://resolver.kb.nl/resolve?urn=dpo:5105:mpeg21:pdf

Je kan ook een pagina opvragen, of enkel de OCR tekst in DIDL of ALTO formaat. Dit doe je door een pagina nummer toe te voegen met 4 cijferige index voorafgegaan een dubbele punt “:0007” is pagina zeven. En dan te vervolgen met het type formaat welke “:image” , “:ocr” (DIDL) of “:alto” is:

http://resolver.kb.nl/resolve?urn=dpo:5105:mpeg21:0007:ocr (DIDL OCR van pagina 7)

http://resolver.kb.nl/resolve?urn=dpo:5105:mpeg21:0007:alto (ALTO  OCR van pagina 7).

http://resolver.kb.nl/resolve?urn=dpo:5105:mpeg21:0007:image (volledige grootte afbeelding, in JPF formaat, JPEG2000)

Om dit formaat te kunnen lezen heb je speciale software nodig die dit ondersteunt. Het kan helpen om de bestandsextensie van “jpf”  naar “jp2” te hernoemen. Op linux kan je de package “j2k_to_image” gebruiken, dit is een eenvoudige converter die redelijk werkt en als output bmp levert. Handiger is om een afgeleide versie in JPG op te vragen via de Imaging Service, zie hieronder. De beeldkwaliteit is tussen beide formaten is bijna niet te onderscheiden.

 

Imaging service

De KB imaging service kan aangepaste versies van afbeeldingen voor je opmaken met rotaties en verkleiningen. Dit werkt niet via de KB Resolver maar via de imaging service. Hiervoor zal je ook het DPO nummer bij de hand moeten houden:

http://imageviewer.kb.nl/ImagingService/imagingService?&id=dpo:5105:mpeg21:0007:image     (Mid-size JPG van pagina 7 van document)

http://imageviewer.kb.nl/ImagingService/imagingService?r=180&h=300&id=dpo:5105:mpeg21:0007:image   (verkleinde  JPG van pagina 7 ,300px hoog, 180 graden geroteerd)

 

Early Dutch Book Online is ook vast onderdeel van de KB Dataspace, zie alle info daarover op de KB data-pagina. We zijn benieuwd naar nieuwe toepassingen van deze prachtige dataset. 

 

 

Back to site top