Collectie: Kranten 1865-1875

Collectie: Kranten 1865-1875

Wie & Wat

Deze krantendataset (CC-BY) bevat een deelselectie (1865-1875) van de gedigitaliseerde historische kranten op Delpher. Let wel, deze dataset ‘Kranten (1875-1885) is speciaal gemaakt voor ontwikkelaars om mee te werken tijdens de Hack-a-LOD. De dataset kan daarom nog enige fouten bevatten die we uiteraard graag verbeteren. Daarnaast wordt niet gegarandeerd dat deze dataset over een aantal jaren in huidige vorm ook nog beschikbaar is .

 

Mogelijke toepassingen

Deze dataset biedt inzicht in historische gebeurtenissen, maar geven ook een goed beeld van het dagelijks leven en hoe de samenleving was. Van braderieën, wereldnieuws tot weerberichten en verloren schepen. Dit alles is te lezen in deze kranten. Daarnaast zijn er af en toe logo’s aanwezig, die wellicht ook nog waarde hebben.

 

Hoe te gebruiken

De volgende bestanden zijn beschikbaar:

  • Hi-res opname van het originele typoscript (JP2 / JPG-formaat)
  • Full-textbestand verkregen via automatische OCR (DIDL). Hier zitten fouten in die niet gecorrigeerd zijn.
  • Bestand met de coördinaten van elk woord van het typoscript (ALTO) in XML)
  • Linked Data om de samenhang van bestanden 1, 2 en 3 weer te geven.

Al deze bestanden zijn toegankelijk via het SPARQL endpoint op http://lod.kb.nl/sparql in graph http://lod.kb.nl/kranten/, en omvat 29.670 kranten uitgegeven in de periode 1865-1875 met 914.136 individuele artikelen beschreven. Kranten zoals het Provinciale Overijsselsche en Zwolsche courant tot de De Curaçaosche courant. De pagina’s bevatten links naar een afbeelding van de gescande pagina van de oorspronkelijke krant, en de artikelen bevatten links naar OCR resultaten van het artikel, ofwel de automatisch herkende tekst van een artikel.

kranten

Als we bijvoorbeeld het Samarangsch advertentie-blad en dan de uitgave van 1872-05-14  er bij pakken. Om de hele krant te lezen kan je via depiction een PDF ophalen. Bij de relatie dcterms:hasPart kan je de pagina’s zien, bij dcterms:isPartOf kan je alle artikelen zien. Het artikel (isPartOf relatie) ‘Oranje Boven!’ grijpt ons en we klikken verder. Met de dc:identifier heb je een link naar de weergave van dit artikel in Delpher middels een ‘anchor’. Via het veld ‘http://lod.kb.nl/ontology/ocr’ heb je een link naar de fulltext in DIDL formaat van het artikel.

Op pagina niveau kan je ook het ALTO formaat (veld:<http://lod.kb.nl/ontology/alto>) met coordinaten opvragen.

Dan is een weergave van de pagina ook erg handig. Het veld ‘<http://lod.kb.nl/ontology/largeImage>‘ levert deze jp2 die je kan converteren met de package “j2k_to_image” (linux) gebruiken, dit is een eenvoudige converter die redelijk werkt en als output bmp levert. Handiger is om een afgeleide versie in JPG op te vragen via de KB Imaging Service, zie hieronder. De beeldkwaliteit is tussen beide formaten is bijna niet te onderscheiden:

Door het ALTO bestand te analyseren kan je een mapping maken op de afbeelding , hierdoor kan je een viewer maken die de afbeelding weergeeft en de letters op de juiste plek er overheen legt. Er is een uitstekend ovcerzicht van de mogelijkheden met ALTO te vinden op Github.

 

Back to site top