Histform - innledning

Histform - innledning

Innledning

Historiske persondata blir her til lands brukt til mange formål både innen forskning, i skoleverket og til slektsgransking. Det er hovedgrunnen til at så vidt mange har satset på å overføre folketellinger, kirkebøker osv til maskinlesbar form. Dette arbeidet har imidlertid ikke vært så godt koordinert som man kunne ønske. Dermed har data som er blitt registrert for ett formål, ikke uten videre kunnet bli anvendt av andre. På denne bakgrunnen har Landslaget for lokalhistorie etter oppfordring fra noen av sine medlemmer tatt initiativ til å få utarbeidet standardiserte instrukser for registreringsarbeidet. Hensikten med dette er å oppnå datamaskinlagrede versjoner av kildene som både tilfredsstiller kravet til kildetrohet og samtidig er mest mulig ensartet formatert. Tar man utgangspunkt i den oversikten som RHD har laget over nominative, historiske data i maskinlesbar form, vil man se at en rekke ulike dataformater og instrukser er i bruk .

At de aktuelle kildene er nominative, vil si at de inneholder opplysninger om (en mengde) navngitte personer, som regel i rubrisert form. Vi vil for eksempel regne et matrikkelforarbeid for å være en nominativ kilde, for selv om gårdsbruk er hovedemne for oversikten, kommer alltid eierens navn med. Derimot er ikke folketellingene fra 1815 til 1855 nominative, siden de kun gir talloppgaver om gårdene. Historiske vil vi i utgangspunktet kalle persondataene når de er samlet inn før vi fikk statistikkloven av 1907, eller av andre grunner kan gjøres tilgjengelige for allmennheten. Kirkebøker er tilgjengelige seksti år etter siste innførsel, mens statlige folketellinger må være fra 1907 eller tidligere. Endelig vil vi med maskinlesbar mene at kilden er skrevet av og lagret på et magnetisk eller optisk lagringsmedium som harddisk, diskett, magnetbånd, CD-ROM eller lignende. Kilder som er skrevet av på papir for etterfølgende optisk lesning, er et grensetilfelle. Derimot er trykte kildeutgaver ikke direkte maskinlesbare.

Siden så mange ulike typer kilder kommer inn under definisjonen av å være nominative og historiske, har denne komiteen i første omgang begrenset arbeidet til å omfatte folketellingene. De mange valgene og avgjørelsene som har måttet tas underveis, og som har angått alt fra overordnede prinsipper til detaljer i kildeføringen, viser at det var en helt nødvendig avgrensing. Komiteen tar i neste omgang sikte på å utarbeide formater og instrukser for kirkebøkene.

Nominative folketellinger for både landdistriktene og byene i Norge ble foretatt i 1801, 1865, 1875, 1891 og 1900. Dessuten ble det avholdt nominative folketellinger i byene i 1870 og 1885 (i 1885 også i noen landdistrikter i Øst-Finnmark). Også disse tellingene er tatt med i den foreliggende Histform-standarden. På ett punkt har komiteen også gått ut over definisjonen: Folketellingen fra 1910 vil etter forskriftene bli gjort tilgjengelig for allmenn bruk først i år 2010. Komiteen har likevel utarbeidet registreringsformater og -instrukser også for denne tellingen, fordi det allerede nå er aktuelt å registrere deler av den for statistiske formål. Folketellingen fra 1801 er derimot allerede ferdig registrert for hele landet, og tilgjengelig fra Universitetet i Bergen. Det har derfor ikke vært nødvendig for komiteen å behandle denne tellingen. Histform-standarden omfatter derfor folketellingene i 1865, 1870 (byene), 1875, 1885 (byene), 1891, 1900 og 1910.

Fra kilde til bruker

Arbeidet med å dataregistrere en folketelling starter med at kilden kopieres i arkivet eller lånes ut i originalversjon. Deretter blir innholdet, rubrikk for rubrikk, overført til de felt som er satt opp i et dertil egnet skjema på dataskjermen. Under arbeidet må registratoren foreta en rekke valg, og det er blant annet regler for disse valgene som er utarbeidet i de instruksene som følger nedenfor. Ved registreringen overføres informasjonen fra tastatur og dataskjerm til datafiler på lagringsmediet (f eks harddisken). Disse filene kan i første omgang være utformet på mange ulike vis, avhengig av den programvaren som blir benyttet til registreringen. For de endelige datafilene fra registreringen anbefaler komiteen nedenfor noen få faste posttyper, et fast utvalg felt for hver av disse, en standardisert feltrekkefølge og en rekke andre krav. Dette anbefalte opplegget kalles samlet for et registreringsformat, og det er utarbeidet et slikt format for hver enkelt folketelling.

Etter at man har testet dataene maskinelt, lest korrektur og rettet feil, skal det ferdig registrerte materialet sendes ut til brukerne. Til dette har noen institusjoner tidligere anvendt registreringsformatet sitt direkte. Erfaringsmessig er det imidlertid bedre først å konvertere, dvs omforme, datafilene til et format som er mer anvendelig for brukerne. Til dette må det utvikles spesialskrevne programmer, såkalte konverteringsprogrammer. I tillegg til å overføre dataene til eventuelle nye felt og posttyper i et nytt format, kan disse programmene om ønskelig også foreta en lett omforming eller standardisering av visse dataverdier, for å gjøre dataene mer brukervennlige. Et eksempel er å null-utfylle verdien i enkelte nummerfelt (f eks fra '7a' til '007a') for å gjøre dem sorterbare. Dessuten kan konverteringsprogrammene ta seg av en del databearbeiding som kan automatiseres, og som verken registratorer eller brukere av materialet bør bruke tid på. Konverteringen tenkes å foregå hos den samme institusjonen som registrerer dataene, som en naturlig avslutning på registreringsarbeidet. Dette forutsetter at konverteringsprogrammene blir gjort allment tilgjengelige.

Resultatet av konverteringen er data i det man her har valgt å kalle et utvekslingsformat, men som like gjerne kunne ha vært kalt "bruksformat" eller "lagringsformat". Målet er at dette formatet etter hvert skal benyttes ved utveksling av alt tilgjengelig folketellingsmateriale i maskinlesbar form, både materiale som allerede er registrert, og materiale som vil bli registrert i framtida. Utvekslingsformatet er ment å skulle egne seg godt for langtidslagring av de maskinlesbare kildeversjonene, men først og fremst for innlesing og utnyttelse av folketellingsdata ved hjelp av allment tilgjengelig programvare. Databasesystemer som dBase, Paradox m fl skal enkelt kunne leseinn data mottatt i utvekslingsformatet, uten programmering fra brukerens side. Komiteen har utarbeidet et felles utvekslingsformat for de sju nevnte folketellingene. Dermed kan brukerne bearbeide og analysere folketellingsdata fra flere år og ulike geografiske områder samtidig i samme database. Dersom det senere blir aktuelt, kan også data fra folketellingen i 1801 overføres til dette utvekslingsformatet.

Komiteen tenker seg at datafilene i registreringsformat skal lagres ved registreringsinstitusjonen som sikkerhetskopi (sammen med de korresponderende filene i utvekslingsformat). Filene i registreringsformat anbefales ikke distribuert, men dersom enkelte brukere av helt spesielle grunner ønsker å utnytte denne mest kildetro versjonen av dataene, bør dette være mulig. Komiteen anser det ikke for nødvendig å utvikle generelle brukerprogrammer for behandling av data i registreringsformat. Disse dataene betraktes kun som "halvfabrikata".

Overordnede valg for formatene

Både i registreringsformatene og i utvekslingsformatet fordeles dataene i poster av ulike typer. De ulike postene lagres om hverandre i samme fil, men etter bestemte regler for rekkefølgen. I hver post finnes det et eget felt, kalt Posttype, som utfylt med en tallkode forteller hvilken type posten tilhører. Posttypene har faste navn og tallkoder som er gjennomført i samtlige formater, men posttypenes felt og feltrekkefølge kan variere sterkt fra telling til telling. De hierarkisk ordnede posttypene TELLINGSKRETS, BOSTED, LEILIGHET og PERSON går igjen i de fleste av tellingene. I registreringsformatene tilsvarer de ulike posttypene som regel de ulike skjemaene vi finner i originalkildene. Vær imidlertid oppmerksom på at skjemaene i kildene kan ha ulike betegnelser i forskjellige folketellingsår, selv om innholdet er noenlunde det samme. Av den grunn vil posttypene ofte ha andre navn enn de skjemaene de tilsvarer. Utvekslingsformatet inneholder samtlige posttyper som forekommer i de enkelte tellingene, men hver posttype er som hovedregel utvidet til å omfatte alle felt som er aktuelle for minst en av tellingene. På denne måten er utvekslingsformatet blitt felles for alle folketellingene. Feltrekkefølgen i postene i utvekslingsformatet er et kompromiss mellom de enkelte tellingenes registreringsformater.

Komiteen har vurdert bruken av flere ulike posttyper i samme datafil til å være en dyd av nødvendighet. Dersom en posttype skulle inneholde alle opplysninger om alt fra tellingskrets til person, pluss jordbruksopplysninger og skipsinformasjon, ville den måtte inneholde godt over hundre felt. Duplisering av hierarkisk overordnet informasjon om f eks tellingskrets og bosted i postene for hver person ville føre til et uakseptabelt plassforbruk, og dessuten betydelig ekstra-arbeid ved korreksjon av de overordnede dataene.

Komiteen har i samtlige formater innført en posttype som ikke tilsvarer noe skjema i kildene. Posttypen er kalt INFORMASJON. Slike informasjonsposter blir brukt til å ta vare på overskrifter i kildene, til merknader som omfatter flere personer eller boenheter, til å registrere personer som er overstrøket i kilden, eller til å markere at informasjon er blitt borte fra originalen (f eks nummererte skjemaer). Dessuten brukes informasjonsposten til å markere slutten på hver tellingskrets, for at man på den måten lett skal kunne kontrollere at tellingskretser og herreder/byer har kommet med i sin helhet, og ikke delvis har falt ut under den datamaskinelle bearbeidingen. Selv om denne posttypen voldte komiteen mye bry i formatarbeidet (ikke minst når det gjaldt reglene for plassering av slike poster blant postene av andre typer), og kanskje også vil volde både registratorer og databrukere visse problemer i startfasen, er posttypen vurdert å dekke et behov som vanskelig kan tilfredsstilles på noen enklere måte.

I alle folketellingene f o m 1875 er det ført såkalte skipslister. Dette er egne skjemaer for hvert skip (og dets mannskap) som enten hørte hjemme i, eller på tellingstidspunktet befant seg på havnen til, det aktuelle herredet eller byen. For 1891 eksisterer det kun sekundære skipslister. Det er utarbeidet registreringsformater og -instrukser for skip og skipsmannskaper på tilsvarende måte som for bosteder og personer på land. Posttypene SKIP og PERSON benyttes. Disse inngår også i utvekslingsformatet.

I forbindelse med tellingsarbeidet for de enkelte folketellingene ble det fylt ut en rekke skjemaer som kun inneholder aggregert informasjon, dvs opptellinger av personer, husholdninger, husdyr og utsæd f eks på gårds- eller kretsnivå. Komiteen betrakter disse som sekundærkilder, og vil derfor ikke anbefale at de registreres. En annen grunn er at dette tallmaterialet forholdsvis enkelt kan rekonstrueres med datamaskin på grunnlag av den maskinlesbare utgaven av primærkildene, og da også uten de mange feilene som tellerne har begått. På den annen side inneholder også primærskjemaene noen rubrikker hvor folketallet er summert, gjerne fordelt på kvinner og menn. Selv om også disse tallene iblant er feilaktige, kan de brukes til kontroll av registreringsarbeidet. Den aggregerte informasjonen som er inkludert i kildenes primærskjemaer, anbefaler komiteen derfor at blir registrert på vanlig måte.

Punkter som har vært mye diskutert

I sitt arbeid har komiteens indre arbeidsgruppe støtt på en rekke problempunkter der det i utgangspunktet var stor uenighet om hvilken løsning som skulle velges. Dette gjenspeilte ofte gruppemedlemmenes ulike prioriteringer og erfaringsbakgrunn fra henholdsvis registrerings- og brukersiden. Ifølge mandatet har komiteen vært pålagt å forlike sprikende hensyn og krav for at registrerings- standardene skal kunne "ta hensyn til kildetrohet og effektivitet i registreringsarbeidet, og samtidig legge data til rette for videre bearbeiding", og for at utvekslingsstandarden skal kunne "gjøre det lettere å utnytte ulike datasett i komparativ forskning". Nettopp vedtaket om separate registrerings- og utvekslingsformater har gjort det lettere å komme fram til løsninger. Aktuell behandling av ulike typer opplysninger fra kilden har kunnet fordeles på tre faser, nemlig registreringsfasen, konverteringsfasen og bruksfasen. Derfor er kildetrohet og registreringseffektivitet blitt prioritert i registreringsformatene og -instruksene, og i noe større grad brukervennlighet for dataene i utvekslingsformatet. Ved hjelp av interne faglige utredninger og konsekvensanalyser, grundige diskusjoner og en god porsjon kompromissvilje har den indre arbeidsgruppa til slutt kommet fram til et sett formater og instrukser som komiteen nå står samlet bak. For å illustrere noe av den faglige kompleksiteten som ligger gjemt i de tilsynelatende enkle folketellingsdataene, ønsker komiteen i det følgende å kommentere en del av de emnene som har forårsaket de mest intense diskusjonene under arbeidets gang.

Startfelt. De feltene som kommer først i hver post, og som viser hvor posten hører hjemme, er blitt viet spesiell oppmerksomhet. For å kunne foreta gode valg av startfelt, ble det satt opp noen kravtil disse feltene for hvert av formatene. I registreringsformatene ønsker man at startfeltene skal:

  1. gi posten en entydig kildehenvisning,
  2. gi posten en entydig identifikator (som f eks kan brukes til søking i forbindelse med korrektur),
  3. gi posten entydige henvisninger til de tilhørende postene lenger opp i hierarkiet og
  4. inneholde tilstrekkelig informasjon til at et spesialskrevet "fletteprogram" skal kunne skrive postene av ulike typer ut på en felles tekstfil i kildens rekkefølge.

    Flettingen i det fjerde kravet kan være aktuell dersom kilden registreres med et standard databaseprogram som lagrer dataene i egne tabeller (filer) for hver posttype. I utvekslingsformatet ønsker man i tillegg at startfeltene skal

  5. gi posten en entydig primærnøkkel, dersom brukeren fordeler postene i en relasjonsdatabase med separate tabeller for hver posttype, og
  6. gjøre det mulig å sortere postene av alle typer (unntatt INFORMASJON) sammen i kildens rekkefølge, f eks etter å ha vært bearbeidet typevis i en relasjonsdatabase.
Komiteen har arbeidet fram løsninger som tilfredsstiller alle disse kravene. I registreringsformatene har man valgt alltid å plassere Posttype som første felt, og deretter bare tatt med de feltene som er nødvendige for å sikre entydighet innenfor hver posttype. For posttypen øverst i hierarkiet, TELLINGSKRETS, er kun tellingskrets- nummeret nødvendig, mens det f eks for posttypen PERSON i byene i 1900 er nødvendig å ta med både Tellingskretsnummer, Huslistenummer, Personlistenummer og Personnummer for å oppnå entydighet.

I utvekslingsformatet inneholder alle posttypene de seks faste startfeltene Folketellingsår, Kommunenummer, Kretsnummer, Bostedsnummer, Leilighetsnummer og Posttype. Poster av typen PERSON og andre på samme hierarkiske nivå har i tillegg Personnummer som felt 7. Folketellingsår og kommunenummer er tatt med for at data fra ulike tellinger og områder skal kunne brukes sammen uten problemer med entydigheten. Felles startfelt i alle posttypene er nødvendig for å oppnå sorterbarhet (krav 6). Alle startfeltene er primært nummerfelt, men de kan inneholde bokstaver (littera). Derfor må de utfylles med et nødvendig antall foranstående nuller for å kunne sorteres som venstrejusterte, alfanumeriske felt.

Etternavn. Personenes oppgitte etternavn fordeler seg på to vesensforskjellige typer, nemlig patronymika (farsnavn) og slektsnavn (familienavn). For enkelte anvendelser av dataene vil det være hensiktsmessig å kunne behandle de to typene hver for seg, f eks når man vil knytte forbindelser mellom personer og deres fedre i et materiale med historiske persondata. En nærliggende løsning er å fordele de to typene etternavn på hvert sitt felt i alle formatene, men navn som ender på "-sen" skaper problemer, fordi de kan tilhøre begge typer. En eventuell oppsplitting vil være svært komplisert, og vil aldri kunne bli 100% historisk korrekt, enten den utføres manuelt under registreringen eller helt eller delvis maskinelt i konverterings- fasen. Komiteen har bestemt seg for å beholde etternavnene samlet i ett felt i registreringsformatet, og ved overgangen til utvekslingsformatet splitte dem opp maskinelt i patronymika og andre etternavn/slektsnavn utelukkende på grunnlag av navnets endelse ("-sen", "-datter" m fl). Denne løsningen er ikke fullgod, men den er vurdert å være bedre enn ikke å foreta noen oppsplitting i det hele tatt.

Spesialtegn. Ofte kan det være umulig for registratoren å tyde det som står i kilden. Dette kan skyldes slurvete skrift fra kildeførerens hånd, eller at kilden er blitt tilsølt eller skadet på annen måte. Noen ganger oppdager registratoren også opplagte feil i de opplysningene som er gitt. Alt dette må kunne markeres under registreringen. Det gjøres ved hjelp av ulike spesialtegn. Reglene for bruken av disse spesialtegnene er samlet i de generelle registreringsinstruksene som følger direkte etter denne innledningen. Registratoren har også muligheten til selv å formulere en kommentar i merknadsfeltet for å redegjøre for spesielle eller problematiske forhold i kilden.

Kildetrohet. Kildetroheten har som nevnt vært en av komiteens fremste ledestjerner, men det anbefales likevel å fire noe på dette prinsippet i de situasjoner der følgende tre forutsetninger er oppfylt (i det minste 1+2 eller 1+3): 1) Brudd på kildetroheten synes ikke å redusere opplysningenes informasjonsverdi for noe formål. 2) Brudd på kildetroheten høyner den maskinlesbare kildeversjonens brukskvalitet og -potensiale. 3) Brudd på kildetroheten øker registreringshastigheten vesentlig. Som antydet vil det alltid være et spørsmål om skjønn når man skal avgjøre om kildetroheten i visse faste situasjoner bør fravikes eller ikke. Komiteen har valgt å anbefale brudd bl a i følgende situasjoner: Endelsene i alle patronymikon-lignende etternavn forkortes under registreringen til "s." eller "d.". Unntatt er navn som ender på "søn", "zen" eller de svenske "son" og "dotter", som registreres fullt ut. Forkortelsene sparer skrivearbeid, samtidig som det blir enkelt å skille navneformene maskinelt under konverteringen. I feltet for "Ekteskapelig stilling" i samtlige tellinger vurderes det som akseptabelt å benytte de fem faste forkortelsene "ug", "g", "e", "s" og "f" for de fem betegnelsene ugift, gift, enke/enkemann, separert og fraskilt. Likeledes anbefales for flere felt å bruke faste forkortelser ved registrering av understrekede, trykte betegnelser i skjemaene fra folketellingen i 1891, f eks fra rubrikkene "Stilling til Familiens Hovedperson" og "Nationalitet". Faste forkortelser anbefales også brukt i en del andre felt, men bare dersom forkortelsen fullt og helt dekker den opplysningen som er oppgitt i kilden. En liste over de fastsatte forkortelsene er tatt med som appendix A i denne rapporten. Også andre mindre brudd på kildetroheten tilrådes i bestemte situasjoner. Dette er dokumentert i de generelle og i de kildespesifikke registreringsinstruksene.

Kildetro registrering innebærer også komplett registrering. Det vil si at alle opplysninger i kilden skal registreres i et passende felt i registreringsformatet. Dersom det er et mål at de dataene som registreres skal kunne utnyttes av andre, er det for folketellingene (med relativt få opplysninger for hver databærende enhet, dvs bosted, person osv) ikke akseptabelt systematisk å utelate noe av kildens informasjon. Forutsetning 1 for brudd på kildetroheten (ovenfor) er ikke oppfylt. Histform-standarden for folketellingene forutsetter følgelig komplett registrering. Selvsagt må det tillates at enkelte prosjekter for egne formål registrerer kun utvalgte opplysninger fra folketellingslistene, men slike datafiler må ikke distribueres som Histform-filer uten først å ha blitt komplettert.

Noen av problemene knyttet til kildetrohet bør nevnes spesielt:

Familiestilling og yrke. En persons "Stilling i familien" og "Stand eller Næringsvei" (e l) er oppgitt i separate rubrikker i fire av folketellingene, men ikke i 1865, 1870 og 1885. For å sikre konsistens mellom alle tellingene når det gjelder disse svært viktige personopplysningene, leggesdet opp til at registratoren skal fordele innholdet i den felles rubrikken i 1865, 1870 og 1885 på to separate registreringsfelt. I de fleste tilfeller vil fordelingen være uproblematisk: Under "Stilling i familien" plasseres opplysninger som angir familierelasjoner eller personens stilling innenfor husstanden, eller generelt hvordan personen bodde. Under "Stand eller Næringsvei" plasseres opplysninger om personens yrke, stand eller forsørgelsesforhold, eller generelt hva personen levde av. Men betegnelser som "inderst", "tjenestepige" og "føderaadsfolk" ligger i grenseland mellom de to feltene. I tråd med etablerte definisjoner av disse begrepene anbefaler komiteen at "inderst" plasseres under "Stilling i familien" og de to andre betegnelsene under "Stand eller Næringsvei".

Nummerering av eiendommer. Numre for matrikulerte jordeiendommer på landsbygda (matrikkelnummer, løpenummer, gårdsnummer, bruksnummer) er svært viktige for mange typer anvendelser av dataene, f eks ved oppbygging av bostedsregistre og personregistre og ved utarbeidelse av gårds- og slektshistorier for bygdebøker. Derfor var det bred enighet om å tilstrebe en mest mulig "ryddig" registrering og viderebehandling av disse numrene. I alle tellingene er det derfor opprettet separate felt for henholdsvis matrikkelnummer og løpenummer (gårdsnummer og bruksnummer f o m 1891), selv om numre av ulike typer er ført om hverandre i samme rubrikk i kildene. Det henstilles til registratorene å konsultere den trykte matrikkelen av 1886 eller 1903-07 for å avgjøre hvilken type nummer som er oppgitt, dersom dette ikke går klart fram av kilden. Tellingenes nummerering av eiendommene i byene er atskillig mer varierende både geografisk og kronologisk, og det er ikke innført separate felt for alle typer nummer her. De oppgitte numrene fordeles på feltene Bydel, "Gårdens nummer" og "Gatenavn og nummer i gata" etter regler gitt i de felles registreringsinstruksene i neste kapittel. For brukens del kunne det også vært "ryddet opp" i bostednavnene, særlig på landet, ved f eks å skille plassnavn fra gårdsnavn og registrere 'Kolstad, Østre' istedenfor 'Østre Kolstad' (for bedre sortering). Men komiteen har vurdert dette til å være et noe for drastisk brudd på kildetroheten.

Datoer. I folketellingene er personenes fødselsdato i 1910-tellingen den eneste fullstendige datoen som er systematisk oppgitt. Men fordi man her ønsker samme instrukser som for de senere kirkeboksformatene, har formen på datoene vært ivrig diskutert likevel. Bruk av tre separate felt for dag, måned og år har vært vurdert, sammen med ulike ett-felts former med og uten punktum mellom tallene. Valget falt til slutt på formen 'dd.mm.åååå' i registreringsformatene, for å oppnå naturlig registreringsrekkefølge og best mulig lesbarhet. I utvekslingsformatet ble formen 'åååå.mm.dd' valgt, først og fremst for å oppnå enkel sortering. (Jfr de felles registreringsinstruksene.)

Husstander. Inndelingen av personer i husholdninger (husstander) er viktig i noen typer anvendelser, f eks for vitenskapelige familiestudier og husstandsundersøkelser. Personene er delt inn i husholdninger i alle tellingene unntatt i 1885, men definisjonen av hva som er en egen husholdning varierer fra telling til telling. Innenfor samme telling kan dessuten kildeførerne ha oppfattet definisjonen ulikt, noe som avspeiles i føringspraksisen. Også blant faghistorikere varierer husstandsdefinisjonen. Spesielt er det enslige losjerende personer, og føderådsfolk/foreldre som bor i egen bygning men spiser sammen med hovedfamilien, som er vanskelige å plassere. Komiteen har følgelig ikke funnet det mulig å foreslå gjennomføring av en felles husstandsdefinisjon for alle tellingene. Inndelingen i hver enkelt kilde må bevares. Men det er foreslått en standardisert måte å markere tellingens husholdninger på. Under registreringen markeres en ny husholdning med et ett-tall i et eget felt i posten til den først oppførte personen (som regel "hovedpersonen") i husholdningen. På dette grunnlaget innføres det i utvekslingsformatet et eget husholdningsnummer i personpostene. Husholdningene nummereres fortløpende innenfor hvert bosted på landet og innenfor hver leilighet i noen av bytellingene.

Forholdet mellom virkelige bosteder og bostedposter i datafilen (m m)

Komiteen vil gjøre mottakere og brukere av data i utvekslingsformatet spesielt oppmerksomme på en konsekvens av Histforms formater og registreringsinstrukser slik de fremstår i dag:

I flere av tellingene (se nedenfor) er personene i kilden ført opp i lister der linjene er nummerert med påtrykte nummer i venstre marg. Histforms personidentifikator er bygd opp av et bostednummer (som regel listenummeret) og dette linjenummeret (kalt personnummer), i noen tellinger med et leilighetsnummer innimellom. Ofte har et bosted imidlertid flere beboere enn det er plass til på en side i listen, og flere lister undernummerert med littera (5a, 5b, 5c osv) er da gjerne tatt i bruk. Personnumrene starter på 1 innenfor hver liste. Registreringsinstruksene sier at det skal opprettes en bostedpost for hver liste, ellers går personidentifikatorenes entydighet tapt. En konsekvens av dette er imidlertid at datafilen vil inneholde flere bostedposter enn det er virkelige bosteder i herredet/byen.

Denne situasjonen kan oppstå for tellingene i 1875 (land og by), 1885 (by), 1900 (land) og 1910 (land). Den kan også oppstå for (store) leiligheter i 1900 (by) og 1910 (by), og for (store) skip i 1875, 1885, 1900 og 1910, men dette er trolig sjeldnere. I 1865 (by) og 1870 (by) har ikke linjene påtrykte nummer, så ekstra ark er ofte lagt inn i listene uten bruk av littera. Her forekommer det isteden at ulike bosteder med samme eier, f eks et firma eller en institusjon, har fått listenummer med samme tallverdi men ulike littera. I 1891 eliminerer bruken av personsedler det skisserte problemet, men et tilsvarende dukker opp når en tellingskrets omfatter bosteder i flere sogn. Da opprettes det en "Hovedliste", og etter registreringsinstruksen en tellingskretspost, for hvert sogn innenfor kretsen. Resultatet er flere tellingskretsposter enn virkelige kretser. Et tilsvarende problem kan også dukke opp når en bygård i 1891 inneholder flere leiligheter enn det er plass til i Huslistens Schema 1a og 1b. For 1865 (land) er instruksen utformet slik at en ny littera i Listenummeret (= kretsnummeret) ikke skal medføre en ny tellingskretspost, men isteden registreres i en post av typen INFORMASJON.

Når det gjelder samsvaret mellom tilstedeværende/hjemmehørende personer i herredet/byen og antallet personposter i datafilen, er dette ivaretatt i instruksene ved bl a ikke å registrere overstrøkne eller utenbygdsboende personer i egne personposter (men isteden i poster av typen INFORMASJON).

De brukere som for statistiske anvendelser (e a) ønsker eller er helt avhengige av et nøye samsvar mellom f eks bostedposter og virkelige bosteder, anbefales i sin egen database å fjerne unødvendige bostedposter og deretter omnummerere personene innenfor hvert virkelige bosted.

Programvare

Histform-standardens formater og instrukser er ikke tilpasset noen bestemt programvare, men er tvert imot forsøkt utformet så generell at den skal kunne brukes sammen med all aktuell programvare. Når det gjelder standarden for registrering, spesifiserer denne hvordan de endelige datafilene fra registreringen skal se ut. På dette grunnlaget blir det mye opp til den enkelte programutvikler å avgjøre hvordan registreringsprogrammet skal utformes og hvordan registreringen helt konkret skal utføres. For registreringsprogrammer bygget over standard programvare kan det for eksempel være aktuelt å mellomlagre dataene i et internt format, f eks med separate filer for hver posttype, før resultatfilen i det standardiserte registreringsformatet produseres. Videre vil flere av de feltene som ifølge instruksene skal fylles ut med verdier fra tidligere poster, kunne fylles ut automatisk ved hjelp av ulike kopieringsfunksjoner i registreringsprogrammet. Likeledes kan det som tastes inn i enkelte felt kontrolleres maskinelt og eventuelle feil varsles og rettes umiddelbart. På denne måten kan registreringen gjøres både sikrere og mer effektiv. En annen viktig effektivitetsgevinst kan oppnås ved at registreringsprogrammet forhåndsutfyller enkelte felt med den desidert vanligst forekommende opplysningen i den tilhørende kilderubrikken, slik at registratoren der ikke behøver å foreta seg annet enn å endre denne "normalverdien" de få gangene det er påkrevd. Slike normalverdier kan f eks være 'N' for "norsk Undersaat" i feltet "Undersåtlig forhold" (1900), 'S' for "den norske Statskirken" i feltet Trossamfunn (1900) og de to første sifrene '18' i feltet for fødselsår (1870-1900). Komiteen vil anbefale at det sammen med hvert registreringsprogram utarbeides en versjon av Histforms registreringsinstrukser som er tilpasset akkurat dette programmets utforming, skjermbilder, spesialfunksjoner og tilhørende funksjonstaster, til daglig bruk blant registratorene.

Komiteen håper at eksisterende spesialutviklede registrerings- programmer, som f eks BD87, CensIn og Rubreg, om kort tid vil bli tilpasset Histform-standarden. For prosjekter med små ressurser kan det også være ønskelig at det for offentlige midler utvikles et registreringssystem basert på standard programvare. I det minste bør det utarbeides og publiseres en veiledning i hvordan erfarne datamaskinbrukere ved hjelp av et standard databaseverktøy selv kan utvikle et registreringssystem som ivaretar Histform-standarden. Dette vil imidlertid være et omfattende arbeid som ikke kan anbefales enkeltpersoner og mindre prosjekter.

For å bringe data fra Histforms registreringsformater over til det felles lagrings- og utvekslingsformatet, trengs det som nevnt et sett med konverteringsprogrammer. Disse er ennå ikke utviklet. Om mulig vil de institusjonene som er representert i komiteen, gå sammen om å finansiere og produsere disse programmene, og deretter tilby dem til alle interesserte for en billig penge. I denne forbindelsen er det verdt å huske på at det hos forskjellige institusjoner og prosjekter allerede finnes store mengder registrert folketellingsmateriale lagret i andre formater. Med tid og stunder bør alt dette gjøres tilgjengelig i Histforms utvekslingsformat. Derfor er det viktig at konverteringsprogrammene gjøres "åpne", slik at det kan utarbeides varianter som kan lese andre formater enn Histforms registrerings- formater. Her hviler det også et ansvar på dem som tidligere har utarbeidet programvare for registrering av folketellingsdata, eller som sitter med slike datasett.

Når det gjelder brukerprogrammer som skal operere på data i Histforms utvekslingsformat, håper komiteen at det å få etablert et standard format for folketellingsdataene, i seg selv vil sette fortgang i utviklingen av slik programvare, både til forsknings-, undervisnings- og slektsgranskingsformål. Her forventes det først og fremst private initiativ, men det kan også være aktuelt å utvikle mer spesielle programmer for offentlige midler. For mer tradisjonelle anvendelser blant brukere uten spesiell databehandlingskompetanse håper komiteen at det i kjølvannet av denne rapporten vil bli utarbeidet og publisert en detaljert (men lett forståelig) veiledning i hvordan man ved hjelp av standard databaseverktøy (dBase, DataEase, Paradox m fl) på egen datamaskin kan opprette en database for mottatte data i utvekslingsformatet. "Ferdige" databasedefinisjoner (uten data) tilpasset de mest utbredte verktøyene kan tenkes å bli utviklet for salg.

Standardiseringsarbeid i Danmark

I Danmark er et beslektet standardiseringsprosjekt i gang, kalt "Kildeindtastningsprojektet". "Samarbejdsgruppen for Kildeindtastninger" (SAKI) har utarbeidet en generell, standardisert datamodell for rubriserte historiske kilder ("SAKI-modellen"), inneholdende beskrivelse av 12 sammensatte datatyper ("elementer") med tilhørende registreringsinstrukser. På basis av denne modellen er det fastlagt formater ("datastrukturer") for folketellinger, kirkebøker, matrikler og legdsruller. Danskene har som oss definert to ulike formater for hver kildetype, men istedenfor et registreringsformat og et utvekslingsformat med en maskinell konvertering imellom, opererer de med en "grundmodel" for strengt kildetro registrering av innholdet i kildens rubrikker, og en "utvidet model" med atskillig flere felt, noen av dem beregnet på standardiserte eller kodede dataverdier ("tolkninger" av kildens opplysninger, f eks normaliserte skrivemåter av personnavn). Data lagret etter den utvidede modellen forventes å ha tilfredsstillende brukskvalitet for de fleste formål, men konverteringen fra grunnmodellen til den utvidede modellen krever et betydelig manuelt eller interaktivt arbeid med splitting av rubrikker, standardisering, koding osv. Det legges opp til at data både skal lagres og kunne utveksles i begge formater.

I tilknytning til SAKI-modellen er det også utviklet et eget registreringsprogram for PC (kalt KIP - Kildeindtastningsprosjektet), med skjermbilder tilpasset grunnmodellen for en rekke ulike lister innenfor de fire nevnte kildetypene. Programmet er bygget over databaseverktøyet Paradox, og inneholder også søkemuligheter. KIP kan anskaffes gratis mot en forpliktelse om å avlevere en kopi av alle registrerte data til Dansk Data Arkiv (DDA) for videre fri distribusjon. Et lignende opplegg vil senere kanskje også bli aktuelt i Norge.

SAKI-modellen og KIP er utarbeidet for dataregistrering av historiske kilder blant danske "amatørhistorikere", dvs slektsgranskere og lokalhistorikere, og ikke for større registreringsinstitusjoner som de norske RHD og TeleSlekt. (Danmark har ingen slike.) Dette kommer til uttrykk ved at det overhodet ikke er tatt hensyn til effektivitet i registreringsinstruksene, som inneholder en mengde arbeidskrevende innslag, f eks at forkortelser brukt i kilden skal ekspanderes til full tekst under registreringen. Allikevel inneholder de danske instruksene en del detaljer som også er innarbeidet i denne norske standarden.

Det danske prosjektet er beskrevet i DDA's meldingsblad "DDA-Nyt" nr 65-1993 (utførlig dokumentasjon) og nr 68-1994 (kort presentasjon).

Innholdet i de resterende kapitlene

Resten av denne rapporten består av den konkrete beskrivelsen av Histform-standarden forregistrering og utveksling av data fra folketellingene.

Først kommer en gjennomgang av registreringsinstrukser som er felles for to eller flere av tellingene. Dette stoffet er skilt ut for å spare plass i instruksene for hver enkelt telling, og fordi det er spesielt viktig at registratorene følger disse instruksene konsekvent. Instruksene vil også ha betydning for den senere bruken av dataene.

Deretter følger registreringsformatene og -instruksene for hver av folketellingene i 1865, 1870 (kun byene), 1875, 1885 (kun byene), 1891, 1900 og 1910. Presentasjonen innledes med en kort orientering om de tellingsskjemaene som ble benyttet i den aktuelle tellingen. For hvert tellingsår følger så egne formater og instrukser for landdistriktene og byene, fordi det gjerne var store forskjeller mellom land og by både når det gjaldt organiseringen av tellingen, skjemaenes innhold og føringspraksisen. Til sammen blir det derfor 12 selvstendige formatdokumenter, der hvert enkelt dokument beskriver fra 3 til 7 ulike posttyper. Beskrivelsen av hver posttype inneholder en kort orientering om innholdet i og bruken av posten, en nummerert oversikt over alle feltene, en presisering av postens identifikatorfelter og til slutt detaljerte innholdsnoter og registreringsinstrukser for hvert felt. Feltbetegnelsene og -rekkefølgen i registreringsformatene følger så langt det er mulig de tilsvarende kildeskjemaene, men i moderne språkdrakt. Hvert formatdokument avsluttes med en anbefalt registreringsrekkefølge for skjemaene fra tellingen. Denne rekkefølgen bør følges dersom registreringsprogrammet og de foreliggende kildekopiene tillater det.

Selvfølgelig er det svært mye i disse formatbeskrivelsene og instruksene som er likt fra telling til telling. Enkelte sekvenser kan være helt identiske. Dette er naturlig, fordi målet nettopp er å komme fram til en standardisert behandling av de ulike tellingene. Til tross for at resultatet blir svært mange sider, er presentasjonen organisert slik med vilje, fordi brukeren skal kunne sette seg detaljert inn i en enkelt telling uten å kjenne de resterende. Kun de innledende fellesinstruksene må studeres av alle.

Det etterfølgende kapitlet inneholder dokumentasjonen av utvekslingsformatet. Beskrivelsen av de ni ulike posttypene i dette formatet inneholder for hvert felt opplysninger om hvilke tellinger feltet er aktuelt for, hva feltet inneholder, hvor i kilden eller registreringsformatet opplysningen er hentet fra, og hva som eventuelt er gjort med opplysningen under konverteringen. Sammen med dokumentasjonen av registreringsformatene og -instruksene bør denne dokumentasjonen være et tilstrekkelig grunnlag både for dem som skal utvikle konverterings- eller brukerprogrammer, og for sluttbrukerne av dataene.

En samling tekniske og overordnede spesifikasjoner for datafilene i Histform-format avslutter den skriftlige presentasjon av komiteens arbeid. Spesifikasjonene fastsetter feltskiller, postskiller, tegnsett, standard for filnavn, dokumentasjon av dataene m m. For at utvekslingen av data mellom "produsenter" og brukere i fremtiden skal foregå mest mulig smertefritt, er det svært viktig at disse spesifikasjonene følges i detalj.

Helt til slutt i rapporten følger et appendix A med forkortelser som forventes benyttet både i registrerings- og utvekslingsformatene, og et appendix B med et eksempel på en datadokumentasjonsfil. Rapporten burde også ha inneholdt et appendix med kopier av noen utfylte folketellingslister, helst supplert med en utskrift av de samme dataene lagret i registrerings- og utvekslingsformat. Komiteen har dessverre ikke hatt ressurser til å utarbeide slike eksempler i denne omgangen, men det vil forhåpentligvis komme med i et senere opplag.