/ UiT Norges arktiske universitet
 

Teknisk og overordnet spesifikasjon av folketellingsfilene

De foregående kapitlene beskriver hvilken post- og feltstruktur datafilene fra folketellingene skal ha for å følge Histform- standardens ulike registreringsformater og dens utvekslingsformat. I tillegg gis det til dels detaljerte instrukser for dataverdienes utseende (dvs feltenes innhold). Til sammen kalles disse spesifikasjonene gjerne for filenes "logiske format".

Dette kapitlet inneholder en del datatekniske og noen mer overordnede spesifikasjoner av folketellingsfilene, de første ofte kalt filenes "tekniske format". Når ikke annet er angitt, gjelder disse spesifikasjonene for filer både i registrerings- og i utvekslingsformat, men siden det er utvekslingsformatet som i utgangspunktet skal benyttes ved all distribusjon av data, er det desidert viktigst at spesifikasjonene følges for dette. Filer i utvekslingsformat må kunne distribueres både via fysiske medier som magnetbånd, diskett, CD-ROM m fl, og over datanett. Enkelte registreringsprogrammer kan fremtvinge eller gjøre det hensiktsmessig å velge andre tekniske løsninger for registreringsformatene.

Tekniske spesifikasjoner

1) FILTYPE:
Datafilene både i registrerings- og utvekslingsformatet skal være vanlige "flate tekstfiler".

Filene skal altså ikke være kodet eller på annen måte tilpasset noen bestemt maskin- eller programvare.

2) FELTSKILLE:
Tegnet lt;' "mindre enn") benyttes som skilletegn mellom feltene i begge formater.

Dette medfører at tegnet lt;' ikke må forekomme i dataverdiene, da dette vil føre til ødeleggende feltforskyvninger i dataposten. Om mulig bør registreringsprogrammene forhindre dette, og det må kontrolleres i konverteringsprogrammene.

3) ANTALL FELT:
Antall feltskilletegn i en datapost skal alltid være lik det antallet felt som er definert for den aktuelle posttypen i det aktuelle formatet.

Dette vil si at en datapost aldri må "kuttes" etter siste utfylte felt. Slike kuttede poster vil ofte medføre store problemer ved innlesing av data til kommersielle databasesystemer m m.

4) POSTSKILLE:
Tegnparet 'Ctrl-M' + 'Ctrl-J' (CR + LF, dvs vanlig linjeskift) benyttes som skille mellom postene i begge formater.

Dette betyr i klartekst at filene har en logisk datapost pr linje.

5) POSTLENGDE:
Både felt og poster i datafilene kan ha ubegrenset lengde.

Dette er et idealkrav. I praksis burde en maksimal postlengde (og dermed også feltlengde) på ca 1000 tegn være nok for folketellingsfilene, slik at en logisk datapost vanligvis ikke må fordeles på flere linjer på filen. På denne måten unngås "skjøting" av poster.

Merk: At en dataskjerm ofte ikke har plass til mer enn 80 tegn pr linje, bør ikke skape problemer i denne sammenhengen. Derimot er det et faktum at enkelte editorer, tekstbehandlingssystemer og andre programmer ikke kan lese inn linjer som inneholder mer enn et bestemt antall tegn. Maksimallengden er ofte mindre enn 1000 tegn. Derfor vil det sammen med Histform datafiler om ønskelig bli levert et lite program (gratis) som deler eventuelle lange poster i filen opp i et nødvendige antall linjer a en lengde som spesifiseres av brukeren (f eks 80 tegn). Tegnet '+' til slutt på en linje angir da at posten fortsetter på neste linje. Det nevnte programmet vil også inneholde en rutine som skjøter korte linjer sammen igjen til poster av ubegrenset lengde.

6) TEGNSETT:
Det internasjonalt vedtatte standardtegnsettet for vesteuropeiske språk, ISO 8859/1 (også kalt "ISO Latin 1"), er standard tegnsett for konvertering, lagring og distribusjon av filer i Histforms utvekslingsformat.

Dette tegnsettet er i dag dominerende innenfor PC/Windows- og Unix-miljøene i Norge og de fleste andre land. Konvertering av filer mellom ISO 8859/1 og andre aktuelle tegnsett, som f eks 8-bits settet for MS-DOS (CP 850), 8-bits settet for Apple Macintosh (Newton) og det gamle 7-bits settet ISO 646/60 ("Norsk ASCII"), kan enkelt foretas av distributøren eller helst mottakeren ved hjelp av filterprogrammer som Pep, Aladdin m fl. Om nødvendig vil slike programmer bli utviklet spesielt for Histform, og om ønskelig distribuert sammen med dataene.

Tegnsettet for filer i registreringsformat må i større grad kunne tilpasses den maskin- og programvaren som blir benyttet under registreringen.

Overordnede spesifikasjoner

7) DOKUMENTASJONSFIL:
Sammen med enhver datafil som distribueres i Histforms utvekslingsformat, skal det følge en egen dokumentasjonsfil med en del overordnet informasjon om datafilen og dens tilblivelse. Følgende informasjon kan f eks inngå i dokumentasjonsfilen (punktene a, b og d skal alltid være med):

a) Filens innhold:
En statistisk oversikt over hvor mange poster av hver posttype datafilen inneholder, og den maksimale postlengden (i antall tegn) for hver posttype. For hvert felt i hver posttype oppgis videre i hvor mange poster feltet er utfylt, og den maksimale feltlengden (i antall tegn).

Dette siste er meget nyttig informasjon når brukeren av dataene skal definere en egen database som dataene skal leses inn i. En slik statistisk oversikt kan enkelt utarbeides rent maskinelt.

b) Kildegrunnlag:
Kortfattede opplysninger om hvilken kilde datafilen er basert på (tittel, geografisk område osv), hvor originalen blir oppbevart og i hvilken form kilden er blitt benyttet (originalkilde, fotokopi, mikrofilm e a).

c) Eventuelle spesielle forhold i kilden:
Under registreringen bør spesielle egenskaper ved hele eller deler av kilden dokumenteres. Dette kan gjelde kildens kompletthet, kvalitet (evt skader), skrift, systematiske avvik fra tellingsinstruksen, spesiell føringspraksis osv. Fri tekst.

d) Filens tilblivelse:
En kronologisk gjennomgang i fri tekst av arbeidsprosessen bak datafilens tilblivelse (registrering, korrektur, konvertering osv). Beskrivelsen skal inneholde hvor, når og av hvem (institusjon og/eller person) de enkelte arbeidsstegene er utført.

e) Eventuelle avvik fra Histform-standarden:
Her opplyses det om hvilke instrukser i Histform-standarden som eventuelt ikke er fulgt under registreringen eller ved konverteringen til utvekslingsformatet. Selvfølgelig bør slike avvik helst ikke forekomme, men kan f eks være forårsaket av vektige effektivitets- eller kapasitetsgrunner.

f) "Gårdens nummer" i byene:
Her redegjøres det for hvilke(n) type(r) nummer som i denne datafilen er plassert i feltet "Gårdens nummer" i bostedpostene. Det kan f eks være nummer innenfor roden, branntakstnummer, matrikkelnummer e a.

Linjene i dokumentasjonsfilen bør være maksimalt 80 tegn lange.

Appendix B inneholder et eksempel på en slik dokumentasjonsfil.

8) FILNAVN:
Navn på datafiler i Histforms utvekslingsformat skal være på formen "Fåååkkkk.UTV", der 'F' står for Folketelling, 'ååå' for de tre siste sifrene i folketellingsåret, og 'kkkk' for herredets/ byens kommunenummer. Tilsvarende form for dokumentasjonsfiler er "Fåååkkkk.DOK" og for filer i registreringsformat "Fåååkkkk.REG".

Eksempel: Filen F8650432.UTV inneholder data i utvekslingsformat fra folketellingen 31.12.1865 i Rendalen herred i Hedmark fylke.