De foregående kapitlene beskriver hvilken post- og feltstruktur datafilene fra folketellingene skal ha for å følge Histform- standardens ulike registreringsformater og dens utvekslingsformat. I tillegg gis det til dels detaljerte instrukser for dataverdienes utseende (dvs feltenes innhold). Til sammen kalles disse spesifikasjonene gjerne for filenes "logiske format".
Dette kapitlet inneholder en del datatekniske og noen mer overordnede spesifikasjoner av folketellingsfilene, de første ofte kalt filenes "tekniske format". Når ikke annet er angitt, gjelder disse spesifikasjonene for filer både i registrerings- og i utvekslingsformat, men siden det er utvekslingsformatet som i utgangspunktet skal benyttes ved all distribusjon av data, er det desidert viktigst at spesifikasjonene følges for dette. Filer i utvekslingsformat må kunne distribueres både via fysiske medier som magnetbånd, diskett, CD-ROM m fl, og over datanett. Enkelte registreringsprogrammer kan fremtvinge eller gjøre det hensiktsmessig å velge andre tekniske løsninger for registreringsformatene.
Filene skal altså ikke være kodet eller på annen måte tilpasset noen bestemt maskin- eller programvare.
Dette medfører at tegnet lt;' ikke må forekomme i dataverdiene, da dette vil føre til ødeleggende feltforskyvninger i dataposten. Om mulig bør registreringsprogrammene forhindre dette, og det må kontrolleres i konverteringsprogrammene.
Dette vil si at en datapost aldri må "kuttes" etter siste utfylte felt. Slike kuttede poster vil ofte medføre store problemer ved innlesing av data til kommersielle databasesystemer m m.
Dette betyr i klartekst at filene har en logisk datapost pr linje.
Dette er et idealkrav. I praksis burde en maksimal postlengde (og dermed også feltlengde) på ca 1000 tegn være nok for folketellingsfilene, slik at en logisk datapost vanligvis ikke må fordeles på flere linjer på filen. På denne måten unngås "skjøting" av poster.
Merk: At en dataskjerm ofte ikke har plass til mer enn 80 tegn pr linje, bør ikke skape problemer i denne sammenhengen. Derimot er det et faktum at enkelte editorer, tekstbehandlingssystemer og andre programmer ikke kan lese inn linjer som inneholder mer enn et bestemt antall tegn. Maksimallengden er ofte mindre enn 1000 tegn. Derfor vil det sammen med Histform datafiler om ønskelig bli levert et lite program (gratis) som deler eventuelle lange poster i filen opp i et nødvendige antall linjer a en lengde som spesifiseres av brukeren (f eks 80 tegn). Tegnet '+' til slutt på en linje angir da at posten fortsetter på neste linje. Det nevnte programmet vil også inneholde en rutine som skjøter korte linjer sammen igjen til poster av ubegrenset lengde.
Dette tegnsettet er i dag dominerende innenfor PC/Windows- og Unix-miljøene i Norge og de fleste andre land. Konvertering av filer mellom ISO 8859/1 og andre aktuelle tegnsett, som f eks 8-bits settet for MS-DOS (CP 850), 8-bits settet for Apple Macintosh (Newton) og det gamle 7-bits settet ISO 646/60 ("Norsk ASCII"), kan enkelt foretas av distributøren eller helst mottakeren ved hjelp av filterprogrammer som Pep, Aladdin m fl. Om nødvendig vil slike programmer bli utviklet spesielt for Histform, og om ønskelig distribuert sammen med dataene.
Tegnsettet for filer i registreringsformat må i større grad kunne tilpasses den maskin- og programvaren som blir benyttet under registreringen.
a) Filens innhold:
En statistisk oversikt over hvor mange poster av hver
posttype datafilen inneholder, og den maksimale postlengden (i antall
tegn) for hver posttype. For hvert felt i hver posttype oppgis videre
i hvor mange poster feltet er utfylt, og den maksimale feltlengden (i
antall tegn).
Dette siste er meget nyttig informasjon når brukeren av dataene skal definere en egen database som dataene skal leses inn i. En slik statistisk oversikt kan enkelt utarbeides rent maskinelt.
b) Kildegrunnlag:
Kortfattede opplysninger om hvilken kilde datafilen er basert
på (tittel, geografisk område osv), hvor originalen blir oppbevart og
i hvilken form kilden er blitt benyttet (originalkilde, fotokopi,
mikrofilm e a).
c) Eventuelle spesielle forhold i kilden:
Under registreringen bør spesielle egenskaper ved hele
eller deler av kilden dokumenteres. Dette kan gjelde kildens
kompletthet, kvalitet (evt skader), skrift, systematiske avvik fra
tellingsinstruksen, spesiell føringspraksis osv. Fri tekst.
d) Filens tilblivelse:
En kronologisk gjennomgang i fri tekst av
arbeidsprosessen bak datafilens tilblivelse (registrering, korrektur,
konvertering osv). Beskrivelsen skal inneholde hvor, når og av hvem
(institusjon og/eller person) de enkelte arbeidsstegene er
utført.
e) Eventuelle avvik fra Histform-standarden:
Her opplyses det om hvilke instrukser i
Histform-standarden som eventuelt ikke er fulgt under registreringen
eller ved konverteringen til utvekslingsformatet. Selvfølgelig bør
slike avvik helst ikke forekomme, men kan f eks være forårsaket av
vektige effektivitets- eller kapasitetsgrunner.
f) "Gårdens nummer" i byene:
Her redegjøres det for hvilke(n) type(r) nummer som i
denne datafilen er plassert i feltet "Gårdens nummer" i bostedpostene.
Det kan f eks være nummer innenfor roden, branntakstnummer,
matrikkelnummer e a.
Linjene i dokumentasjonsfilen bør være maksimalt 80 tegn lange.
Appendix B inneholder et eksempel på en slik dokumentasjonsfil.
Eksempel: Filen F8650432.UTV inneholder data i utvekslingsformat fra folketellingen 31.12.1865 i Rendalen herred i Hedmark fylke.