(19. des. 2014) Nedlasting av rundskriv fra nav.no. 0. wget -E --convert-links https://www.nav.no/rettskildene/Forside/Folketrygdloven/Kapittel+1+-+Form%C3%A5l+og+definisjoner.151305.cms (Her laster jeg ned kapitteloversikt-filen. (Steg 0.) I tillegg bruker jeg lynx for å hente ut alle linkene fra denne filen. (Steg 1.) Slik jeg gjør det her så henter jeg ned all linkene fra filen slik den ligger på nav.no. Siden innholdssiden ikke ligger under /Rundskriv/, vil de ellers ikke bli lastet ned (med mindre jeg limer inn linken), se steg 1 (hvor innholdssiden ikke vil bli lastet ned, med mindre jeg limer inn linken og kutter ut steg 0 som eget steg).) 1. lynx -dump -listonly https://www.nav.no/rettskildene/Forside/Folketrygdloven/Kapittel+1+-+Form%C3%A5l+og+definisjoner.151305.cms > kap1.links 2. Emacs: tastaturmakro som søker etter linjer med «Rundskriv» og kopierer disse til egen fil. (Husk evt. «Vedlegg». Det fins sikkert mer "egnede" program for dette, som jeg aldri bruker. Se boken Unix Power Tools for mulige tips.) 3. wget -E --convert-links -i kap1.rundskriv.links (Dette kjøres på filen som ble lagd i forrige steg. Hvis ikke --convert-links brukes så blir alle linker feil da de peker til lokal filstruktur på webserveren de lastes ned fra. I stedet for -E kan man skrive --adjust-extension. (Timestamp er når filen ble lastet ned, ikke når den ble laget. Jeg får beskjeden "Last-modified header missing" hvis jeg prøver -S -N.) Opsjonen "-E" gjør at wget legger til .html til slutt på alle filer den laster ned. (Ellers slutter filene på .cms, og jeg må fortelle alle program som skal lese filen at det er en HTML-fil. Med lynx kan man bruke -force_html hvis filnavnet ikke slutter på .html.) 10. jan. 2015: Den nye rundskrivene for kapittel 12 ligger _også_ under /Rundskriv/, men «Kapitteloversikt» [Her vet jeg ikke hva jeg har ment å skrive. TS. 19. nov. 2021.] (det jeg laster ned i steg 0 og 1; linken til denne filen finnes i kapitteloversiktene på http://www.nav.no/rettskildene/) man får når man velger kapittel 12 fra toppen av en side har IKKE med /Rundskriv, som gjør det litt vanskeligere å bare plukke ut sider som er rundskriv. (Rundskrivene ligger _også_ direkte under katalogen /rettskildene/.) Jeg løste dette ved å laste ned alle .cms-filer, som her er alle rundskrivene. 15. mars 2015: Jeg har ikke tenkt å laste ned komplette versjoner av alle endringer av rundskrivene i løpet av året. Men når jeg laster ned en oppdatert versjon av et rundskriv, så flytter jeg den tidligere versjonen til underkatalogen tidligere_versjoner. Rundskrivene for uførepensjon (som gjaldt 1. januar 2015) er lastet ned her: http://www.pvv.org/~thomassk/jus/trygderett/uf%c3%b8repensjon/rettskilder/rundskriv/ * umask 0022 [Det er ikke ofte jeg bruker umask, men behandles filer og kataloger ulikt? TS. 19. nov. 2021.] samme som chmod ... kataloger: 755 (rwxr-xr-x) filer: 644 (rw-r--r--) * I begynnelsen av filmen "The Social Network" nevner "Mark Zuckerberg" (spilt av Jesse Eisenberg både wget og Emacs. Men jeg syns begge programmene er lette å bruke og å lære, så man behøver ikke å være et datageni.