Measurement of Alignment between Standards and Assessment
Gunilla Näsström
Professor Widar Henriksson, Umeå universitet, Universitetslektor Peter Nyström, Umeå Universitet
Professor Astrid Pettersson, Stockholms universitet
UmU – Umeå universitet
2008-10-24
Mätning av samstämmighet mellan mål och bedömning
Measurement of Alignment between Standards and Assessment
Institutionen för beteendevetenskapliga mätningar
Mätning av samstämmighet mellan mål och bedömning
Många av dagens utbildningssystem är målrelaterade och betonar vikten av samstämmighet, dvs. överensstämmelse, mellan komponenterna i utbildningssystemet: läro- och kursplaner, undervisning och bedömning. För att kunna avgöra om samstämmigheten är tillräckligt hög måste analyser göras med en användbar modell. Denna avhandling undersöker modellers användbarhet i analyser av samstämmighet mellan kursplan och bedömningar, med betoning på en metod: Blooms reviderade taxonomi. Denna avhandling består av en introduktion och fem artiklar som empiriskt undersöker samstämmighetsanalysmetoders användbarhet.
Den första artikeln jämför både teoretiskt och empiriskt olika modellers användbarhet för analyser av samstämmighet mellan kursplan och bedömning baserat på ett antal kriterier. Resultaten visar att Blooms reviderade taxonomi är den mest användbara modellen. Den andra artikeln undersöker hur användbar Blooms reviderade taxonomi är för att tolka mål och betygskriterier i en kursplan i matematik för gymnasieskolan med två olika sammansatta grupper. En grupp bestod av lärare och en grupp av provutvecklare. Resultaten visar att Blooms reviderade taxonomi är användbar, men att många av målen och betygskriterierna blev multikategoriserade (placerade i mer än en kategori). Resultaten visar också på större intra- och interbedömaröverensstämmelse för provutvecklarna än för lärarna. Den tredje artikeln undersöker ytterligare Blooms reviderade taxonomis användbarhet för analyser av samstämmighet mellan kursplan och bedömning. Resultaten visar att Blooms reviderade taxonomi är användbar för analys av såväl mål, betygskriterier och bedömningar. Den fjärde artikeln studerar om vaga och generella mål och betygskriterier kan förklara den stora andelen multikategoriserade mål och betygskriterier i matematik. Strategin var att dela upp en kursplans mål och betygskriterier i mindre delmål och delkriterier och därefter jämföra användbarheten och interbedömaröverensstämmelsen när Blooms reviderade taxonomi användes för att kategorisera både de ursprungliga och de uppdelade målen och betygskriterierna. Resultaten visar att vaga och generella mål och betygskriterier inte förklarar den stora andelen multikategoriserade mål och betygskriterier. En annan förklaring är relaterad till matematikens natur att ofta sammanfläta begrepps- och procedurkunskap. Detta undersöktes även i artikel fyra och resultaten indikerar att detta är en trolig förklaring. Den femte artikeln fokuserar en annan aspekt av samstämmighet mellan kursplan och bedömning, nämligen samstämmigheten mellan betygskriterier och kravgränser på en specifik bedömning. Validiteten för två kravgränssättningsmetoder, Angoffs metoden och borderline-groupmetoden, undersöktes. Resultaten visar att båda metoderna gav rimliga och trovärdiga kravgränser, men att det också fanns potentiella problem med båda metoderna.
De empiriska studierna summeras, diskuteras och sätts in i ett sammanhang i den introducerande delen. I diskussionen relateras samstämmighet till validitet och de empiriska resultaten till teoretiska antaganden och tillämpade implikationer. En av avhandlingens slutsatser är att Blooms reviderade taxonomi är användbar för analyser av samstämmighet mellan kursplaner och bedömningar. En annan slutsats är att de två kravgränssättningsmetoderna ger rimliga och trovärdiga kravgränser. Det är fördelaktigt om en samstämmighetsmodell både kan användas för att analysera samstämmighet och för att öka samstämmigheten i den dagliga verksamheten. Blooms reviderade taxonomin har denna potential att vara en sådan samstämmighetsmodell. Denna avhandling har konstaterat att denna taxonomi är användbar för samstämmighetsanalyser, men dess användbarhet för att öka samstämmigheten i den dagliga verksamheten måste undersökas.
Measurement of Alignment between Standards and Assessment
Many educational systems of today are standards-based and aim at for alignment, i.e. consistency, among the components of the educational system: standards, teaching and assessment. To conclude whether the alignment is sufficiently high, analyses with a useful model are needed. This thesis investigates the usefulness of models for analyzing alignment between standards and assessments, with emphasis on one method: Bloom s revised taxonomy. The thesis comprises an introduction and five articles that empirically investigate the usefulness of methods for alignment analyses.
In the first article, the usefulness of different models for analyzing alignment between standards and assessment is theoretically and empirically compared based on a number of criteria. The results show that Bloom s revised taxonomy is the most useful model. The second article investigates the usefulness of Bloom s revised taxonomy for interpretation of standards in mathematics with two differently composed panels of judges. One panel consisted of teachers and the other panel of assessment experts. The results show that Bloom s revised taxonomy is useful for interpretation of standards, but that many standards are multi-categorized (placed in more than one category). The results also show higher levels of intra- and inter-judge consistency for assessment experts than for teachers. The third article further investigates the usefulness of Bloom s revised taxonomy for analyses of alignment between standards and assessment. The results show that Bloom s revised taxonomy is useful for analyses of both standards and assessments. The fourth article studies whether vague and general standards can explain the large proportion of multi-categorized standards in mathematics. The strategy was to divide a set of standards into smaller substandards and then compare the usefulness and inter-judge consistency for categorization with Bloom s revised taxonomy for undivided and divided standards. The results show that vague and general standards do not explain the large proportion of multi-categorized standards. Another explanation is related to the nature of mathematics that often intertwines conceptual and procedural knowledge. This was also studied in the article and the results indicate that this is a probable explanation. The fifth article focuses on another aspect of alignment between standards and assessment, namely the alignment between performance standards and cut-scores for a specific assessment. The validity of two standard-setting methods, the Angoff method and the borderline-group method, was investigated. The results show that both methods derived reasonable and trustworthy cut-scores, but also that there are potential problems with these methods.
In the introductory part of the thesis, the empirical studies are summarized, contextualized and discussed. The discussion relates alignment to validity issues for assessments and relates the obtained empirical results to theoretical assumptions and applied implications. One conclusion of the thesis is that Bloom s revised taxonomy is useful for analyses of alignment between standards and assessments. Another conclusion is that the two standard setting methods derive reasonable and trustworthy results. It is preferable if an alignment model can be used both for alignment analyses and in ongoing practice for increasing alignment. Bloom s revised taxonomy has the potential for being such an alignment model. This thesis has found this taxonomy useful for alignment analyses, but its usefulness for increasing alignment in ongoing practice has to be investigated.