Ein Sprachtest oder eine Klassen-/Schularbeit sind objektiv, wenn ihre Durchführung und ihre Auswertung von der jeweiligen Lehrperson, die dafür verantwortlich ist, unabhängig sind (vgl. Grotjahn 2006, 222), d.h. wenn subjective judgement ausgeschlossen werden kann (vgl. Hughes 2003, 22). Stellen wir uns vor, dass zwei LehrerInnen in zwei Parallelgruppen einer Klasse Französisch unterrichten. Bei einer für beide Gruppen unterschiedlich erstellten Klassen-/Schularbeit führt jeweils der/die LehrerIn der anderen Gruppe die Klassenarbeit durch und wertet diese auch aus. Im Anschluss wird die Klassenarbeit an den/die KollegIn der Parallelgruppe zur Kontrolle übergeben. Die Ergebnisse und die daraus gezogenen Schlussfolgerungen müssten ident sein. Durch die zweimalige Bewertung würden die Resultate zuverlässiger, d.h. reliabler, und die SchülerInnen könnten sich eher darauf verlassen, dass das von ihnen erzielte Ergebnis ihrer tatsächlichen Leistung entspricht, als wenn nur ein/eine LehrerIn die Klassen-/Schularbeit (der eigenen Gruppe) korrigiert und bewertet hätte1. Quetz (2008, 7) verweist hier auf die sog. kollegiale Korrektur.

Der DurchführungsDurchführungsobjektivität- und AuswertungsobjektivitätAuswertungsobjektivität (nach Grotjahn 2006) wird gelegentlich eine „Interpretationsobjektivität“ (vgl. Schelten 1997) zur Seite gestellt. Gemeint ist, dass zwei verschiedene BeurteilerInnen „unabhängig voneinander aus dem gleichen Auswertungsergebnis den gleichen Schluss ziehen“ (Schelten 1997, 126). ObjektivitätObjektivität bedeutet bei der Durchführung, Auswertung und Interpretation von Tests Subjektivität zu reduzieren. bei der Durchführung, Ausführung und Interpretation von Klassen-/Schularbeiten bedeutet also, dass subjektive Theorien – wenn nicht ganz ausgeschlossen – so doch so weit wie möglich in den Hintergrund gedrängt werden.

Dlaska & Krekeler (2009) sprechen in Zusammenhang mit informeller Leistungsbeurteilung (classroom assessment) von „Gerechtigkeit“ (ebd., 44f.) anstelle von ObjektivitätObjektivität. Damit führen sie an, dass Lernende nicht benachteiligt werden bzw. diese sich nicht benachteiligt fühlen sollen (ebd., 43). Damit dieser Umstand gegeben ist, muss Gerechtigkeit ihrer Meinung nach vier Bereiche umfassen: (ausreichende) Transparenz, (schlüssige) Bewertung, (konsistente und übertragbare) Leistungsmessungen und eine (gültige) Interpretation der Testergebnisse. Somit ist „Gerechtigkeit“ oder „Fairness“ der allumfassende Begriff, dem Dlaska & Krekeler die anderen Testgütekriterien wie Reliabilität und Validität unterordnen. Sie führen einerseits Gründe an, warum in der Schule reliable Tests schwer zu erstellen sind, obwohl dies „wünschenswert“ wäre (ebd., 49), fordern aber andererseits eine gültige Interpretation der Testergebnisse in Bezug auf die Messintention ein (vgl. u.a. Hinger 2016b).

4.1.2 ReliabilitätReliabilität

Unter Reliabilität eines Tests versteht man die Zuverlässigkeit oder Konsistenz der Resultate, die er hervorbringt: „A reliable test is consistent in that it produces the same or similar result on repeated use“ (vgl. Jones 2012, 352). So ist eine konsistente bzw. genaue Bewertung dann gegeben, wenn z. B. bei einer Klassen-/Schularbeit oder einem Test ein und dieselbe Lehrperson bei wiederholt vorgenommener Bewertung immer wieder zu demselben (oder einem sehr ähnlichen) Ergebnis kommt (Intrarater-ReliabilitätIntrarater-Reliabilität) bzw. wenn verschiedene Lehrpersonen zu ein und demselben (oder einem sehr ähnlichen) Ergebnis kommen (Interrater-ReliabilitätInterrater-Reliabilität). Somit kann scorer objectivityscorer objectivity als wesentlicher Teilaspekt der Reliabilität betrachtet werden; Weir & Shaw (2005) sprechen in diesem Zusammenhang sogar von scoring validity (s. Abschnitt 4.1.3 zu Validität). LehrerInnen sollten bedenken, dass manche Aufgabenformate konsistente (stabile) Ergebnisse unterstützen. So ist ein geschlossenesgeschlossenes Aufgabenformat AufgabenformatGeschlossene und offene Aufgabenformate unterstützen Reliabilität in unterschiedlichem Ausmaß. wie etwa multiple choice-multiple choice-Aufgabe oder EinfachwahlaufgabenEinfachwahlaufgabe zur Überprüfung des Leseverständnisses durch die Festlegung eines eindeutigen Lösungsschlüssels gut dazu geeignet, dass ein und dieselbe Person mehrmals oder verschiedene BewerterInnen gleichzeitig zu demselben (oder einem sehr ähnlichen) Ergebnis kommen. AuswertungsAuswertungsobjektivität- und Interpretationsobjektivität können bei geschlossenen, standardisierten Aufgabenformaten wie multiple choice- oder ZuordnungsaufgabenZuordnungsaufgabe als gegeben angesehen werden. Wird hingegen die Fertigkeit Schreiben anhand eines Aufsatzes, der in der Fremdsprache zu einem bestimmten Thema verfasst werden soll, überprüft, lässt dieses offene Testformat bei der Bewertung und Interpretation einen höheren subjektiven Spielraum zu, vor allem, wenn nur ungenau spezifizierte Kriterien wie Inhalt, Fehler oder Stil zur Verfügung stehen oder wenn „jeder Lehrer seinen eigenen Maßstab zur Beurteilung des Auswertungsergebnisses“ anlegt (Schelten 1997, 127). Die reliable Verwendung von Bewertungsrastern zur Überprüfung der produktiven Fertigkeiten (s. Abschnitt 7.3) setzt gezielte rater trainings für LehrerInnen und SprachkompetenzprüferInnen voraus, in denen die Beurteilenden lernen, sich abzustimmen und sich großteils auf ein gemeinsames Verständnis der Deskriptoren, die die einzelnen Bewertungskriterien näher erläutern, zu einigen.

Bei Dlaska & Krekeler (2009, 35) findet sich ObjektivitätObjektivität als Teil der Reliabilität dem Qualitätskriterium Gerechtigkeit zugeordnet (s. oben). Dies ist vor allem dem Umstand geschuldet, dass eine möglichst objektive Durchführung und Auswertung eines Tests für eine konsistente, also reliable, Bewertung unabdingbar ist. Reliabilität wiederum ist Voraussetzung für die Validität (s. Abschnitt 4.1.3) – allein, ein reliabler Test bedeutet noch nicht, dass er auch valide ist (vgl. Jones 2012, 352). Nach Dlaska & Krekeler (2009, 47) ist die Qualität einer Bewertung abhängig von den PrüferInnen, ihren Fähigkeiten, Einstellungen und Werthaltungen. Für die Leistungsbeurteilung im Unterricht erachten sie Reliabilität aber nicht als zentral und fordern sie nur als Bedingung für standardisierte und formelle high stakes testshigh stakes test ein – Tests, bei denen die Ergebnisse für jede/n einzelne/n KandidatIn gewichtige Folgen haben. Das Pilotieren von Klassen-/Schularbeiten zur Messung ihrer Qualität – sei es in Form von Paralleltests oder Testwiederholungen, um sich z. B. über den Schwierigkeitsgrad oder die Unmissverständlichkeit der Aufgabenstellung klar zu werden – ist im Schulalltag, wenn überhaupt, nur bedingt möglich. Eine Arbeit im Team würde allerdings der Qualität von Klassen-/Schularbeiten zuträglich sein – erhöht doch Arbeitsgenauigkeit die Reliabilität der Messung. Auch die Kenntnis der genannten Methoden (parallel test methodparallel test method und test-retest methodtest-retest method) wäre geeignet, sich über die Konsistenz von Prüfungen klar(er) zu werden, denn auch Klassen-/Schularbeiten sollten über jene Qualität verfügen, die eine genaue(re) und konsistente Auswertung und Interpretation der Ergebnisse ermöglicht.

Salkind (2006) setzt Reliabilität mit Testqualität gleich, wenn konsistente Messungen garantiert sind1 – ein Ziel, dem sich Lehrpersonen auch im Schulalltag nähern könnten, wenn sie sich z. B. für das gemeinsame Ausarbeiten von TestspezifikationenTestspezifikationen (s. Abschnitt 5.3) entschließen und bereit sind, über die Fachteams oder -arbeitsgemeinschaften an den Schulen Tests (Klassen-/Schularbeiten) in Parallelklassen einzusetzen oder in vergleichbaren Jahrgängen auch an anderen Schulen durchzuführen.

Ein wesentliches Kennzeichen von Reliabilität ist der ReliabilitätskoeffizientReliabilitätskoeffizient, der den Grad der Messfehlerfreiheit eines Tests wiedergibt, oder der Wert der inneren Konsistenz (internal reliability) von Items – ermittelbar mithilfe eines Computer-Software-Programms wie SPSS (= Statistical Package for the Social Sciences). Der Koeffizient drückt aus, dass die einzelnen Items eines Tests zueinander passen, dasselbe theoretische KonstruktKonstrukt (z.B. Leseverständnis) überprüfen und dass die einzelnen SchülerInnen auf die gleichen Rangplätze verwiesen werden (vgl. Fulcher & Davidson 2007, 106). Auch wenn LehrerInnen nicht über die zeitlichen und technischen Ressourcen verfügen, die innere KonsistenzInnere Konsistenz von Testitems ist Voraussetzung für das Messen eines Konstrukts. von Testitems zu ermitteln (wie z. B. in Green 2013, 35–40 dargestellt), so können sie doch eine Reihe von einfachen statistischen Maßnahmen ergreifen, die ihre Klassen-/Schularbeiten und Tests reliabler machen2. Neben einer präzisen und klaren Aufgabenstellung sind dafür u.a. die Testlänge (Anzahl der Items bzw. der Aufgaben), die Homogenität der Items, der Schwierigkeitsgrad der einzelnen Aufgaben sowie die Bandbreite der Aufgaben (scope), die Wahlmöglichkeiten eher ausschließt, ausschlaggebend (vgl. Green 2014, 73; Schelten 1997, 117).

Je länger der TestTestlänge, homogene Items und trennscharfe Aufgaben erhöhen die Reliabilität. ist, desto geringer wird der Zufall sein, der das Testergebnis beeinflusst. Eine Aufgabe zu erstellen, die aus lediglich drei oder vier Items zum Gebrauch von Adverb/Adjektiv im Englischen oder aus vier oder fünf Items zur Verwendung der глаголы движения (Verben der Fortbewegung) im Russischen besteht, wird nur eine sehr geringe Aussagekraft über die grammatische Kompetenz der/des Sprachverwendenden haben. Je mehr Items zum Einsatz kommen und je homogener diese sind, desto reliabler wird das Ergebnis und die damit verbundene Interpretation in Bezug auf das gemessene Konstrukt (z.B. jenes der grammatischen Kompetenz). Ein Test zur Überprüfung des Leseverständnisses, der sowohl Items zum selektiven als auch zum detaillierten Lesen enthält, wird das Konstrukt Lesen deutlicher und umfassender repräsentieren, als wenn nur globales Lesen überprüft wirdKonstruktunterrepräsentation.

Je trennschärfer die Aufgaben sind, desto klarer kann zwischen lernstarken und lernschwachen SchülerInnen unterschieden werden und umso messgenauer ist die Klassen-/Schularbeit. Das bedeutet, dass mehrere schwache SchülerInnen nicht jene Items eines Tests lösen können sollen, an denen ein/eine gute/r SchülerIn scheitert. Man spricht in diesem Fall von ItemdiskriminierungItemdiskriminierung: Trennschärfe von Testitems. Deswegen gilt es zu leichte bzw. zu schwierige Items, Items, die das Erraten von Lösungen zulassen, oder Items, die Ausnahmen überprüfen, zu vermeiden, da sie die Reliabilität einer Aufgabe verringern (vgl. Alderson, Clapham & Wall 1995).

Die Beachtung der angeführten Punkte führt bei large-scalelarge-scale test oder high stakeshigh stakes test testing definitiv zu konsistenteren und genaueren Messungen, die Ergebnisse einer Überprüfung werden zuverlässiger und die Interpretationen gültiger. Reliabilität ist deshalb die Grundvoraussetzung für das folgende Testprinzip, die Validität oder Gültigkeit. Die Notwendigkeit, reliable, also konsistente Messungen im Schulkontext bzw. in classroom-based assessmentclassroom-based assessment zu erzielen, wird in der Testforschung erst in jüngster Zeit kontroversiell diskutiert (vgl. z. B. Jang 2012; Turner 2012) – auch in Zusammenhang mit der Ausbildung von FremdsprachenlehrerInnen (vgl. Graham 2005) und dem Begriff der Bewertungskompetenz (assessment literacyassessment literacy, s. Kapitel 10). WissenschaftlerInnen scheinen sich aber einig zu sein, dass die Anwendung psychometrischer Testverfahren mit exakter Datenaufbereitung und -evaluation im Klassenzimmerkontext nicht wirklich zielführend ist (vgl. u.a. Ingenkamp & Lissmann 2008, 173). Der Hauptunterschied zwischen large-scale- und classroom-based testing liegt in „the need for evidence“ (Turner 2012, 68): Summative und formative Bewertung im Klassenzimmer (s. Kapitel 10) hat das vorrangige Ziel, durch FeedbackFeedback den Lehr-/Lernprozess zu gestalten, zu verbessern bzw. zu verändern und neue Lernmöglichkeiten zu eröffnen – high stakes testshigh stakes test verfolgen dieses Ziel nicht. Reliabilität im schulischen Kontext könnte und sollte vor allem durch klare und transparente Angaben hinsichtlich Lern- und Bewertungszielen (learning and assessment intentions) wesentlich verbessert werden (vgl. Rea-Dickens 2006, 182).

4.1.3 ValiditätValidität

Das Testgütekriterium Validität und die Definition des KonstruktsKonstruktInhaltsvalidität: Tests enthalten eine repräsentative Auswahl von Aufgaben., das getestet werden soll, stehen in einer engen Wechselwirkung zueinander. Grotjahn (2006, 223) definiert Validität folgendermaßen: „Die Validität bezieht sich darauf, inwieweit ein Test das erfasst, was er erfassen soll, und inwieweit er zu fairen Entscheidungen führt“. „Das, was er erfassen soll“ verweist auf den TestinhaltKonstruktvalidität: Ein Test misst ein zugrunde liegendes theoretisches Konzept (Modell) von Sprachfähigkeit (language ability).. Klassen-/Schularbeiten müssen inhaltsvalideInhaltsvalidität sein, d.h. sie überprüfen den Sprachstand und somit eine aussagekräftige Auswahl dessen, was an Sprachverwendung und Sprachkompetenz gelehrt bzw. gelernt wurde. Dazu ist es notwendig, im Einklang mit dem Lehrplan zu sein (Quetz 2008), um der curricularen Validität zu entsprechen. Die Klassen-/Schularbeit muss zudem in ein KonstruktKonstruktvalidität, d.h. in ein theoretisches Konzept eingebettet sein; falls der GeR als Referenzquelle für die Erstellung von Tests herangezogen wird, muss die Klassen-/Schularbeit mit dessen Ansatz der Handlungsorientiertheit und seinem kommunikativen Kompetenzmodell kompatibel sein (vgl. Europarat 2001, 2.1, 2.1.2 und Kapitel 2 dieses Bands). Mit anderen Worten: Überprüft die Klassen-/Schularbeit tatsächlich eine repräsentative Stichprobe der sprachlichen Aktivitäten, die sie zu überprüfen vorgibt? Spiegeln die Interpretationen, die auf Basis der Ergebnisse der Klassen-/Schularbeit im Anschluss gemacht werden, das ihr zugrunde liegende Konstrukt wider und lassen diese Ergebnisse Verallgemeinerungen bzw. Rückschlüsse auf real life results zu (vgl. Green 2014, 75)? Wir können es noch anders formulieren: Was bedeutet die Note „Genügend“ im dritten Lernjahr des Wahlpflichtfachs Russisch auf A2-Niveau an einer Allgemeinbildenden höheren Schule (AHS)? Oder die Note „Gut“ im Leistungskursfach Russisch in der gymnasialen Oberstufe einer Gesamtschule? Wenn eine Klassen-/Schularbeit eine Antwort auf diese Frage geben kann, dann hat sie ihren Zweck erfüllt. Damit sie diesen erfüllt, muss sie adäquat gestaltet werden.

Klassen-/Schularbeiten orientieren sich als Leistungstests am Sprachstand der SchülerInnen und daran, ob diese gewisse Unterrichtsziele (des Konstrukts) erreicht haben – sie überprüfen also, „was unterrichtet worden ist“ (Europarat 2001, 9.3.1); aufgrund der am GeR ausgerichteten Lehrpläne ist der Unterricht kompetenzorientiert zu gestalten und Klassen-/ Schularbeiten müssen Bezug auf Kriterien nehmenkriterienorientierte Bewertung, die durch die in einem bestimmten Lernjahr zu erreichende Kompetenzniveaustufe vorgegeben sind1. Laut GeR (Europarat 2001, 9.3, 179) erfordert Kriteriumsorientierung

die Darstellung eines Kontinuums der Sprachkompetenz (vertikal – die Kompetenzniveaustufen von A1–C2) und eines Spektrums relevanter Lebensbereiche (horizontal – die Domänen privater, öffentlicher, beruflicher und bildungsinstitutioneller Bereich), sodass die individuellen Ergebnisse in einem Test mit Bezug auf den gesamten Kriterienbereich situiert werden können.

Das erfordert sowohl die Festlegung relevanter Domänen, die mit der Klassen-/Schularbeit abgedeckt werden sollen, als auch die Festsetzung von Trennwerten oder cut scores (s. Kapitel 5.5 und 7.3), die nötig sind, um den angestrebten Leistungsstand bzw. die entsprechende Niveaustufe zu erreichen. Klassen- und Schularbeiten müssen also die beiden Testgütekriterien InhaltsInhaltsvalidität- und KonstruktvaliditätKonstruktvalidität beachten. Das kann aber nur der Fall sein, wenn über das Schuljahr hinweg das Konstrukt repräsentativ durch die Inhalte der Klassen-/Schularbeiten abgebildet ist. Die KonstruktvaliditätUnterrepräsentation des Konstrukts: Unvollständige oder unzureichende Abbildung des Konstrukts und seiner Teilaspekte in den Testaufgaben einer Klassen-/Schularbeit ist gefährdet, wenn ein Test nur sehr eingeschränkte Teilaspekte des Konstrukts überprüft und das Konstrukt somit im Test unterrepräsentiertKonstruktunterrepräsentation ist, oder wenn Aspekte in die Bewertung einfließen, die eigentlich nicht Teil des beabsichtigten Konstrukts sind und daher zu einer konstrukt-irrelevanten Varianzkonstrukt-irrelevante VarianzKonstrukt-irrelevante Varianz: Einfluss von Faktoren und Fähigkeiten auf das Testergebnis, die nicht Teil des Testkonstrukts sind in den Ergebnissen führen.

Die Definition, ein Test sei valide und somit „qualitativ wertvoll“, wenn er einfach nur das testet, was er vorgibt zu testen, ist inzwischen in den Augen der meisten TestforscherInnen zu eng gefasst2. Obwohl dieses frühe Verständnis nach wie vor zentraler Bestandteil des Validitätsbegriffs ist, sehen viele KonstruktvaliditätKonstruktvaliditätKonstruktvalidität als zentrales Testgütekriterium nicht länger als Teil der Validität – wie etwa AugenscheinAugenscheinvalidität-, InhaltsInhaltsvalidität- oder KriteriumsvaliditätKriteriumsvalidität –, sondern, basierend auf Messick (1989), als allumfassendes Konzept, das es bei der Testerstellung zu berücksichtigen gilt (vgl. Chapelle 2016, 23). Zudem wird in jüngeren Definitionen der Fokus weg von der Validität als Eigenschaft eines Tests hin zur validen Verwendung und Interpretation der Testergebnisse (‚Validierung‘) gelegt, wozu ein assessment use argument herangezogen wird (vgl. Bachman 2005; Weir 2005a; Xi 2008).

Eckes (2015b) spricht sogar von der polymorphen Bedeutung der Begriffe Validität bzw. Validierung, aufgrund derer es schwierig sei, eine klare und eindeutige Definition dieser Begriffe zu bieten. Zusammenfassend hält Eckes als Konsens in der langjährigen Diskussion der Validitäts-/Validierungskonzepte fest, dass Validität keine Eigenschaft eines Tests ist, sondern dass sich Validität auf die Interpretation der Ergebnisse eines Tests und die damit verbundenen Inferenzen bezieht (ebd., 451). Des Weiteren sei Validität von unterschiedlichen Arten bestimmt, von denen die Konstruktvalidität inzwischen eine übergeordnete Position einnehme. Validität sei ferner nicht dichotom (valide/nicht valide), sondern als Kontinuum aufzufassen und als Prozess zu sehen (ebd., 452).

Im schulischen Kontext sind Augenscheinvalidität und KriteriumsvaliditätAugenscheinvalidität: Akzeptanz von Tests Kriteriumsvalidität: Vergleichbarkeit von Tests von unterschiedlicher Bedeutung. Die Augenscheinvalidität hat einen nicht unwesentlichen Einfluss auf SchülerInnen oder Eltern. Weisen Eltern oder SchülerInnen eine Klassen-/Schularbeit oder einen Test als inakzeptabel zurück, weil in ihren Augen das Testformat oder die Art der Prüfung fremd oder die Aufgaben nicht plausibel erscheinen, so hat der Test eine wesentliche Funktion nicht erfüllt und er wird nicht als solcher angenommen. SchülerInnen und Eltern müssen deshalb mit den eingesetzten Testformaten vertraut sein. Die Kriteriumsvalidität kann konkurrent oder prädiktiv festgestellt werden. Wird z. B. ein Test in der Schule mit einem bereits validierten schulexternen Messverfahren, das dasselbe sprachliche Konstrukt wie der Test in der Schule misst, gleichzeitig durchgeführt, so sollten die Ergebnisse idealerweise korrelieren. Man spricht in diesem Fall von konkurrenter Validitätkonkurrente Validität.

Wird das Kriterium erst nach der Messung erhoben, haben wir es mit prädiktiver Validitätprädiktive Validität zu tun. Ein Beispiel hierfür wäre der akademische Erfolg im fremdsprachlichen Ausland, der sich erwartungsgemäß so einstellt, wie er durch die Note (die Bewertung) der Qualifikationsprüfung, die Voraussetzung für die Zulassung zum Studium an der ausländischen Institution war, vorhergesagt wurde.

Von Lehrpersonen entwickelte Prüfungen und Tests können nur ansatzweise valide sein, da die Überprüfung der Validität – so wie bei standardisierten Tests – komplexe Verfahren wie Pilotierungen,Pilotierung FeldtestungenFeldtestung (s. Abschnitt 5.4) und eine statistische Auswertung der Testitems erfordern würde. Dennoch können LehrerInnen Maßnahmen ergreifen, um die Validität ihrer Klassen-/Schularbeitsergebnisse zu erhöhen. Da ReliabilitätReliabilität die Voraussetzung für Validität ist, sollten die o.a. Maßnahmen (s. Abschnitt 4.1.2) nach Möglichkeit umgesetzt werden. Des Weiteren helfen im Schulalltag ein klares Verständnis des zugrunde liegenden theoretischen KonstruktsKonstrukt, die Kenntnis und eine transparente Weitergabe der curricularen Erfordernisse an die SchülerInnen und – darauf aufbauend – gemeinsam mit KollegInnen ausgearbeitete TestspezifikationenTestspezifikationen bzw. TestanleitungenTestanleitung (s. dazu Abschnitt 5.3 und Kapitel 11) sowie die begründete Wahl geeigneter Aufgabenformate. Testspezifikationen beschreiben, was mit einer Klassen-/Schularbeit, einem Test, geprüft werden soll und erleichtern LehrerInnen damit die Erstellung, Durchführung und Korrektur von schulischen Arbeiten, machen diese in Parallelklassen vergleichbar und geben SchülerInnen, Eltern und KollegInnen einen Einblick in die an der Schule gelebte Prüfungskultur. Sie tragen auf diese Weise wesentlich zu einer Transparenz der Leistungsbeurteilung bei.

Fassen wir abschließend zusammen: Objektivität kann bei der Durchführung, Auswertung und Interpretation eines Tests als ObjektivitätTeil der ReliabilitätReliabilität bzw. als eine Bedingung für sie angesehen werden. Klare Durchführungsparameter, transparente Auswertungskriterien und eine konstruktbezogene Interpretation der Ergebnisse helfen, subjektive Theorien einzelner PrüferInnen zu reduzieren.

Reliabilität ist als Voraussetzung für den ValidierungsprozessValidität unabdingbar, garantiert aber an sich noch keine Validität. Für den schulischen Kontext stellt sich also nicht die Frage, ob Validität oder Reliabilität das Testprinzip ist, das eher umgesetzt werden kann bzw. soll (vgl. Kranert 2013, 10), da beide Gütekriterien für eine qualitativ hochwertige Leistungsmessung erforderlich sind. Betrachtet man obendrein KonstruktvaliditätKonstruktvalidität als das umfassende Kriterium, das Inhalt, Vergleichbarkeit und AugenscheinAugenscheinvalidität einschließt, so wäre diese Diskussion im Grunde ohnehin obsolet.

Der GeR unterstützt das Verständnis für das zugrunde liegende sprachliche Konstrukt auch für Testverfahren, die unter den Begriff classroom-based assessmentclassroom-based assessment bzw. instruction-embedded assessment fallen (Rea-Dickens 2004). Mit Quetz (2008) kann treffend geschlossen werden: So wie wir im schulischen Kontext lehren und unterrichten – kommunikativ, handlungs- und kompetenzorientiertKompetenzorientierung –, sollten wir auch testen und prüfen.

Die folgende Abbildung 1 bietet abschließend eine Übersicht über die Testgütekriterien, die einzelnen Formen und Kategorien sowie Messverfahren bzw. -methoden.

Abb. 1: Testgütekriterien Objektivität – Reliabilität – Validität

Пред.1 ...3 456 След.

Testen und Bewerten fremdsprachlicher Kompetenzen

4.1.1 ObjektivitätObjektivität

4.1.2 ReliabilitätReliabilität

4.1.3 ValiditätValidität

С этой книгой читают