Validität und Reliabilität sind die zentralen Gütekriterien, die ein Test jeglicher Art, und damit auch ein Sprachtest, erfüllen soll, um adäquate Resultate hervorzubringen. Eng mit diesen beiden Grundprinzipien verknüpft sind weitere Prinzipien, die bei der Entwicklung und Verwendung von Sprachtests zu berücksichtigen sind. Während TestforscherInnen unterschiedliche Prinzipien nennen bzw. in den Vordergrund stellen, scheinen die folgenden in den meisten Auflistungen auf: Authentizität, WashbackWashback und PraktikabilitätPraktikabilität (Bachman & Palmer 1996). Diese sollen im Folgenden erläutert werden.

4.2.1 AuthentizitätAuthentizität

Bachman & Palmer (1996) definieren AuthentizitätAuthentizität: Testaufgaben sind realen Sprachhandlungssituationen möglichst ähnlich. als den Grad der Übereinstimmung der Charakteristika einer Testaufgabe mit denen einer realen, lebensweltlichen Aufgabe oder Handlung in der Zielsprache. Authentizität könnte damit auch als Teilaspekt von ValiditätValidität aufgefasst werden, weshalb beispielsweise Weir (2005a) dieses Konzept als Bestandteil von KontextvaliditätKontextvalidität anführt. Um eine möglichst treffsichere Aussage darüber machen zu können, wie gut die Performanz von Lernenden ihre sprachlichen Fähigkeiten im wirklichen Leben abbildet oder diese vorhersagt, ist es notwendig, dass Testmaterialien und Testbedingungen diese zielsprachliche Handlung oder Situation so gut wie möglich replizieren (vgl. McNamara 2000; Stadler 2015b). Bachman & Palmer (1996) argumentieren, dass nur ein Test, der das Prinzip der Authentizität ausreichend berücksichtigt, Generalisierungen und Interpretationen zulässt, die über die erbrachten Testresultate hinausgehen. Morrow (1991) und Wood (1993) betonten bereits Anfang der 1990er Jahre gerade für kommunikativ ausgerichtete Sprachtests die Wichtigkeit von Authentizität, da diese Tests Aussagen über die kommunikative und interaktive Kompetenz der KandidatInnen im realen Leben generieren (authentic assessment) und nicht nur Aussagen über abstrakte Teilfertigkeitsbereiche oder -kompetenzen wie z. B. syntaktisches Wissen zulassen sollen. In diesem Sinne spricht man von einem hohen Grad an Authentizität, wenn Testaufgaben und reale Aufgaben einander möglichst entsprechen. Mit anderen Worten: Wer anhand eines Tests eine Aussage darüber machen will, wie gut jemand eine authentische mündliche Interaktion im Zielsprachenland bewältigen wird, sollte eine möglichst lebensnahe Testaufgabe bereitstellen. Daher sollen moderne Sprachtests auch die Fähigkeit der Lernenden überprüfen, die Zielsprache spontan zu verwenden. Laut Alderson & Cseresznyés (2003) ist der Schlüssel zu kommunikativen Sprachtests, Lernende Aufgaben lösen zu lassen, die sich an echten zielsprachlichen Aufgaben orientieren. Authentizität ist in diesem Sinne auch für die AugenscheinvaliditätAugenscheinvalidität eines Tests ausschlaggebend.

Authentizität beinhaltet nicht allein die Verwendung von nicht adaptierten Lese- und Hörmaterialien (TextauthentizitätTextauthentizitätTextauthentizität: Authentische vs. didaktisierte und adaptierte Texte), sondern meint vor allem die Echtheit und Lebensnähe der Aufgabenstellung bzw. ihre Wahrnehmung als authentisch und interaktiv (Widdowson 1978). Da in der Literatur neben Text- und Aufgabenauthentizität verschiedene Formen von Authentizität diskutiert werden, ist es legitim zu fragen, welche Form der Authentizität diesen wichtigen Einfluss auf die Performanz denn ausübt. Es scheint Einigkeit darüber zu herrschen, dass der die Performanz bestimmende Einfluss eher von einer authentischen Interaktion der TestkandidatInnen mit dem Text herrührt als von der (Nicht-)Originalität des verwendeten Inputs (vgl. Lewkowicz 2000, 45).

In der Berücksichtigung des Authentizitätsprinzips liegen jedoch oft große Schwierigkeiten für LehrerInnen als TesterstellerInnen. Zum einen ist es mitunter schwierig bis unmöglich, authentische, nicht vereinfachte Texte für LernerInnen auf niedrigem Niveau zu finden, und selbst wenn dies möglich ist, sind urheberrechtliche Fragen bei der Verwendung oft ungeklärt. Zum anderen sind die Texte durch die Entnahme aus dem ursprünglichen Kontext und die Tatsache, dass sie nunmehr für Testaufgaben genutzt werden, immer zu einem gewissen Grad simulativ und damit nicht mehr authentisch (vgl. Grabe 2009a). Während die gewählte Kommunikationssituation für einen task sehr authentisch sein kann (SituationsauthentizitätSituationsauthentizitätSituationsauthentizität: Authentizität der gewählten Kommunikationssituation), ist die angestrebte Interaktion zwischen Situation/Text und KandidatIn (InteraktionsauthentizitätInteraktionsauthentizitätInteraktionsauthentizität: Authentizität der Interaktion zwischen Situation/Text und KandidatIn) viel schwerer zu erreichen, denn diese wird davon abhängen, was der/die KandidatIn mit dem Text macht, d.h. wie er/sie ihn versteht und bearbeitet, wie er/sie die Aufgabe löst. TesterstellerInnen können und sollten sich jedoch zum Ziel setzen, Aufgaben so lebensnah wie möglich zu gestalten (vgl. Spolsky 1985). Bachman & Palmers (1996, 49f.) task characteristics framework oder ihr aktuelleres Schema des assessment use argument (Bachman & Palmer 2010) stellen eine Unterstützung dar, um die Eigenschaften von Testaufgaben und lebensnahen Aufgaben zu evaluieren und zu vergleichen. Das Schema leitet zu einer umfassenden Charakterisierung von Testaufgaben und zu realen Sprachhandlungsaufgaben an und erlaubt damit einen systematischen Vergleich von Aufgabeneigenschaften (task characteristics).

4.2.2 Washback

Das Konzept des WashbacksWashback eines Tests trägt dem Umstand Rechnung, dass Sprachtests nicht abgekoppelt von einem gegebenen Kontext existieren oder entwickelt werden. Sprachtests haben reale Auswirkungen und Funktionen, sowohl auf der Makroebene (Schulsystem und Gesellschaft) als auch auf der Mikroebene (Unterrichtsklasse und Individuen) (vgl. Bachman & Palmer 1996; Wall 1997). Diese Auswirkungen können positiv oder negativ sein (Brown & Hudson 2002) bzw. als solche wahrgenommen werden (Alderson & Wall 1993) und sowohl Individuen (LernerInnen, LehrerInnen, …) als auch Systeme betreffen. Sprachtests entscheiden bspw. über Zugang zu tertiärer Bildung (Abitur, Reife- oder Diplomprüfung), Zulassung zu Arbeits- und Studienmöglichkeiten im Ausland (z.B. Pearson Academic Test of English (PTE Academic), Test of English as a Foreign Language (TOEFL), International English Language Testing System (IELTS), Occupational English Test (OET) etc.) oder auch über Einwanderungs- und Einbürgerungsbescheide (McNamara & Roever 2006).

Auswirkungen von Tests auf Institutionen, größere schulische oder politische Systeme oder die Gesellschaft als Ganzes werden gemeinhin als ImpactWashback: Auswirkungen eines Tests auf den Unterricht, das Lernen und Lehren sowie die involvierten Personen bezeichnet. Als Washback (oder auch BackwashBackwash) wird speziell der Rückkoppelungseffekt benannt, den Tests auf das Lehren und Lernen von Sprachen, also den Schulunterricht, haben (Hughes 2003)Impact: Auswirkungen von Tests auf das soziale oder politische System und auf das Bildungssystem. Was Teil eines Tests ist, wird im Allgemeinen als wichtig, lern- und unterrichtenswert wahrgenommen. Testinhalte und -praktiken wirken daher oft in verschiedenen Formen auf den Fremdsprachenunterricht. Dies ist sogar wünschenswert, denn Lehren, Lernen und Testen sollten nicht abgekoppelt voneinander oder isoliert betrachtet werden, sondern als gegenseitige Ergänzung und damit integriert gesehen werden (s. Kapitel 10). Es gilt dabei für LehrerInnen, den Balanceakt zwischen solider Testvorbereitung und dem zu Recht kritisch gesehenen teaching-to-the-testteaching-to-the-testTeaching-to-the-test: Unterricht, der ausschließlich auf Testvorbereitung ausgerichtet ist zu meistern. Cheng (2008) hält fest, dass Tests häufig beeinflussen, was gelehrt wird, aber nur bedingt, wie unterrichtet wird (s. auch Alderson & Wall 1993; Cheng 2005), was damit zusammenhängen mag, dass Inhalte einfacher zu gestalten, zu ändern und umzusetzen sind als Unterrichtsmethoden, die meist auf langjähriger Praxis beruhen.

Das Kriterium des erwarteten positiven Washbacks wird von vielen als derart wichtig eingestuft, dass es mittlerweile auch als Basis einiger prominenter Validierungsmodelle fungiert. Bachman & Palmers (2010) assessment use argument geht beispielsweise davon aus, dass der Start- und Endpunkt jeglicher Testkonstruktion und -verwendung die Frage nach den erwünschten Konsequenzen sein muss. Während die Auswirkungen von Tests bereits in früheren Validitätskonzeptionen mitgedacht wurden (vgl. Messick 1989; Weir 2005a), baut Bachman & Palmers Ansatz deutlich stärker auf diesem Kriterium auf und stellt es gewissermaßen über die anderen Prinzipien. Eine Fokussierung auf die Frage nach dem „Warum“ des Testens ist zwar wünschenswert, dennoch birgt eine solche Schwerpunktsetzung durchaus Probleme in sich, da Konsequenzen nur selten abzuschätzen und klar zu bewerten sind (Bailey 1996; Fulcher 2014). McNamara (2000) hält fest, dass WashbackWashback nicht nur von einem Testinstrument selbst, sondern auch von zahlreichen anderen Faktoren wie den lokalen Bedingungen in einer Klasse, den etablierten Lehr- und Lerntraditionen, der Motivation der Beteiligten und der Interaktionsdynamik in einer Lerngruppe abhängig sein kann. In diesem Sinne ist es wichtig, die individuellen und sozialen Konsequenzen von Tests zu berücksichtigen und ggf. auch entsprechend zu hinterfragen.

Hughes (2003) schlägt Fremdsprachenlehrenden folgende Strategien vor, um positiven Washback für den Unterricht zu erwirken:

Überprüfen Sie die sprachlichen Fertigkeiten, Fähigkeiten und Kompetenzen, die Sie fördern wollen, anstatt das zu überprüfen, was sich leicht überprüfen lässt.

Testen Sie direkt und authentisch, um die Kongruenz zwischen Unterrichtszielen und Testschwerpunkten zu erhöhen.

Stellen Sie sicher, dass LernerInnen mit dem Test, seinen Formaten und Anforderungen vertraut sind.

Bewerten Sie kriterienorientiertkriterienorientierte Bewertung anstatt normorientiertnormorientierte Bewertung, um den LernerInnen ein klares Bild über ihre Erfolge und Entwicklungen zu ermöglichen, unabhängig von der Performanz anderer.

Tauschen Sie sich mit FachkollegInnen über Tests und Bewertungsmethoden aus.

Wall & Alderson (1993), Cheng, Watanabe & Curtis (2004) sowie Cheng (2008) merken jedoch in ihren Studien und Analysen an, dass ein Washback-Effekt nicht zwangsläufig entstehen muss. Vielmehr obliegt es LehrerInnen und TestexpertInnen systematisch zu untersuchen, ob ein solcher Effekt vorhanden ist und wie dieser zu interpretieren ist.

4.2.3 PraktikabilitätPraktikabilität

Jede Entwicklung, Durchführung und Auswertung von Sprachtests erfordert menschliche, räumliche und/oder finanzielle Ressourcen. Sprachtests müssen daher praktikabel und rentabel sein. Das Gütekriterium der PraktikabilitätPraktikabilität: Kosten-Nutzen-Rechnung: Ein Test ist praktikabel, wenn er nicht mehr Ressourcen in Anspruch nimmt als nötig. ist kaum zu unterschätzen. Bachman & Palmer (2010, 232) definieren Praktikabilität als einfache Gleichung, die ein positives Ergebnis aufweisen sollte: Praktikabilität = verfügbare Ressourcen – benötigte Ressourcen.

Praktikable Tests sind demnach Tests, deren Entwicklung und Verwendung nicht mehr Ressourcen benötigen als vorhanden sind. Ressourcen können dabei sowohl finanzieller, materieller, zeitlicher, personen- oder kompetenzbezogener Natur sein (Bachman & Palmer 2010). Ein Test muss einfach und kostengünstig zu erstellen, zu administrieren, auszuwerten und zu interpretieren sein (Hughes 2003). Das Kriterium der Praktikabilität betrifft beinahe alle Entscheidungen, die im Rahmen der Testerstellung und -durchführung getroffen werden. Dies gilt sowohl im Rahmen von Klassen-/Schularbeiten oder Mitarbeitsüberprüfungen als auch für QualifikationsprüfungenQualifikationsprüfung wie das deutsche Abitur oder die österreichische teilzentrale SRDP. Selbstverständlich ist zu beachten, dass Tests, bei denen mehr für alle Beteiligten auf dem Spiel steht, auch ein größeres Volumen an Ressourcen erfordern dürfen und müssen, als dies bei Klassen-/Schularbeiten der Fall ist, um sicherzustellen, dass die Testgütekriterien der Validität und Reliabilität erfüllt sind (Bachman & Palmer 1996).

Sind Tests nicht praktikabel, werden sie entweder nicht eingesetzt oder sie sind auf Dauer nicht verwend- oder recyclebar (Bachman & Palmer 2010). Die Praktikabilität eines Tests ist schon vor Beginn der Testentwicklung zu bedenken. Sie soll jedoch keine leichtfertige Ausrede für eventuelle Schwächen eines Tests, wie z. B. den Verzicht auf PilotierungPilotierung oder Ähnliches sein. Im schulischen Kontext kann besonders die Arbeit mit FachkollegInnen anderer Klassen helfen, Tests trotz limitierter Ressourcen nach einem Best Practice-Modell zu erstellen und durchzuführen.

4.3 Neuere Konzeptionen

Bei dieser Vielzahl an Kriterien, die zu berücksichtigen sind, wäre es unrealistisch, eine hundertprozentige Umsetzung in allen Bereichen zu erwarten (Bachman & Palmer 1996). Die Überprüfung einer Sprache besteht immer aus Kompromissen, bei denen die einzelnen Kriterien abhängig vom Zweck des Tests/der Prüfung gegeneinander abgewogen werden müssen. Ein Test mit denkbar höchster ValiditätValidität und ReliabilitätReliabilität wird nicht verwendet werden, wenn er beispielsweise nicht praktikabel ist.

Die Konzeptualisierungen all der oben genannten Prinzipien sowie deren Beziehungen zueinander unterlagen über die Jahrzehnte einem ständigen Wandel. Alle Prinzipien eint allerdings die zentrale Rolle der Validität, wie auch immer diese definiert sein mag. So sieht beispielsweise Weir (2005a) eine Rückwirkung aller oben genannten Prinzipien auf die Gesamtvalidität eines Tests und verankert diese terminologisch, indem er sie als „scoring validity“ (= u.a. Reliabilität), „context validity“ (= u.a. AuthentizitätAuthentizität) oder „consequential validity“ (= u.a. WashbackWashback) bezeichnet. Da Validität jedoch ein komplexes und abstraktes Konzept ist, wird der Fokus in neueren Modellen oft weg vom theoretischen Konzept hin zur praktischen Validierung, d.h. der Erbringung empirischer Daten zum Nachweis von Validitätsannahmen, gelegt. In Anlehnung an Toulmins Argumentationsanalyse sprechen diese modernen Modelle von Validitätsargumenten, die schlüssig erbracht werden müssen, um die Qualität von Tests zu belegen. Die Modelle von Kane (2004, 2006, 2012) und Bachman & Palmer (2010) stellen daher die Ziele, die mit der Verwendung eines Tests verfolgt werden, in den Vordergrund. Beide Modelle definieren Validierung als erforderliche Beweislegung für Aussagen und Schlussfolgerungen, die auf der Basis von Testresultaten getätigt werden, um deren Plausibilität transparent zu machen. Obwohl dies im ersten Moment das schwer fassbare Konzept der Validität zu umgehen scheint, fällt bei genauerer Betrachtung auf, dass auch diese Modelle, trotz innovativer Terminologie, die oben diskutierten Kernprinzipien kaum außer Acht lassen können. Für Bachman & Palmers (2010) Kriterien „nutzbringend“, „fair“, „generalisierbar“, „sinnvoll“, „neutral“, „relevant“, „ausreichend“ und „konsistent“ können daher relativ leicht Äquivalente aus den oben erläuterten „traditionellen“ Gütekriterien gefunden werden. Während diese neuen Modelle also zweifelsfrei den Vorteil haben, dass sie methodische und praktische Anliegen in der Validierung ebenso in den Vordergrund rücken wie die Frage nach der beabsichtigten Zielsetzung eines Sprachtests, so kommen sie dennoch nicht ohne die klassischen Kriterien aus.

Arbeitsaufträge und Diskussionsfragen

1 Wie können Sie eine Klassen-/Schularbeit für Ihren Unterricht möglichst durchführungsobjektiv gestalten?
2 Wie würden Sie KollegInnen/SchülerInnen das Testprinzip „Reliabilität“ mithilfe eines praktischen Beispiels aus dem Alltag erklären?
3 Wie verstehen Sie folgendes Zitat aus Kranert (2013, 10)? „Für das nicht formale Prüfen im Rahmen von Schule und Universität, d.h. für nicht standardisierte Prüfungen, ist wichtig, dass ein Test mit geringer Validität und hoher Reliabilität gut für die Differenzierung zwischen den Leistungen von Prüflingen geeignet ist.“ Würden Sie Kranert nach der Lektüre dieses Kapitels zustimmen oder sein Argument widerlegen wollen?
4 Denken Sie an einen Test, den Sie kürzlich erstellt oder durchgeführt haben. Wie schätzen Sie den Washback dieses Tests ein? Bedenken Sie mögliche positive und negative Wirkungen.
5 Überlegen Sie, welche Faktoren bei der Erstellung einer Klassen-/Schularbeit bzw. eines Tests berücksichtigt werden sollen, um dem Prinzip der Authentizität gerecht zu werden. Welche Rolle spielen dabei Alter der Lernenden, ihr Geschlecht, das Vorwissen oder affektive Faktoren?

Weiterführende Literatur

Alderson, J. Ch., Clapham, C. & Wall, D. (1995): „Validation“. In: Language Test Construction and Evaluation. Cambridge: Cambridge University Press, 170–196. Dieses Kapitel in einem der klassischen Einführungswerke zum Sprachtesten gibt einen anschaulichen Überblick über die wichtigsten Arten von Validität inklusive Beispielen aus der Testpraxis und einer Checkliste, mit welchen Forschungsdesigns und -instrumenten diese Validitätsarten untersucht und evaluiert werden können. Sehr gut geeignet für eine erste terminologische Orientierung, auch wenn sich die Ansätze in der Validierungsforschung seit dieser Publikation natürlich weiterentwickelt und zum Teil geändert haben.

Carr, N.T. (2011): „Validation“. In: Carr, N.T.: Designing and Analyzing Language. Oxford Handbooks for Language Teachers. Oxford: Oxford University Press, 151–163. Dieses Kapitel beschreibt kurz die historische Entwicklung des Validitätsbegriffs und stellt gängige Validierungskonzepte dar. Der Fokus liegt dabei auf den derzeit vor allem im amerikanischen Raum prominenten Validitätsargumenten, wie dem Assessment Use-Argument von Bachman und Palmer (2010), und der Wichtigkeit von Entscheidungen und Konsequenzen, die aus Testergebnissen resultieren und daher nach Ansicht vieler TestforscherInnen Teil der Testvalidierung sein sollen.

Fulcher, G. (2010): „Introducing Reliability“. In: Fulcher, G.: Practical Language Testing. London: Hodder Education, 46–59. Dieser Beitrag in einem weiteren aktuellen und praktisch orientierten Standardwerk zur Einführung in das Sprachtesten bietet eine kurze Einführung in das Konzept der Reliabilität und die wichtigsten Faktoren, die diese beeinflussen können. Das Kapitel beinhaltet außerdem eine einfache Anleitung zur händischen Errechnung von Reliabilitätskoeffizienten. Weitere Kapitel im Buch orientieren sich an einzelnen Stadien der Testerstellung und geben einen hilfreichen Einblick in zentrale Überlegungen bei jeder dieser Phasen.

Lewkowicz, J. (2000): „Authenticity in Language Testing: Some Outstanding Questions“. In: Language Testing 17 (1), 43–64. Ein komprimierter und leicht verständlicher Überblick zum Thema Authentizität im Fremdsprachenlehren und -testen, inklusive historischem Abriss über die Entwicklung des Konzepts seit den 1970er Jahren.

5. Die Erstellung von Testaufgaben: Der TestentwicklungszyklusTestentwicklungszyklus

Kathrin Eberharter, Benjamin Kremmel, Matthias Zehentner

Kann-Beschreibungen

Ich kann

verschiedene Testzwecke nennen und erklären.

die Bedeutung der Konstruktdefinition in einem Testentwicklungszyklus erläutern.

die unterschiedlichen Bereiche von Testspezifikationen beschreiben und deren Bedeutung erläutern.

Evaluierung, Prototypisierung und Pilotierung unterscheiden.

Standard-Setting und Benchmarking sowie ihre jeweiligen Anwendungsbereiche erklären.

Die Erstellung eines Tests kann in drei wesentliche Arbeitsschritte unterteilt werden (vgl. Bachman & Palmer 1996; McNamara 2000):

Entwurf

Operationalisierung

Durchführung.

In der Entwurfphase werden der TestzweckTestzweck, die Zielgruppe, das TestkonstruktKonstrukt und die zu testenden Domänen der zielsprachlichen Verwendung definiert und beschrieben. Die Operationalisierungsphase besteht aus zwei Schritten: Zunächst wird der Test in seiner Gesamtheit definiert und die Formate der einzusetzenden Testaufgaben werden innerhalb der einzelnen Testteile durch die Erstellung von TestspezifikationenTestspezifikationen festgelegt. Anschließend werden die Testaufgaben auf Basis der Testspezifikationen erstellt. In der letzten Phase wird ein Test – im Idealfall nach einer Erprobung (PrototypisierungPilotierung) und Pilotierung respektive FeldtestungFeldtestung – tatsächlich durchgeführt.

Auf den ersten Blick mag dieser Entwicklungsprozess Testentwicklung ist nicht linear, sondern ein sich ständig wiederholender Zyklus.linear erscheinen. In der Tat bietet aber jede Durchführung eines Tests wertvolle Rückschlüsse für die ersten beiden Phasen und generiert empirische Daten, die zur Validierung des Tests genutzt werden können. Aus diesem Grund spricht man in der Testerstellung von Testentwicklungszyklen, deren Phasen sich wiederholen und immer wieder zu Überarbeitungen aller Aspekte eines Tests führen können.

Abb. 1: Testentwicklungszyklus adaptiert nach Fulcher (2010, 94)

Im folgenden Kapitel sollen basierend auf Fulcher (2010) die einzelnen Phasen eines TestentwicklungszyklusTestentwicklungszyklus vorgestellt und näher beschrieben werden (s. Abb. 1).

Бесплатный фрагмент закончился. Хотите читать дальше?

Пред.1 ...4 56

Testen und Bewerten fremdsprachlicher Kompetenzen

4.2 Authentizität, Washback, Praktikabilität

4.2.1 AuthentizitätAuthentizität

4.2.2 Washback

4.2.3 PraktikabilitätPraktikabilität

4.3 Neuere Konzeptionen

5. Die Erstellung von Testaufgaben: Der TestentwicklungszyklusTestentwicklungszyklus

С этой книгой читают