december standardized testing brief (1).compressed

30
A Shattered Lens Brief Resolved: On balance, standardized testing is beneficial to K12 education in the United States. Public Forum Debate, December 2015

Upload: ryan-moore

Post on 21-Jan-2017

284 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: December Standardized Testing Brief (1).compressed

A Shattered Lens Brief  

  

Resolved: On balance, standardized testing is beneficial to K­12 education in the United States. 

 Public Forum Debate, December 2015 

    

Page 2: December Standardized Testing Brief (1).compressed

TABLE OF CONTENTS  

AFFIRMATIVE 

AP TESTING 

TRACKING AND ABILITY GROUPING 

INCREASED STUDENT ACHIEVEMENT AND SUCCESS 

AGGREGATING ACHIEVEMENT 

LOW COST ACCOUNTABILITY 

DON’T BLAME STANDARDIZED TESTS FOR THE HARMS OF NO CHILD LEFT BEHIND 

NEGATIVE 

LACK OF COGNITIVE BENEFITS 

DE­MOTIVATING TEACHERS AND GAMING THE SYSTEM 

INADEQUACY OF ASSESSMENT 

DISCRIMINATION AGAINST DISADVANTAGED STUDENTS 

SCARY SCORING 

    

Page 3: December Standardized Testing Brief (1).compressed

AFFIRMATIVE 

 

   

Page 4: December Standardized Testing Brief (1).compressed

AP TESTING 1. AP Testing is related to attainment in higher education 

Cecilia Speroni [ National Center for Postsecondary Research] Determinants of Students’ Success The Role of Advanced Placement and Dual Enrollment Programs  

Overall, there are significant positive relationships between both AP and DE participation and students’ likelihood of enrolling in college after high school, first enrolling in a four-year institution, and obtaining a bachelor’s degree. There are, however, apparent differences in outcomes between students with AP credits and those with DE credits when compared to those with no AP or DE credits.  

2. AP Testing has a causal effect on higher attainment 

 Krista D. Mattern [College Board] Are AP®  Students More Likely to Graduate from College on Time? 

The results from this study indicate that participation in the AP Program, through the completion of one or more AP Exams, was related to an increased likelihood that a student would graduate in four years or fewer, with graduation rates of 58% and 55% for AP Exam takers compared with 38% and 34% for non-AP students for the Samples 1 and 2, respectively. This means that regardless of what score was earned on the AP Exam(s), students who took an AP Exam were more likely to graduate in four years or fewer than students who took no AP Exams. Focusing on performance in an AP Exam(s), the results showed that those students who earned higher scores were more likely to graduate in four years or fewer than those who earned lower scores, with four-year graduation rates of 37% and 34% for students with an average AP score of 1 compared to graduation rates of 71% and 73% for students with an average score of 5 for Samples 1 and 2, respectively. In other words, high-performing AP students are almost twice as likely to graduate within four years compared with low-performing AP students. The model-based analyses also show that AP Exam participation and performance both uniquely contributed to predicting four-year graduation, above and beyond such variables as students’ prior academic performance, gender, underrepresented minority status, and first-generation college-going status, which we know from the literature are associated with graduation rates. For Sample 1, we additionally controlled for institutional characteristics of control and selectivity and still found that AP Exam participation and performance were related to graduation, providing further evidence of the value of the AP Program.  

3. AP Testing provides an economic benefit 

 Krista D. Mattern [College Board] Are AP®  Students More Likely to Graduate from College on Time? 

With the ever-rising cost of attending college, this research has important implications for college students, their families, educators, policymakers, and researchers. Reducing the amount of time spent in college so that students graduate on time would reduce the total cost of college. According to the National Center for Education Statistics, the total college cost for an undergraduate student attending a public institution (including tuition, room, and board) rose 42%, after adjusting for inflation, between 2000-01 and 2010-11. To meet the rising costs of college, many students are seeking financial aid, including loans. In fact, total college debt has exceeded total credit card debt (Kantrowitz, 2010) and the Student Loan Debt Clock (available on www.finaid.org/loans/studentloandebtclock.phtml) lists the current outstanding student loan debt as more than $1 trillion. With these figures in mind, it becomes increasingly urgent to not linger in a college program without sufficient and steady progress. Contrary to the intended model of higher education, the majority of students enrolled in a four-year college or university do not graduate in four years. Specifically, fewer than 4 out of 10 students graduate from a four-year college within four years, roughly half graduate within five years, and nearly 60% graduate within six years (U.S. Department of Education, 2010). Given that the average annual cost of a college education at a four-year institution was $21,657 in 2010-11, extending the time to graduate by even a semester is a huge financial burden (Snyder & Dillow, 2012). The expenditures segmented by institutional control show that the annual cost for a four-year public institution in 2010 was $15,605, compared with $31,957 at a private institution. In other words, if a student attending a private institution takes an additional two years to graduate from college, it will cost nearly an additional $65,000 compared with the total cost had he or she graduated on time (in four years). Furthermore, as the national statistics cited above highlight, graduating from college in six years is not unheard of, and in fact, six years is a commonly employed timeframe for reporting graduation rates. The less debt that accrues during the college years means the less debt that must be paid back upon graduation, which is increasingly important in a turbulent economy. That being said, educational programs that are positively related to graduating on time or earlier, such as the AP Program, are important to research and 

Page 5: December Standardized Testing Brief (1).compressed

promote in order to assist those who would benefit the most from such programs; that is not to say that anyone should take AP courses without being prepared for such rigorous work, but rather that the AP Program is an important tool that can be used to prepare students for college.  

[College Board] The Value of AP Courses and Exams 

If you earn a qualifying grade on an AP Exam, you can receive credit for the equivalent course at thousands of colleges and universities. This could save you as much as $3,000 per course 

4. AP Testing provides a benefit while in high school and college 

Sean M. Preston [Liberty University] THE COMPLETION OF ADVANCED PLACEMENT COURSES AS AN INDICATOR OF ACADEMIC SUCCESS IN FIRST­YEAR COLLEGE STUDENTS 

The researcher secured the grade point averages (GPA’s) of the students in the two research groups. The mean GPA for the Advanced Placement (AP) group was 3.5225, while the mean for the non-AP group was 3.015. A right tailed t-test based on independent samples revealed a significant difference between the two groups [t(67)=8.08, p=.000]. The researcher also collected the data via the Freshman Success Survey (FSS). The mean scores for the AP and non-AP groups were 221.32 and 208.28 respectively. A second right tailed t-test based on independent samples resulted in a significant difference between the means of the groups [t(67)=1.95, p=.029]. The divergence in scores between Groups A and B answers both of the research questions. These questions ask whether there will be a significant difference in academic success between students who completed Advanced Placement courses and those who did not, as indicated by (1) the grade point average (GPA) at the end of the first semester of college by the students in the two groups, and (2) the stated results of the FSS. According to the groups’ GPA’s and the FSS, Advanced Placement high school graduates are more academically successful than their non-AP counterparts during the first year of college. In order to further substantiate the findings, the researcher considered additional elements produced from the FSS. For Group A, the standard deviation(s) for the sample was 20.5, which demonstrated how concentrated each of the respondents’ values was in comparison to the mean of 221.3. The variance (s2 ) for the sample in Group A was 421.9. The minimum value for the sample was 155, and the maximum value was 253. The median value was 223. For Group B, the standard deviation(s) for the sample was 31.5, and the variance (s2 ) was 994.8. The minimum value in Group B was 63, while the maximum value was 237. The median value was 216 and the degrees of freedom were 67. Moreover, the self-reported SAT scores in the AP group (1128) were significantly higher than those of the non-AP group (1055). Finally, the coded responses of the empirical open-ended questionnaire further distinguished the role of Advanced Placement courses in the success of first-year college students. In addition to the survey perspective, the researcher conducted an empirical study to further discern how Advanced Placement courses better prepare first-year college students for the academic rigors of a secondary learning environment. The empirical questionnaire identified seven elements of success that the subjects associated with completing AP classes while enrolled in high school. These elements included: (1) time management, (2) self-confidence, (3) organization, (4) writing skills, (5) test preparation, (6) critical thinking, and (7) critical reading skills (See Appendix E). The element of time management was the most reoccurring of the listed traits and was ranked as the most critical by 11 of the 25 participants. 

5. AP leads to higher attainment compared to similar non‐AP students 

Daniel Murphy [College Board] A Comparison of College Performance of Matched AP and Non­AP Student Groups 

Three straightforward findings were observed across the 10 AP Exams with respect to comparisons of the AP and Non-AP groups. Table 17 summarizes how the three primary findings were observed across the six (or seven) dependent variables. The first finding shows that AP students as a group consistently outperformed Non-AP students. Across the 10 subject areas, students who had taken an AP Exam consistently took more hours in their first year, in the related subject area, and in college overall than did NonAP students. They also consistently had higher GPAs in the subject area related to the AP Exam. For five of the 10 AP Exam subject areas, the AP students also had significantly higher first-year GPAs. The AP effects were greatest with respect to the cumulative related-subject credit hours taken by the students, where effect sizes were moderate for three of the 10 subjects. The second finding shows that the students in the Credit category (i.e., the AP+ and Non-AP+ students) consistently significantly outperformed the students in the No Credit category (i.e., the AP- and Non-AP- students). The students in the Credit group outperformed the students in the No Credit group across every dependent variable, including the three analyses that used sequent course grades as a measure. Effect sizes were in the moderate range across multiple subjects for cumulative college credit hours taken and first-year GPA. The Credit effects were greatest with respect to the cumulative AP-subject area GPAs of the students, where effect sizes were moderate for five of the 10 subjects. The third finding shows that the AP+ students consistently outperformed their Non-AP+ counterparts. AP+ students took significantly more first-year, subjectarea and overall hours in college than did Non-AP+ students. They had significantly higher first-year and related-subject GPAs as well. Additionally, their cumulative GPAs were higher in three out of the 10 subject areas. The related effect sizes were greatest with respect to related-subject credit hours taken, where effect sizes were in the moderate range for four of the 10 subjects and large for another.  

Page 6: December Standardized Testing Brief (1).compressed

TRACKING AND ABILITY GROUPING 1. Standardized testing is used to track students 

Jay P. Heubert [Committee on Appropriate Test Use] High Stakes:  Testing for Tracking, Promotion, and Graduation   

Tests play a complex role in tracking decisions. On one hand, there is evidence that most within-grade and within-class tracking decisions are not based solely on test scores (Delany, 1991; Selvin et al., 1990; White et al., 1996). Although practice varies considerably, even from school to school, educators consistently report that such decisions are based on multiple sources of information: test scores, teacher and counselor recommendations, grades, and (at secondary levels) student choice (Oakes et al., 1992). Also, as previously noted, parents often play a powerful role.On the other hand, standardized tests are routinely used in making tracking decisions (Glaser and Silver, 1994; Meisels, 1989). Moreover, they may play an important, even dominant, role in selecting children for exam schools and gifted and talented programs.5 IQ tests play an important part in the special education evaluation process, and their use contributes to the disproportionate placement of minority students into classes for students with mild mental retardation (National Research Council, 1982; Haney, 1993).6 Even when test scores are just one factor among several that influence tracking decisions, they may carry undue weight by appearing to provide a scientific justification and legitimacy for tracking decisions that such decisions would not otherwise have.7Some standardized test scores can be used appropriately in making tracking decisions, and the following sections of this chapter describe criteria that are relevant in determining whether a particular test use is appropriate. 

2. Tracking is beneficial to student education 

Esther Duflo [MIT] Peer Effects, Teacher Incentives, and the Impact of Tracking: Evidence from a Randomized Evaluation in Kenya  

Despite the critical importance of this issue for the educational policy both in developed and developing countries, there is surprisingly little rigorous evidence addressing it, and to our knowledge this paper provides the first experimental evaluation of the impact of tracking in any context, and the only rigorous evidence in a developing country context. After 18 months, the point estimates suggest that the average score of a student in a tracking school is 0.14 standard deviations higher than that of a student in a non-tracking school. These effects are persistent. One year after the program ended, students in tracking schools performed 0.16 standard deviations higher than those in non-tracking schools. Moreover, tracking raised scores for students throughout the initial distribution of student achievement. A regression discontinuity design approach reveals that students who were very close to the 50th percentile of the initial distribution within their school scored similarly on the endline exam whether they were assigned to the top or bottom section. In each case, they did much better than their counterparts in non-tracked schools. We also find that students in non-tracking schools scored higher if they were randomly assigned to peers with higher initial scores. This effect was very strong for students at the top of the distribution, absent for students in the middle of the distribution and positive but not as strong at the bottom of the distribution. Together, these results suggest that peers affect students both directly and indirectly by influencing teacher behavior, in particular teacher effort and choice of target teaching level. Under the model, the impact of tracking will depend on teachers’ incentives, but in a context in which teachers have convex payoffs in student test scores, tracking can lead them to refocus attention closer to the median student.   Laura Argys [University of Colorado] Detracking America's schools: the reform without cost?  

Finally, we used the estimates of our achievement models to calculate the predicted test score for each individual in our sample had he or she been placed in each of the four tracks, and we found that tracking was an important determinant of student achievement. For example, if our entire sample had been placed in heterogeneous classes, the average test score was predicted to be 63.36 on a 100-point scale. The average 10th-grade mathematics score associated with the placement of all students in average classes was predicted to be 65.30; in below-average classes, and in above-average classes, By comparing the predictions for the various tracks with those for heterogeneous grouping, we were able to assess the impact of tracking. Placement in a below-average math class, as compared to a heterogeneous one, was associated with a decrease crease in achievement of approximately five percentage points. Placement in an above-average math class was associated with an achievement increase of roughly the same magnitude. And placement in an average class was associated with an increase of somewhat less than two percentage points.(24) These results suggest that detracking would create winners and losers. Although students in lower tracks would realize achievement gains by being placed in a heterogeneous class, this gain would be at the expense of students placed in higher - level tracks. Our estimates imply that detracking all students currently enrolled in homogenous classes would produce a net 1.7% drop in the average mathematics test score.(25)    

Page 7: December Standardized Testing Brief (1).compressed

3. Ability Grouping benefits all students 

Courtney Collins [NBER] DOES SORTING STUDENTS IMPROVE SCORES? AN ANALYSIS OF CLASS COMPOSITION  

The purpose of this study is to examine how schools sort students into classes, how those sorting mechanisms affect student achievement, and whether there are heterogeneous sorting effects across a distribution of students. Using detailed student-level data that allows a student to be linked to his classroom, we find evidence of a wide variation in sorting practices across schools. Many schools appear to sort along various dimensions, including previous math and reading scores, gifted and talented or special education status, and limited English proficiency. We find strong evidence that sorting students into more homogeneous groups is beneficial, particularly for sorting by previous testing score. Interestingly, when allowing for heterogeneity in the sorting effect across a distribution of students, we find positive and significant results for both high scoring and low scoring students, suggesting that both groups benefit from sorted classes. This is consistent with the hypothesis that dividing students into more homogeneous groups allows teachers to direct their focus to a more narrow range of students and meet the needs of their particular classroom more efficiently. This study has valuable policy implications because unlike many school policy variables, the composition of classes can often be changed with little need for increased funds. A school with a fixed number of classrooms and teachers can increase efficiency by rearranging students in the most effective way possible. This study suggests that creating classes with lower levels of dispersion of score or ability level may improve the achievement outcomes for students across the score distribution.  

 

 

 

 

 

 

 

 

 

 

 

 

   

   

Page 8: December Standardized Testing Brief (1).compressed

INCREASED STUDENT ACHIEVEMENT AND SUCCESS 1. The majority of evidence finds testing benefits students 

Richard Phelps [Non­Partisan Education] The Effect of Testing on Achievement: Meta­Analyses and Research Summary, 1910–2010 Source List, Effect Sizes, and References for Quantitative Studies 

The text of this study will be published in the International Journal of Testing. The study summarizes the research literature on the effect of testing on student achievement, which comprises several hundred studies conducted from the early 20 century to the present day. th Only quantitative studies are listed here (N studies = 177; N effects = 640). Mean effect sizes range from a moderate d . 0.55 to a fairly large d . 0.88 depending on the way effects are aggregated or effect sizes are adjusted for study artifacts. Testing with feedback produces the strongest positive effect on achievement. Adding stakes or testing with greater frequency also strongly and positively affects achievement. The evidence from a century’s worth of quantitative studies shows the effect of testing on achievement to be moderately to strongly positive. Smaller-scale studies, however, tend to produce stronger effects than do large-scale studies. Those who judge the effect of testing on achievement exclusively from large-sample multivariate studies deprive themselves of the most focused, clear, and precise evidence. Some prominent researchers in economics and education, for example, have claimed that no studies of “test-based accountability” had been conducted before theirs in the early 2000s. But, this list includes 24 studies completed before 2000 whose primary focus was to measure the effect of “test-based accountability.” A few dozen more pre-2000 studies also measured the effect of test-based accountability although such was not their primary focus. Include qualitative and program evaluation studies of test-based accountability, and the count of pre-2000 studies rises into the hundreds.  

2. Testing causes students to gain more knowledge and skills 

John Bishop [Cornell University] Impacts of Tougher Graduation Requirements on Course Selection and Learning in High School and Post High School Experiences of Vocational Students 

Higher academic course graduation requirements increased academic course taking but did not decrease vocational course taking. Indeed, students in states with above average numbers of academic courses required for graduation took significantly more vocational education courses and were more likely to become vocational concentrators than students in states with low minimums. Another surprising finding was the positive effect of academic course graduation requirements and MCEs on the number of art, music, health and other personal interest courses taken. We doubt this is what policy makers had in mind when they established these policies. Why do minimum competency exams appear to increase personal interest course taking more than they increase academic course taking? What is it about higher academic course graduation requirements that results in students taking more personal interest courses? More research is needed on the impacts of individual components of state course graduation requirements on course taking, test score gains and other outcomes. The paper then examined the determinants of test score gains between 8th and 12th grade in core academic subjects. Not surprisingly, gains were larger for students who took many academic courses and smaller for those who took introductory vocational courses. Occupational courses and personal interest courses had no effect on test score gains. Course graduation requirements and local option minimum competency exams had no effect (either direct or indirect) on learning during high school. State minimum competency examinations modestly increased learning by non-vocational students but not by vocational concentrators. The next outcome examined was college attendance. Not surprisingly, the number of academic courses completed had a strong relationship with college attendance. Occupational vocational courses and personal interest courses also had significant positive relationships with college attendance but the magnitude of these effects was smaller than for academic courses. State and local minimum competency examinations had large significant positive effects on the college attendance rates of vocational concentrators but no effects on other students.  

Page 9: December Standardized Testing Brief (1).compressed

3. Testing develops long term education and achievement benefits 

Adam Putnam [Washington University] Ten Benefits of Testing and Their Applications to Educational Practice 

We have reviewed 10 reasons why increased testing in educational settings is beneficial to learning and memory, as a self-study strategy for students or as a classroom tactic. The benefits can be indirect—students study more and attend more fully if they expect a test – but we have emphasized the direct effects of testing. Retrieval practice from testing provides a potent boost to future retention. Retrieval practice provides a relatively straightforward method of enhancing learning and retention in educational settings. We end with our 10 benefits of testing in summary form: Benefit 1: The testing effect: Retrieval aids later retention. Benefit 2: Testing identifies gaps in knowledge. Benefit 3: Testing causes students to learn more from the next learning episode. Benefit 4: Testing produces better organization of knowledge. Benefit 5: Testing improves transfer of knowledge to new contexts. Benefit 6: Testing can facilitate retrieval of information that was not tested. Benefit 7: Testing improves metacognitive monitoring. Benefit 8: Testing prevents interference from prior material when learning new material. Benefit 9: Testing provides feedback to instructors. Benefit 10: Frequent testing encourages students to study. Finally, testing can of course be relied on to fulfill its traditional functions: Permitting instructors to assign grades to students. 

4. Higher achievement standards increase wages 

John Bishop [Cornell University] Impacts of Tougher Graduation Requirements on Course Selection and Learning in High School and Post High School Experiences of Vocational Students 

Of the four types of graduation requirements evaluated, only two had positive effects on labor market outcomes immediately after high school. Increased state total course graduation requirements and local minimum competency examinations were not associated with better labor market outcomes. State minimum competency examinations, by contrast, were associated with dramatically improved labor market outcomes. Graduates from MCE states who did not do a vocational concentration earned 6 to 7 percent more per month and 9 percent more per annum than similar graduates in non‐MCE states. Vocational concentrators benefited even more from growing up in a MCE state. In the 21 months after graduating they were onethird less likely to be unemployed, 8 percent more likely to be employed, paid 8 percent more per hour and earned 15 percent more per month. Employed graduates with vocational concentrations were also significantly more likely to get formal training when they lived in states with MCEs. Academic course graduation requirements also had a few positive effects. Holding total Carnegie unit graduation requirements constant, a one unit increase in academic requirements raised wage rates by 1.7 percent and 1994 monthly earnings by 3 percent. 

5. Testing creates benefits student achievement without limiting their knowledge 

[Center for Public Education] High­stakes testing and effects on instruction: Research review  

The response to questions posed for this research review is that a majority of the public, including teachers, supports high-stakes testing, although they worry about its effect on teaching and learning; counselors in North Carolina find testing affects their ability to do their jobs; and students in Arkansas are not upset by testing. By looking at empirical evidence, we also find that high-stakes testing increases the amount of learning, as evidenced by performance on other tests. Additionally, we see that teachers can both prepare students for tests and teach them what they need to know, if curriculum is aligned with standards and tests and if data from the tests is used to refine curriculum. As is often the case with research on educational topics, research on responses to high-stakes testing needs to be approached with judgment and caution, and above all with an open mind. Research does not give us the definitive answers we seek; rather it provides us the tools to arrive at our own conclusions. More rigorous studies will continue to emerge that shed valuable light in various ways—both good and bad—that high-stakes tests can affect instruction. The Center will continue to explore this issue and provide updates as new research becomes available. 

 

   

Page 10: December Standardized Testing Brief (1).compressed

AGGREGATING ACHIEVEMENT 1. Standard testing is needed to provide accurate grades for students 

Richard Phelps [Non­Partisan Education] Characteristics of an Effective Student Testing System  

A third likely consequence of eliminating high-stakes standardized testing is a blackout of reliable information on student performance anywhere outside a student’s own school district. Eliminating high-stakes standardized testing would increase schools’ reliance on teacher grading and testing, which are far more likely to prove idiosyncratic and nongeneralizable than any standardized test. Individual teachers can narrow the curriculum to what they personally prefer. Grades are susceptible to inflation as students learn teachers’ idiosyncrasies and how to manipulate their opinions. According to research on the topic, many teachers, when assigning marks, tend to consider noncognitive outcomes, including student class participation, perceived effort, progress over the period of the course, and comportment. Actual subject-matter mastery is just one among many factors. Moreover, given most teachers’ relatively brief training in testing and measurement, it is not clear that their testing and grading practices would be superior even if they focused only on subject-matter mastery. If the curriculum is not tested, it is difficult to know if any of it works. Without standardized tests, reliably gauging student progress becomes problematic for anyone outside the classroom. One must accept whatever each teacher says, and without standardized tests, points of comparison for different classrooms become progressively rarer. Without either common standards or high-stakes standardized tests, there may be no effective way to monitor systemwide performance at all. Some U.S. teachers may be doing a wonderful job in their totally customized classes, but some may be doing an awful job. How is one to know or tell which? One must hope that teachers will face down their own natural inclinations as well as those of students, parents, and schools to avoid accountability and hold themselves and their students to high standards of performance regardless. One must also hope that teachers will know how. 

2. Standardized tests are essential to analyzing student achievement 

Herbert Walberg [The Heartland Institute] Stop the War Against Standardized Tests  

Student performance is a crucial element of a metaphorical three-legged stool that also includes standards and learning. When one leg is weak or missing, educational programs may be faulty, but if all three are strong, the programs can be strong. Standardized tests are used to measure the student performance leg of this stool. If standardized tests are misused, of course, the program and student learning may be defective. When standardized tests are used appropriately, a great deal can be learned about how well schools function. That information allows educators and policymakers to make better-informed conclusions about how much students are learning, which in turn allows them to make better-informed decisions about improving programs. Students benefit directly when they take tests that offer information on how well they have mastered the material intended for learning. School reading and mathematics skills, for example, can be precisely specified, and as students learn the skills, they benefit from ongoing information tailored to their specific, individual progress. Computers streamline this process by providing immediate feedback about correct and incorrect responses far more quickly and with much greater patience than teachers and tutors can provide. 

3. Standardized testing allows achievement to be compared 

[Columbia University] Pros and Cons of Standardized Testing  

Standardized testing allows students located in various schools, districts, and even states to be compared. Without standardized testing this comparison would not be possible. Public school students in the state of Texas are all required to take the same state standardized tests. This means that a student in Amarillo can be compared to a student in Dallas. Being able to accurately compare data is invaluable and is a major reason that the Common Core State Standards have been adopted. These will allow for a more accurate comparison between states. 

Page 11: December Standardized Testing Brief (1).compressed

4. Comparing achievement is essential to education policy making 

Richard Phelps [Non­Partisan Education] Estimating the Costs and Benefits of Educational Testing Programs  

Distilled to the most rudimentary elements, the main benefits of standardized testing are four - information, motivation, organizational clarity, and goodwill. But, that amounts to quite a thorough distillation. The information benefits alone can manifest themselves in several different forms, to several different audiences. Test results can tell us about the performance of an individual student. They can provide information about a teacher, a curriculum, a textbook, a school, a program, a district, or a state 

policy. Moreover, the information provided by test results can inform one or more among many parties - parents, voters, employers, higher education institutions, other schools, state departments of education, and so on. Perhaps the simplest, and least disputed, benefit of standardized tests is in diagnosis. Test results can pinpoint a student's academic strengths and weaknesses, areas that need work, and areas where help is needed. Test scores provide a measurement tool that can be used to judge the effectiveness of preexisting or proposed school programs. Test results can inform teachers, schools, and school systems about their curricular and instructional strengths and weaknesses. That may lead to a better alignment of curriculum with instruction, a benefit often enumerated by 

teachers and administrators in evaluations of testing programs. Teachers have also reported that they learn more about their students, their own teaching, and other teachers' methods from high-stakes external tests. Information can also be used for accountability purposes. Higher-level school system administrators can use information to make judgments about performance at the school or school district level and to increase efficiency. In an environment of school choice (e.g., school districts with open enrollment), information about school performance can help parent-student school shoppers to make a better-informed selection. Finally, information benefits can consist of signaling, screening, and credentialing effects. College admissions counselors and employers can make a more informed decision about applicants' academic achievement with test scores than they can without. Colleges, for example, use measures of predictive validity(correlation coefficient of entrance test score with college achievement) to justify requiring applicants to submit scores from college admissions tests (ACT or SAT). Measures of allocative efficiency (efficient sorting of applicants to organizations) are more difficult to measure, but are relevant benefits as well.  

5. Standardized testing allows for international comparison 

Martin Carnoy [Economic Policy Institute] WHAT DO INTERNATIONAL TESTS REALLY SHOW ABOUT U.S. STUDENT PERFORMANCE?  

Education policymakers and analysts express great concern about the performance of U.S. students on international tests. Education reformers frequently invoke the relatively poor performance of U.S. students to justify school policy changes. In December 2012, the International Association for the Evaluation of Educational Achievement (IEA) released national average results from the 2011 administration of the Trends in International Mathematics and Science Study (TIMSS). U.S. Secretary of Education Arne Duncan promptly issued a press release calling the results “unacceptable,” saying that they “underscore the urgency of accelerating achievement in secondary school and the need to close large and persistent achievement gaps,” and calling particular attention to the fact that the 8th-grade scores in mathematics for U.S. students failed to improve since the previous administration of the TIMSS. Two years earlier, the Organization for Economic Cooperation and Development (OECD) released results from another international test, the 2009 administration of the Program for International Student Assessment (PISA). Secretary Duncan’s statement was similar. The results, he said, “show that American students are poorly prepared to compete in today’s knowledge economy. … Americans need to wake up to this educational reality—instead of napping at the wheel while emerging competitors prepare their students for economic leadership.” In particular, Duncan stressed results for disadvantaged U.S. students: “As disturbing as these national trends are for America, enormous achievement gaps among black and Hispanic students portend even more trouble for the U.S. in the years ahead.”  

6. International comparison raises education standards 

[Council on Foreign Relations] Education Reform and U.S. Competitiveness  

Page 12: December Standardized Testing Brief (1).compressed

To compete in the twenty‐first century, individuals and countries will have to add value in the workplace to command a high standard of living and be competitive in the global marketplace. Education is the key to adding value. The United States recognizes that its K-12 education is not doing the job. You need good teachers with content expertise, high expectations, and feedback systems to help struggling students and teachers. These three requirements are difficult to implement in a massive public education system designed more for working adults than for learning students. We need to follow the lead of other countries and recruit teachers from the top of universities' graduating classes. We might start by converting all schools of education to programs like UTeach in Texas, a program designed to turn content experts into teachers, letting potential teachers study subject matter they will be teaching rather than the mind numbing theory of how to teach. The United States needs to open its eyes in regard to expectation levels in our K‐12 system. Achieve, a non-profit education reform organization, has been working on a state-driven, internationally benchmarked common core curriculum to replace today's myriad state tests. This will be an effort to get all kids in the United States to focus on learning the same material by grade level, by subject matter, in alignment with other successful education systems in the world.  Driving these changes at the local level can provide the political will to implement change and get states to lead the way. Catalyzing change in education is especially difficult because of entrenched bureaucracies and the K-12 state monopoly. There is opportunity to use competition to effect change via charter schools. In states like Arizona, Colorado, and Indiana, charter schools are given great leeway in how they operate. Schools should embrace more tension in the system through paying for performance, employing data systems that track how much a child learns from a teacher, measuring teacher quality, giving local administrators the ability to manage staff and finances, and comparing results to the best education systems in the world. 

7. Standards must improve in education for US economic success 

Donna Cooper [Center for American Progress] The Competition that Really Matters  

Competition from rapidly growing countries such as China and India are changing business norms and the links between national economies. We are quite familiar with what economists call “global labor arbitrage,” the substitution of high-wage workers in advanced economy countries with low-wage workers in developing economies. That’s led to a global re-ordering of production, jobs, and growth. More recently, technological advances in telecommunications and transportation, as well as skills development in the developing world, are dragging more U.S. industries—including computer programming, high-tech manufacturing, and service sectors—into international competition. This development is feeding a mounting demand for high-skilled labor around the world. To position the United States for the future, substantial investments are needed in research, infrastructure, and education. The most important of these areas to address is education. Why? Because as this report shows, the overwhelming economic evidence points to education—and human capital investments, generally—as the key drivers of economic competitiveness in the long term. Harvard University economist Gregory Mankiw, for example, has shown that in advanced countries such as the United States, human capital investment had three times the positive effect on economic growth as did physical investment. And educational investment is particularly important in early childhood development and learning, according to growth economists. The return on investment from interventions such as prenatal care and early childhood programs is higher than for virtually any class of financial assets over time, according to Nobel Prize winning economist James Heckman. The academic literature also shows that failing to provide broad opportunities for nurturing, learning, and productive development harms economic growth and national competitiveness. Having established the primacy in human capital investments as the key to U.S. long-term economic competitiveness, it’s important for policymakers and the public to understand how American children are faring today, and where they need to catch up.                  

Page 13: December Standardized Testing Brief (1).compressed

 

LOW COST ACCOUNTABILITY 1. Standardized testing is economically efficient 

Caroline Hoxby [NBER] THE COST OF ACCOUNTABILITY  

Nearly every achievement and ability test administered to American elementary and secondary school students is purchased from a commercial test making firm, which also grades the test and prepares reports at the state, district, school, grade, class, and student levels. The same firms support with their tests with curriculum guides, suggested standards for criterion-based tests, and materials designed to help schools understand the tests and standards and use them wisely. Indeed, test-makers tend also to be textbook publishers, so the knowledge on which they base tests and standards is generally the same knowledge that they must be able to defend for inclusion in textbooks.1 The American elementary and secondary testing and standards industry is dominated by a several firms that well known: HarcourtBrace Educational Measurement, Reed-Elsevier, Houghton-Mifflin, Prentice-Hall, CTB/McGraw-Hill, and so on. In practice, these firms rely on similar psychometric research and routinely hire experts from 3 one another. The firms publish tests with names that are nationally familiar (such as the Stanford 9, California Test of Basic Skills/Terra Nova, and Iowa Test of Basic Skills), but they also write the states’ specialized tests, such as the Connecticut Mastery Tests, the Texas Assessment of Academic Skills, Florida Writes, and all of the others. Because of the small number and consistency of the firms involved, analysts have a very clear sense of the industry’s revenues from accountability systems. According to the Association of American Publishers, the total revenues associated with accountability systems (revenues from sales of tests, revenues from standards-related materials like curriculum guides and criteria, and revenues services associated with accountability such as consulting for state government) amounted to $234.1 million in 2000. Because this figure includes a variety of intelligence quotient tests, diagnostic tests for disabled children, career guidance tests, and the like; this figure overstates firms’ revenue associated with accountability. Nevertheless, the revenues amount to only $4.96 per American student! Table 1 shows that, even when we add in the cost of the National Assessment of Educational Progress, the only important elementary or secondary test not associated with a commercial test-maker, the cost of accountability is $5.81 per student. Such costs represents a very small share of the cost of educating American children: average per-pupil spending in the United States was $8,157 in the 2000-01 school year. Put another way, payments to all test-makers (including the United States government) represented just 0.07 percent (seven‐hundredths of 1 percent) of the cost of elementary and secondary education. Even if payments were 10 times as large, they would still not be equal to 1 percent of what American jurisdictions spend on education. In short, it seems likely that people who oppose accountability because of its costs have not investigated the revenues of test-makers, which suggest that the costs are extremely modest. 

2. Teachers acknowledge the importance of standardized testing 

[Gates Foundation] Primary Sources: Americas Teachers on Americas Schools  

Teachers see value in standardized tests — there are only 16% and 11% who say stateand district-required tests, respectively, are “not at all important” in measuring student academic achievement. They also see a role for common assessments across states. As previously noted, 52% think common assessments across states would make a strong or very strong impact on improving academic achievement.  

3. Standardized tests do not inhibit teaching or learning 

[Public Agenda] Where's the Backlash? Students Say They Don't Fret Standardized Tests   

In its surveys of 600 middle and high school students nationally, Public Agenda found large majorities were taking higher standards and increased testing in 

stride. Nearly three quarters of the students (73 percent) said they can handle the pressure of taking standardized tests, while 23 percent don't get nervous at all. Only five percent said they feel so nervous they can't take the test. Virtually all students say they take the tests seriously and more than half (56 percent) say they take them very seriously. Eight of 10 students say their teachers use class time to prepare students for the tests, but nearly the same number (78 percent) say the effort does not come at the expense of neglecting other classwork. Eight in 10 students (82 percent) say academic expectations in their schools are about right, and 71 percent say the amount of homework they are assigned, as well as the number of tests they have to take, are about right. 

Page 14: December Standardized Testing Brief (1).compressed

DON’T BLAME STANDARDIZED TESTS FOR THE HARMS OF NO CHILD LEFT BEHIND 1. Analytic 

Neg will provide harms of standardized testing derived from “No Child Left Behind”, Aff should respond to these harms by exploiting the fact that NCLB is a flawed set of educational reforms, and that standardized testing exists in the absence of NCLB. To support this response, Aff should use arguments such as AP testing and John Bishop’s findings to depict the benefit of standardized testing without the influence of NCLB. The general response to Neg’s harms will rely on arguing that NCLB misuses the data provided by standardized tests, and therefore the harms of Neg are a result of this misuse rather than a result of the standardized tests themselves.  

 

   

Page 15: December Standardized Testing Brief (1).compressed

NEGATIVE  

   

Page 16: December Standardized Testing Brief (1).compressed

LACK OF COGNITIVE BENEFITS 1. Neuroscience finds that even the highest performers on standardized tests don’t see direct benefits to their reasoning/abstract processing abilities 

Anne Trafton [MIT] Even when test scores go up, some cognitive abilities don’t  To evaluate school quality, states require students to take standardized tests; in many cases, passing those tests is necessary to receive a high-school diploma. These high-stakes tests have also been shown to predict students’ future educational attainment and adult employment and income. Such [standardized] tests are designed to measure the knowledge and skills that students have acquired in school — what psychologists call “crystallized intelligence.” However, schools whose students have the highest gains on test scores do not produce similar gains in “fluid intelligence” — the ability to analyze abstract problems and think logically — according to a new study from MIT neuroscientists working with education researchers at Harvard University and Brown University. In a study of nearly 1,400 eighth-graders in the Boston public school system, the researchers found that some schools have successfully raised their students’ scores on the Massachusetts Comprehensive Assessment System (MCAS). However, those schools had almost no effect on students’ performance on tests of fluid intelligence skills, such as working memory capacity, speed of information processing, and ability to solve abstract problems. “Our original question was this: If you have a school that’s effectively helping kids from lower socioeconomic environments by moving up their scores and improving their chances to go to college, then are those changes accompanied by gains in additional cognitive skills?” says John Gabrieli, the Grover M. Hermann Professor of Health Sciences and Technology, professor of brain and cognitive sciences, and senior author of a forthcoming Psychological Science paper describing the findings. Instead, the researchers found that educational practices designed to raise knowledge and boost test scores do not improve fluid intelligence. “It doesn’t seem like you get these skills for free in the way that you might hope, just by doing a lot of studying and being a good student,” says Gabrieli, who is also a member of MIT’s McGovern Institute for Brain Research.  

Scott Barry Kaufman [Scientific American] Standardized Achievement Tests: What Are They Good For? Hint: Not Cognitive Ability.  

If cognitive ability is more your thing, you might be a bit disappointed to see that schools[standardized tests] aren't doing a good job boosting particular cognitive skills. That might be troublesome, considering the importance of fluid reasoning and executive functioning (such as working memory and cognitive inhibition) for a wide range of important life outcomes, including school performance, drug use, crime, and achieving virtually any goal you have in life. As the researchers point out, there are examples of targeted programs that increase cognitive control and reasoning. It just looks like teaching to the standardized tests isn't going to cut it.  Anna Brix Thomsen [Aarhus Universitet] The Paranoia of Standardized Testing  ‘Teaching to the Test’ has become a buzz phrase synonym for everything that is wrong with the current education system and no one (besides students) know this better than teachers themselves. Teachers in many schools now spend more time preparing students for the many various tests that are mandated by legislators than actual teaching with the consequence of teachers leaving their jobs – often being those teachers who loved teaching and for whom teaching was a passion and a calling. There has for instance been several examples of honored and respected teachers resigning from their jobs due to the current state of the education system, for example veteran Ellie Rubenstein whose story was shared here on the blog on DAY 23 and award winning teacher Ron 

Maggiano who quit his job as a teacher just four years prior to full retirement. In accordance with this, a five-year University of Maryland study completed in 2007 found “the pressure teachers were feeling to ‘teach to the test'” since NCLB was leading to “declines in teaching higher-order thinking, in the amount of time spent on complex assignments, and in the actual amount of high cognitive content in the curriculum.” [i] A possible consequence of this tendency is that the teachers who love teaching will leave their jobs and find something else to do and their jobs will be taken over by people who has no interest in or passion about education but who see the teaching profession as an easy way to make a living. As an extension of this problem, students will come to school and attend classes without teachers motivated to educate and memorization and rote learning will take the place of any form of creative and participatory learning processes.  Teachers no longer have to engage students or challenge their preconceived ideas because all answers will already be preconceived from the moment they enter into the education system and all teachers have to do is to pour standardized knowledge 

and information into the heads of students. Concordantly a 2010 College of William & Mary study found Americans’ scores on the Torrance Test of Creative Thinking have been dropping since 1990, and researcher Kyung-Hee Kim lays part of the 

Page 17: December Standardized Testing Brief (1).compressed

blame on the increase in standardized testing: “If we neglect creative students in school because of the structure and the testing movement… then they become underachievers. [ii]  James R. Delisle [Kent State University] Dumbing Down America: The War on Our Nation's Brightest Young Minds (And What We Can Do to Fight Back)  

“What was educationally significant and hard to measure has been replaced by what is educationally insignificant and easy to measure. So now we measure how well we taught what isn’t worth learning.” - Arthur Costa 

2. This is particularly harmful for student learning and post‐educational abilities considering how much time is spent on teaching for and taking standardized tests 

JENNIFER C. KERR AND JOSH LEDERMAN [The Huffington Post] This Is How Much Time Students Actually Spend Taking Standardized Tests  Students, parents and teachers have long lamented the hours that kids spend taking standardized tests, especially since the introduction of the Common Core academic standards. But just how much time each year is it?  A. Between 10-15 hours.  B. Between 20-25 hours.  C. Between 30-35 hours.  The correct answer is "B," according to a comprehensive study of 66 of the nation's big-city school districts by the Council of the Great City Schools. It said testing amounts to about 2.3 percent of classroom time for the average eighth-grader in public school. Between pre-K and 12th grade, students took about 112 mandatory standardized exams.  The study analyzed the time spent actually taking the tests, but it did not include the hours devoted to preparation ahead of the testing required by the federal government, states or local districts. It also did not include regular day-to-day classroom quizzes and tests in reading, math, science, foreign languages and more.  [National Education Association] Excessive High­Stakes Testing Has Negative Effects on Students, Teachers  

Teachers nationwide who taught classes in which students took a state standardized test in 2012-13 spent an average of the equivalent of 54 school days, or 29% of their total work time for the school year, on tasks related to that testing.  Of those 54 school days, an equivalent of about 39 days was spent on preparing students to take the test, and fewer than two days were spent reviewing results with students or parents.   

 

    

Page 18: December Standardized Testing Brief (1).compressed

DE‐MOTIVATING TEACHERS AND GAMING THE SYSTEM 1. Teachers feel that standardized tests are harmful to their classrooms; nearly half consider leaving profession because of them 

Tim Walker [National Education Association] NEA Survey: Nearly Half Of Teachers Consider Leaving Profession Due to Standardized Testing  

U.S. Education Secretary Arne Duncan recently conceded that too much standardized testing was “sucking the oxygen out of the room” and causing “undue stress.” Although some of the nation’s educators may have been encouraged by Duncan’s words, most policymakers have spent the past decade ignoring calls from teachers to curb high-stakes testing.  But what is it about standardized testing specifically that makes it toxic to so many educators? To help answer this question, researchers at the National Education Association collected and analyzed phone survey data from 1500 PreK-12 teachers. Four specific factors emerged that, taken together, reveal a teaching force frustrated with the impact high stakes testing has had on students and on morale.  Too Much Pressure According to the NEA survey, a majority of teachers reported feeling considerable pressure to improve test scores. 72 percent replied that they felt “moderate” or “extreme” pressure from both school and district administrators.  From fellow teachers and parents, however, a large majority of respondents said they felt very little or no pressure. The fact that increasing numbers of parents nationwide no longer want their children to be exposed to a one-size-fits-all education approach may help explain the disparity between them and school and district officials.  Negative Impact on the Classroom Forty-two percent of the surveyed teachers reported that the emphasis on improving standardized test scores had a “negative impact” on their classroom, while only 15 percent said the impact was “positive.” Over the past decade, the high stakes testing regime has squeezed out much of the curriculum that can make schools an engaging and enriching experience for students, and teachers have been forced to dilute their creativity to teach to the test.  “I would much rather help students learn how to conduct research and how to discuss and how to explore controversies and how to complete multi-task projects than teach them how to recall this or that fact for an exam,” explains teacher Connie Fawcett.  Time Wasted The sheer volume of tests that teachers are tasked with administering and preparing students for is enormously time-consuming. Fifty-two percent of teachers surveyed said they spend too much time on testing and test prep. The average teacher now reports spending about 30 percent of their work time on testing-related tasks, including preparing students, proctoring, and reviewing results of standardized tests. Teresa Smith Johnson, a 5th grade teacher in Georgia, says her school spends a minimum of 8 weeks testing during the school year. “That doesn’t include preparing for testing, talking about testing, and examining data from testing,” she adds. “Imagine what we could do with that time. There must be a better plan.”  ‘Test and Punish’  Education “reformers” are obsessed with rooting out “bad” teachers, and they have persuaded lawmakers across the nation that the only quick ‘n’ easy way to do that is to tie teacher evaluation to test scores. Over 40 percent of surveyed members reported that their school placed “moderate” to “extreme” emphasis on students’ test scores to evaluate their performance. But using scores this way is losing support among the general public. According to the recent PDK poll on the public’s attitude towards public education, only 38 percent of the public – and only 31 percent of parents – support using students’ standardized test scores to evaluate teachers.  “Educators know that real accountability in public schools requires all stakeholders to place student needs at the center of all efforts,” says NEA President Lily Eskelsen García. “Real accountability in public schools requires that everyone—lawmakers, teachers, principals, parents and students—partner in accepting responsibility for improving student learning.”  Testing and Teacher Morale While it’s clear from the survey that over-testing has taken its toll on classrooms across the country, what’s the cumulative effect on teachers? Teachers love their work, and the NEA survey found that 75 percent of teachers are satisfied with their jobs. However, the data also indicate that toxic testing 

Page 19: December Standardized Testing Brief (1).compressed

environments contribute to lower job satisfaction and thoughts of leaving the profession. Despite the high level of overall satisfaction, nearly half (45 percent) of surveyed member teachers have considered quitting because of standardized testing. Teachers are dedicated individuals and many succeed in focusing on the positive, but the fact that testing has prompted such a high percentage of educators to contemplate such a move underscores its corrosive effect on the profession. 

2. Teachers feel pressured to improve standardized test scores, which comes with a host of harms 

[National Education Association] Excessive High­Stakes Testing Has Negative Effects on Students, Teachers  

Teachers reported feeling considerable pressure, particularly from administrators, to improve test scores.  Nearly three-quarters (72%) of our teacher members surveyed reported feeling moderate or extreme pressure from school and district administrators to improve test scores. Teachers who experienced increased pressure (from school and district administrators in particular, but also from other teachers and parents) were more likely to express three perceptions about testing: 1) Standardized testing has a negative impact on their classrooms 2) They spend too much time on standardized testing 3) Their evaluations depend to a moderate or extreme degree on student test scores.  Although 41% of surveyed teachers reported that the emphasis on improving standardized test scores had a negative impact on their classrooms, only 14% reported a positive impact. More than half (51%) of our surveyed members reported having spent too much time on standardized testing. January 2015  Nearly half (42%) of surveyed members reported that their school placed moderate or extreme emphasis on students' test scores to evaluate their performance. The combination of these three negative perceptions contributes to two indicators of low morale: 1) Lower job satisfaction 2) A greater likelihood that teachers consider leaving the profession due to testing.  A comparison of three states, each with a sample of 900 teachers, revealed large differences in both opinions about testing and in teacher morale. Two of the states (Florida and Tennessee) had mandated the use of test scores for teacher evaluations and the third state (California) did not. Teachers in the states with mandates reported: 1) More negative feelings about testing 2) Much lower job satisfaction, and 3) Much higher percentage thought of leaving the profession due to testing  In states with mandates, the percent of teachers who reported “a lot” or “extreme” pressure from school administrators to improve test scores were 57% and 58%, while in the state without mandates it was 34%.  In the two states with mandates, those reporting being satisfied or very satisfied with their jobs was 57% and 51% as compared to 79% in the state without mandates.  In the states with mandates, 61% and 67% of teachers reported having thought of leaving the profession due to testing as compared to 27% in the state without mandates.   

i) This increased pressure (largely at the hands of No Child Left Behind) has schools “gaming the system” to raise test scores.  Audrey Amrein­Beardsley [International Journal of Education Policy and Leadership] THE UNINTENDED, PERNICIOUS CONSEQUENCES OF "STAYING THE COURSE" ON THE UNITED STATES' NO CHILD LEFT BEHIND POLICY  NCLB requires all states to implement accountability policies to ensure that 100 percent of elementary students in grades 3–8 and high school students in public schools achieve academic proficiency by the year 2014. Every public school student in the nation is to reach academic proficiency eight years from now. Will 100 percent of America’s public school students reach this target? By gaming the system, it is likely. Teachers, administrators, and education leaders have employed a multitude of questionable test preparation practices to help their states, schools, and students meet high standards. Methods of gaming tests, however, result in spurious test score gains unrelated to true gains in student learning. When investigating whether stronger accountability measures help students meet higher standards, we must consider the extent to which the following factors are used to artificially inflate gains in student learning and academic achievement.  Teaching to the Test  Teaching to the test occurs when teachers disproportionately teach students things they know will be on accountability tests. A teacher who has administered a few of these annual tests in the past may gain some understanding of what to expect and teach students only those concepts the teacher predicts will be on future iterations of the test. A teacher may rehearse students 

Page 20: December Standardized Testing Brief (1).compressed

for a test with clone items that look exactly like the items on previous forms of the test but with the names of the people in the word problems and the numbers in the mathematical equations changed. A teacher may have students write and rewrite five-paragraph essays, neglecting other writing genres, knowing that a five-paragraph essay is expected on the annual writing assessment. A teacher may make copies of the actual test or the test used in previous years to rehearse students for the upcoming tests, over and over again. Teachers might have their students spend hours memorizing facts, learning test-taking strategies, bubbling score sheets accurately, eliminating unlikely distractor responses, making educated guesses, and using multiple-choice answers to solve mathematical problems backwards, all of which help students game these tests to pass; all of which are classic threats to test validity. Because teaching to the test may cause scores to increase, it is a popular practice in which teachers engage to artificially raise test scores. Such practices are sometimes even encouraged by local school administrators when school composite statistics are at risk. Score gains do not last, however, nor are they reflected in other measures of student learning and achievement (See, for example, Amrein-Beardsley & Berliner, 2002b,c; Heubert & Hauser, 1999; Linn, Graue, & Sanders, 1990; McNeil, 2000; Stake, 2001).  Narrowing of the Curriculum Narrowing the curriculum is when teachers do not teach some important topics within subject areas or avoid teaching parts of the state standards they are supposed to teach, knowing that what they omit from their lessons will not be included on accountability tests. It may be written in the state standards, for example, that a 10th grade mathematics teacher must teach graphing equalities and inequalities. A teacher aware of the fact that questions assessing students’ abilities to graph inequalities are usually not included on the high school graduation exam might simply omit this lesson to concentrate more on graphing equalities instead. School administrators also contribute to this at the local school level. Two months before high-stakes tests are administered, a school principal may eliminate recess, art, music, or physical education or replace science with mathematics and social studies with language arts to intensify math, reading, and writing instruction to provide amplified opportunities for students to rehearse the basic subject areas tested (See, for example, Dorn, 1998; Koretz, 1996; Kreitzer, Madaus, & Haney, 1989; McNeil, 2000; Sacks, 1999; Swope & Miner, 2000.)   Exclusion and Exemption Practices Students are also subjected to creative exclusion and exemption practices. Students with histories of poor academic performance might be encouraged to stay home and miss accountability tests, or they might be suspended or expelled before accountability tests are administered. Low-scoring high school students might be counseled to quit or be suspended from school just before tests so that their scores will not be included in composite test score calculations. Students may be falsely exempted from participating in accountability tests for being English language learners (ELLs) even if they speak English fluently enough to participate. Additionally, students may be purposely labeled as severely handicapped when, by law, their handicap should not prevent them from participating in state tests. (Federal and state provisions have been enacted, however, to minimize these false exemptions of ELLs and special needs students.) Low-performing students may also be retained in grade levels in excessive numbers before pivotal testing years so that they will have more chances to be drilled on the tested material or so that they will not taint the pool of test takers by negatively skewing test score distributions. School personnel would rather these students not take part in accountability tests. In all probability, if these students participated, they would bring down the school’s average scores, placing the district, school, administrators, and teachers at risk (See, for example, Bass, Dizon, & Feller, 2006; Haladyna, Nolen, & Haas; 1991; Haney, 2000; Heubert & Hauser, 1999; Kelleher, 1999; Klein, Hamilton, McCaffrey, & Stecher, 2000; Madaus & Clarke, 2001; Madaus, West, Harmon, Lomax, & Viator, 1992; McGill-Franzen & Allington, 1993; McNeil, 2000; May, 2000).  Cheating The pressures associated with stronger accountability testing are also driving teachers and school administrators to cheat. In fact, as tests become more consequential and the penalties of failure more severe, the likelihood school personnel will cheat on tests increases (Schrag, 2000; Viadero, 2000). In newspaper articles across the country, journalists have described ways in which teachers and administrators have cheated on accountability tests; the articles written because they have been caught. A teacher may allow students more time to complete a test than is prescribed; walk around the classroom providing students with hints, clarifications, definitions, or answers; tell students to rethink particular questions if the teacher sees incorrect answers; and some have been caught manually correcting students’ answers on accountability test score sheets. Cheating is just one more way teachers and administrators can artificially promote increases in test scores to dodge the negative or realize the positive consequences attached to accountability tests (Haladyna, Nolen, & Haas, 1991; Haney, 2000; Kornhaber & Orfield, 2001; Sacks, 1999; Shepard, 1990; Smith, 1991; Urdan & Paris, 1994).   

Page 21: December Standardized Testing Brief (1).compressed

Administrative Manipulation  Administrators are not immune to the temptations of cheating and other score-boosting practices. Administrators have briefed teachers on what will be tested on upcoming accountability tests; made copies of secure tests and distributed them to teachers before official tests are administered; and changed low-scoring students’ identification numbers to make their score sheets invalid, resulting in the exclusion of their scores from the school’s composite statistics. Administrators may hire test-boosting consultants who encourage teachers to focus instruction only on those students who they feel have a fighting chance of passing accountability tests or initiate mass exoduses of low-scoring students who will do nothing for composite test reports but bring school results down. Conversely, administrators might encourage students who have already posted high scores on accountability tests to participate every year to boost overall school averages. Administrators may use funds— even entire textbook budgets—to purchase test preparation booklets filled with test practice worksheets guaranteed to boost test scores, provided that children are rigorously drilled on one test prep activity after another. Administrators may also narrow the curriculum by concentrating all personnel efforts on the subject areas “that matter,” after which significant gains in scores are celebrated, only to realize significant drops in achievement in the neglected subject area(s) at the same time (See, for example, Booher-Jennings, 2006; Gordon & Reese, 1997; Goodnough, 2001; Kohn, 2000; Madaus, West, Harmon, Lomax, & Viator, 1992; McNeil, 2000; McNeil & Valenzuela, 2001; Nichols, Glass, & Berliner, 2005; Schrag, 2000; Smith, 1991).  Dumbing Down Tests and Manipulating Cut Scores  Almost always when state accountability tests are first administered, extremely high rates of student failure are published in state newspapers. The public is sent into a frenzy, and politicians and the public usually blame teachers, administrators, and low standards and expectations for the lack of student proficiency. In actuality, however, the initial high rate of student failure can be better explained by two factors: (1) How difficult and unfamiliar the accountability test was, and (2) Where the pass/fail cut score was set. Because it is not politically feasible to fail too many students year after year, over time accountability tests are made easier, cut scores are lowered, and more students pass. This gives the public the false impression that, because of initial high failure rates, the threat of accountability tests worked: the threat of sanctions motivated students to learn more, teachers to teach more effectively, and administrators to adopt better educational programs. In actuality, what happens behind the scenes in state departments of education and legislative committees often has a more significant role in generating apparent gains in student achievement. Dumbing down tests and manipulating cut scores are two more ways to manufacture increased levels of student proficiency and politically acceptable pass rates (See, for example, Haney, 2000; Kellow & Wilson, 2001; Koretz, Linn, Dunbar, & Shepard, 1991; Madaus & Clarke, 2001; Orfield & Kornhaber, 2001; Rudner, 2001; Schrag, 2000).   Greg Toppo [USA Today] When test scores seem too good to believe  Seipelt's gains and losses are typical of a pattern uncovered by a USA TODAY investigation of the standardized tests of millions of students in six states and the District of Columbia. The newspaper identified 1,610 examples of anomalies in which public school classes — a school's entire fifth grade, for example — boasted what analysts regard as statistically rare, perhaps suspect, gains on state tests. Such anomalies surfaced in Washington, D.C., and each of the states — Arizona, California, Colorado, Florida, Michigan and Ohio — where USA TODAY analyzed test scores. For each state, the newspaper obtained three to seven years' worth of scores. There were another 317 examples of equally large, year-to-year declines in an entire grade's scores. USA TODAY used a methodology widely recognized by mathematicians, psychometricians and testing companies. It compared year-to-year changes in test scores and singled out grades within schools for which gains were 3 standard deviations or more from the average statewide gain on that test. In layman's language, that means the students in that grade showed greater improvement than 99.9% of their classmates statewide. The higher the standard deviation, the rarer that improvement is. In dozens of cases, USA TODAY found 5, 6 and even 7 standard deviations [improvements in test scores], making those gains even more exceptional. Large year-to-year jumps in test scores by an entire grade should raise red flags, especially if scores drop in later grades, says Brian Jacob, director of the Center on Local, State and Urban Policy at the University of Michigan. Such fluctuations by themselves do not prove there was cheating, but Jacob says they offer "a reasonable way to identify suspicious things" that should be investigated. Education reformers say a surge in scores is possible without cheating. Mike Feinberg, the Houston-based founder of the Knowledge Is Power Program (KIPP), a 99-school chain of charter schools widely recognized for raising test scores, says "remarkable growth" is possible with "great teaching and more of it." Where you have "just an amazing teacher who can motivate his kids to really work hard," classes can see gains that might seem "unbelievable" at first glance. If big gains were followed by deep losses, Feinberg cautioned, you'd have to ask, "What were the adults doing that might not have been … ethical?" "You know something is profoundly different" at schools with spikes in scores, says John Tanner of Test Sense, a San Antonio consulting firm that works with schools nationwide. But, if an investigation shows the school is making "profound changes" commensurate with the gains, "I would give them the benefit of the doubt," he adds. Others are more skeptical. "An individual student can exceed beyond their wildest dreams in any given year, but when a whole group shifts its position dramatically, you have to worry," says John Fremer, president of Caveon Test Security, a Utah company hired by states and school districts to investigate test irregularities. Thomas Haladyna, a professor emeritus at Arizona State University, says test gains of 3 standard deviations or more for an entire grade are "so incredible that you have to ask yourself, 'How can this be real?' " 

Page 22: December Standardized Testing Brief (1).compressed

Haladyna says such a spike in scores would be like finding "a weight-loss clinic where you lose 100 pounds a day." In the past decade, similar score spikes uncovered by The Dallas Morning News and the Atlanta Journal-Constitution, using the same methods as USA TODAY, led state officials in Texas and Georgia to conduct major probes of hundreds of schools. Most recently, Atlanta Public Schools Superintendent Beverly Hall announced she will step down in June, following inquires by federal and state investigators of alleged cheating at 58 Atlanta schools.  

 

   

Page 23: December Standardized Testing Brief (1).compressed

INADEQUACY OF ASSESSMENT 1. Standardized tests are not a reliable measure of student performance in the long‐run 

Lynn Olson [Editorial Projects in Education] Study Questions Reliability Of Single­Year Test­Score Gains  

More than half the states reward or punish schools based largely on test scores. But a new analysis suggests the methods used to identify good and bad schools are far less reliable than state policymakers may think. The study, which will be published next year, found that between 50 percent and 80 percent of the improvement in a school's average [standardized] test scores from one year to the next was temporary and was caused by fluctuations that had nothing to do with long‐term changes in learning or productivity. "This is a paper that's well worth going through and understanding," said David W. Grissmer, a senior management scientist in Washington for the RAND Corp., a Santa Monica, Calif.-based research organization. "The question is, are we picking out lucky schools or good schools, and unlucky schools or bad schools? The answer is, we're picking out lucky and unlucky schools." The paper, written by economists Thomas J. Kane and Douglas O. Staiger, was presented here last week at the annual conference of the Brown Center on Education Policy, a division of the Brookings Institution, a Washington think tank. The study is based on math- and reading-test scores for nearly 300,000 students in grades 3-5 in North Carolina each year between 1992-93 and 1998-99. The researchers also analyzed school and grade-level data from the index used to rate California's schools from 1998 through 2000. But many of the findings apply to test-based accountability systems in other states as well, said Mr. Kane, a fellow at the Hoover Institution at Stanford University and a professor of policy studies at the University of California, Los Angeles. "Unfortunately," he said, "most of these systems have been set up with very little recognition of the strengths and weaknesses of the measures that they're based on." 

 2. Multiple‐choice formats used on standardized tests are a poor assessment tool  [The National Center for Fair and Open Testing] Multiple­Choice Tests  

Most researchers agree that multiple‐choice items are poor tools for measuring the ability to synthesize and evaluate information or apply knowledge to complex problems. In math, for example, they can measure knowledge of basic facts and the ability to apply standard procedures and rules. Carefully written multiple-choice questions also can measure somewhat more complex mathematical knowledge such as integrating information or deciding which mathematical procedures to use to solve problems. However, as students move toward solving non-routine problems, analyzing, interpreting, and making mathematical arguments, multiple-choice questions are not useful. Students may recognize or know facts or procedures well enough to score high on the test, but not be able to think about the subject or apply knowledge, even though being able to think and apply is essential to "knowing" any subject. Therefore, the conclusion or inference that a student "knows" history or science because she got a high score on a multiple-choice test may be false.  [The National Center for Fair and Open Testing] What's Wrong With Standardized Tests?  

Are standardized tests fair and helpful evaluation tools?  Not really. On standardized exams, all test takers answer the same questions under the same conditions, usually in multiple-choice format. Such tests reward quick answers to superficial questions. They do not measure the ability to think deeply or creatively in any field. Their use encourages a narrowed curriculum, outdated methods of instruction, and harmful practices such as grade retention and tracking.  Do test scores reflect significant differences among people?  Not necessarily. The goal of most tests is to sort and rank. To do that, test makers make small differences appear large. Questions most people get right or wrong are removed because they don’t help with ranking. Because of measurement error, two people with very different scores on one exam administration might get similar scores on a retest, or vice versa. On the SAT, for 

Page 24: December Standardized Testing Brief (1).compressed

example, two students' scores must differ by at least 144 points (out of 1,600) before the test’s sponsors are willing to say the students' measured abilities really differ.  

3. Results between similar standardized examinations are largely inconsistent, evidenced by discrepancies in teacher grouping amongst different tests  

Sean P. Corcoran [Annenberg Institute for School Reform]  Can Teachers be Evaluated by their Students’ Test Scores? Should They Be? The Use of Value­Added Measures of Teacher Effectiveness in Policy and Practice  

Even for the standards that can be tested, many assessments are poor representations of these standards. Recent studies analyzing state test content in New York, Massachusetts, and Texas find that over many years of test administration, some parts of the state curriculum are never tested (Jennings & Bearak 2010; Holcolmbe, Jennings & Koretz 2010). To take one extreme case – the 2009 New York State eighth-grade math test – 50 percent of the possible points were based on only seven of the forty-eight state standards; what’s more, only 51 percent of the points were required to pass. Among skills that are consistently assessed, some receive predictably greater emphasis than others. Teachers aware of systematic omissions and repetitions can substantially inflate students’ scores by narrowly focusing on frequently tested standards (popularly known as “teaching to the test”).20 For many tests, it is also possible to “teach to the format.” Studies have illustrated how teachers focus their instruction on the format of the state test by presenting material in the same manner as it appears on the test (Darling-Hammond & Wise 1985; Shepard & Dougherty 1991; McNeil & Valenzuela 2000).21 To the extent “teaching to the test” and “teaching to the format” behaviors differ across teachers – which they almost certainly do – true “value-added” comparisons will be compromised. The fact that test items are sampled from a broader domain is relevant for more than just “gaming” behavior. Teachers vary in the extent to which their time and efforts align with content specifically emphasized on the state test, for a variety of valid reasons. This variation may 

be due to the average ability level in their classroom, priorities of school leadership, parental demands, and so on. Given two teachers of equal effectiveness, the teacher whose classroom instruction happens to be most closely aligned with the test – for whatever reason – will outperform the other in terms of value-added. Evidence that the choice of test can make a difference to value-added comes from recent research comparing value-added measures on multiple tests of the same content area. Since 1998, Houston has administered two standardized tests every year: the state TAKS and the nationally normed Stanford Achievement Test. Using HISD data, we calculated separate value-added measures for fourth- and fifth grade teachers for the two tests (Corcoran, Jennings & Beveridge 2010). These measures were based on the same students, tested in the same subject, at approximately the same time of year, using two different tests. We found that a teacher’s value-added can vary considerably depending on which test is used. This is illustrated in Figure 5, which shows how teachers ranked on the two reading tests. Teachers are grouped into five performance categories on each test (1 to 5), with the five TAKS categories on the horizontal axis.22 We see that teachers who had high value-added on one test tended to have high value-added on the other, but there were many inconsistencies. For example, 

among those who ranked in the top category (5) on the TAKS reading test, more than 17 percent ranked among the 

lowest two categories on the Stanford test. Similarly, more than 15 percent of the lowest value added teachers on 

the TAKS were in the highest two categories on the Stanford. 

 

   

Page 25: December Standardized Testing Brief (1).compressed

DISCRIMINATION AGAINST DISADVANTAGED STUDENTS 1. Children still learning English are required to take tests in English before they’ve mastered the language  

Jamal Abedi and Ron Dietel [UCLA Center for the Study of Evaluation] Challenges in the No Child Left Behind Act for English Language Learners   

The No Child Left Behind Act of 2001 (NCLB) requires that all children, including English language learners (ELLs), reach high standards by demonstrating proficiency in English language arts and mathematics by 2014. Schools and districts must help ELL students, among other subgroups, make continuous progress toward this goal, as measured by performance on state tests, or risk serious consequences. Through these mandates, NCLB establishes high expectations for all students and seeks to reduce the achievement gap between advantaged and disadvantaged students. These are worthy goals, which require extraordinary improvement in student learning. The challenges for English language learners are especially difficult, involving both educational and technical issues, including:  [National Council of Churches Committee on Public Education and Literacy] Ten Moral Concerns in the Implementation of the No Child Left Behind Act  

The No Child Left Behind Act requires English language learners to take tests in English before they learn English. It calls their school a failure because they have not yet mastered academic English.  

i) Thus, these exams are frequently failed and these students all fall short of the NCLB 100% proficiency requirement  Diane Ravitch [New York University] Why Must English Learners Take the State Tests in English?  This is an account written by Lindsay Allanbrook, a teacher in New York City. Last year, when the first Common Core tests were given, 97% of English language learners failed the test of English language. What is the point of testing these children in a language they have not mastered? 

2. Schools forcefully exclude ELLs from taking standardized examinations to improve their school’s average scores 

Audrey Amrein­Beardsley [International Journal of Education Policy and Leadership] THE UNINTENDED, PERNICIOUS CONSEQUENCES OF "STAYING THE COURSE" ON THE UNITED STATES' NO CHILD LEFT BEHIND POLICY  Students are also subjected to creative exclusion and exemption practices. Students with histories of poor academic performance might be encouraged to stay home and miss accountability tests, or they might be suspended or expelled before accountability tests are administered. Low-scoring high school students might be counseled to quit or be suspended from school just before tests so that their scores will not be included in composite test score 

calculations. Students may be falsely exempted from participating in accountability tests for being English language learners (ELLs) even if they speak English fluently enough to participate. Additionally, students may be purposely labeled as severely handicapped when, by law, their handicap should not prevent them from participating in state tests. (Federal and state provisions have been enacted, however, to minimize these false exemptions of ELLs and special needs students.) Low-performing students may also be retained in grade levels in excessive numbers before pivotal testing years so that they will have more chances to be drilled on the tested material or so that they will not taint the pool of test 

takers by negatively skewing test score distributions. School personnel would rather these students not take part in accountability 

Page 26: December Standardized Testing Brief (1).compressed

tests. In all probability, if these students participated, they would bring down the school’s average scores, placing the district, school, administrators, and teachers at risk  

3. Students with learning disabilities are expected to take the same standardized tests as their peers, regardless of their IEP ‐ this brings forth a myriad of harms 

[GreatSchools.org] Implications of High­Stakes Testing for Students With Learning Disabilities  

Q: Do states have the right to impose such tests on students with disabilities? A: Yes. There is no federal law that restricts states from imposing high-stakes testing and its consequences on individual students, including students with disabilities covered under the Individuals with Disabilities Education Act (IDEA) or Section 504 of the Rehabilitation Act (Section 504). In fact, to date, lawsuits challenging the applicability of graduation exams to students with disabilities have not been successful. Legal challenges alleging lack of access to accommodations and lack of opportunity to learn the academic content measured by the tests have met with more success, and, in some cases, have resulted in significant changes to state policies. Still, far more states sanction individual students for poor test performance than impose sanctions on the education system.  Q: Are students with disabilities required to participate in high-stakes tests? A: The Federal special education law, IDEA, requires states and school districts to include students with disabilities in large-scale assessments. In addition, the No Child Left Behind Act (NCLB) requires schools to include students with disabilities in several assessments of student performance and to disaggregate (separate out) the performance data into several subgroups, including special education students, so that the public will know if schools are providing adequate progress to historically low performing groups of students. It is important to note that the testing requirements of NCLB do not involve stakes for students. Many states, however, are using statewide assessments that carry high stakes for students to also fulfill the NCLB testing requirements.  Q: What are some of the most significant risks posed by high-stakes tests for students with learning disabilities? A: Some of the most significant risks include:  Increased grade retention We know that large performance gaps exist between students with disabilities and their non-disabled peers. We also know that students with disabilities continue to be retained much more often than the general population – more than one-third are retained at grade level at least once, usually in elementary school. Promotion [standardized] tests – the fastest growing area of high-stakes testing – will most likely contribute to even more retention of students with learning disabilities, despite the fact that retention has been shown to be an ineffective intervention to improving academic achievement. More importantly, students who are retained are much more likely to drop out later in school, and those retained more than once are dramatically more likely to drop out. Research on retention shows that grade repeaters as adults are more likely to be unemployed, living on public assistance, or in prison than adults who did not repeat a grade. Increased possibility of dropping out Data show that students with disabilities fail large-scale tests at higher rates than other students, especially in the years immediately following the introduction of such tests. One important reason for this is their lack of access to the curriculum on which the tests are based. Failing a high-stakes test, such as a test required for graduation with a standard diploma, can increase the likelihood that low achievers will drop out of school. We already know that nearly 30 percent of students with learning disabilities drop out of school (compared to 11% of the general student population), and we know that dropping out of school is associated with poor life outcomes in regard to postsecondary education and employment. Some students with disabilities may even be encouraged to leave school and pursue alternative routes such as the General Educational Development (GED) exam. Such students are known as “push outs.” Fortunately, the No Child Left Behind Act requires schools to show improved high school graduation rates, a requirement that will help to prevent such activity. Awarding of alternative high school diplomas or certificates To compensate students with disabilities who fail high school graduation tests, many states are developing one or more alternative diplomas and certificates. These include nonstandard diplomas such as IEP diplomas, certificates of completion, certificates of attendance, and modified diplomas. There is little research on the value of such alternative diplomas and certificates. Many may not be accepted by colleges and universities. Meanwhile, the existence of such alternatives provides the opportunity for students with learning disabilities to be “tracked” into high school course work that will not provide the necessary credits for a standard diploma, nor provide the student access to the subject matter of graduation tests. Parents need to be well informed regarding the implications of any nonstandard diplomas and should be sure that they are involved in decisions regarding the high school diploma track of their student with LD.  

Page 27: December Standardized Testing Brief (1).compressed

Rebecca Gensler [Indiana University] Effects on No Child Left Behind Act of Special Education Regarding Standardized Testing  As stated previously, exceptional learners have been diagnosed as such for a reason. They require “special” education including alternate forms of assessment that are carefully planned in IEPs. Unfortunately, a major downfall in the effects of NCLB on special education is how the law forces schools to measure all students’ progress through a standardized test. No Child Left Behind would benefit special educators, exceptional learners and their parents much more if this one standardized test (3% are exempt and have alternative assessment) did not set exceptional learners up for failure. If it properly measured a student’s improvements and identified their strengths and weaknesses without simply labeling either pass or fail because of one test, then this standardized test would be a much better measure of achievement and tool for teachers from which schools and teachers could learn.  

 

   

Page 28: December Standardized Testing Brief (1).compressed

SCARY SCORING 1. NCLB in particular has resulted in the explosion of errors in test scoring and score reporting, and these errors are seldom uncovered by the testing agencies, but rather teachers, administrators, and students 

Robert Schaeffer [The National Center for Fair and Open Testing] Errors Grow with Mounting Test Pressures 

The explosion of standardized exams required by No Child Left Behind has strained the capacity of the testing industry to its limits and beyond. Recently reported errors affected students in Illinois, Ohio, Hawaii, Arizona, New York, Georgia and Connecticut. As with the recent SAT scoring fiasco, errors are rarely caught by the testing companies themselves, leaving it to teachers, administrators and students to add "testing watchdog" to their job descriptions. Recent cheating allegations surface in New Jersey, Ohio and New York. Harcourt Assessment Inc. has been fined $1.6 million by Illinois school officials after a series of problems caused many schools to delay administering state tests until after spring break. Harcourt has a $44.5 million contract slated to run through 2008-09, but the State Board has voted to renegotiate it. Superintendent Randy Dunn had threatened to terminate the contract. State legislators have expressed outrage at the chaos caused by testing snafus. Addressing Dunn and his top staff at a legislative hearing, Rep. Linda Chapa LaVia said, "I would fire everyone that sits in front of me at this point." Harcourt won the contract after hiring a top aide to Governor Rod Blagojevich. Earlier in Illinois, Charles McNulty, a Freeport middle school principal, questioned the reading test results for his fifth graders and uncovered a scoring error affecting 4,000 students, all of whom received failing scores on last spring's exams. Hawaii replaced Harcourt with American Institutes of Research in January after "significant errors" in testing materials in 2004 and distribution glitches in 2005. Durham, N.C.-based Measurement Inc. was fined after scoring errors on Ohio's new graduation test affected students in 272 school districts, with hundreds of students wrongly graded as failing. Errors were noticed by a state data analyst, and the scores for tests given in spring 2005 have been corrected. Company President Henry Scherich wrote a letter apologizing to students. In Arizona, it was CTB/McGraw-Hill whose technical errors caused school administrators across the state to toss out computer disks with high school exit exam test results and resort to paper-and-pencil analysis, causing a delay in the delivering scores to students. Another CTB/McGraw-Hill mistake affected 400,000 New York seventh and eighth grade students, who inadvertently got an advance look at questions on the state math exam because questions presented as samples in the fall re-appeared on the real exams in March. In January, New York City officials spotted a problem with the English exams administered 65,000 grade seven students. On five questions, letters labeling answers in the test booklet did not correspond to those on the answer sheet. For example, the test booklets listed F, G, H or J as possible responses, while the answer sheets gave A, B, C and D as the options. In Georgia, high school students taking end-of-course tests online encountered technical problems. The tests count as 15 percent of students' final grades, but state officials gave three districts permission to exclude test scores from their calculations because of the snafu. Connecticut reported that its contractor, Harcourt, fouled up the scanning of students answers. The problem, said Harcourt, would delay score reporting by two to four weeks. This could cause Connecticut to miss the NCLB deadline for reporting scores by September 1. State Education Secretary Betty Sternberg said this could result in the state losing up to $1million in federal funds. It would, she said, constitute a breach of contract. In February, Harcourt mis-reported scores for some 350 students, leading to an $80,000 fine by the state, the maximum allowed under the contract. Connecticut had recently hired Harcourt because of a series of errors by the previous contractor. With the growing number of visible errors in scoring K-12 tests as well as the SAT, Education Secretary Margaret Spellings summoned executives from top testing companies to ask if they can handle their increased load. Unsurprisingly, they said yes, despite the evidence to the contrary. Most errors are not caught by the testing industry, which is exempt from any external regulation. The number of errors could be the tip of an iceberg, with many more errors never found. Some could have very harmful consequences for students. 

Page 29: December Standardized Testing Brief (1).compressed

2. Those who score open‐ended, free response test questions are underpaid and varyingly qualified; grades are given in the aim of profit more than in the name of gauging student achievement 

 Dan DiMaggio [Monthly Review] The Loneliness of the Long­Distance Test Scorer  Test-scoring companies make their money by hiring a temporary workforce each spring, people willing to work for low wages (generally $11 to $13 an hour), no benefits, and no hope of long-term employment—not exactly the most attractive conditions for trained and licensed educators. So all it takes to become a test scorer is a bachelor’s degree, a lack of a steady job, and a willingness to throw independent thinking out the window and follow the absurd and ever-changing guidelines set by the test-scoring companies. Some of us scorers are retired teachers, but most are former office workers, former security guards, or former holders of any of the diverse array of jobs previously done by the currently unemployed. When I began working in test scoring three years ago, my first “team leader” was qualified to supervise, not because of his credentials in the field of education, but because he had been a low-level manager at a local Target. True, but does it inspire confidence to know that, for the people scoring the tests at the center of this nation’s education policy, the alternative is working in fast food? Or to know that, because of our low wages and lack of benefits, many test scorers have to work two jobs[?]—delivering newspapers in the morning, hustling off to cashier or waitress at night, or, if you’re me (and plenty of others like me) heading home to start a second shift of test scoring for another company? What is the work itself like? In test-scoring centers, dozens of scorers sit in rows, staring at computer screens where students’ papers appear (after the papers have undergone some mysterious scanning process). I imagine that most students think their papers are being graded as if they are the most important thing in the world. Yet every day, each scorer is expected to read hundreds of papers. So for all the months of preparation and the dozens of hours of class time spent writing practice essays, a student’s writing probably will be processed and scored in about a minute. Scoring is particularly rushed when scorers are paid by piece-rate, as is the case when you are scoring from home, where a growing part of the industry’s work is done. At 30 to 70 cents per paper, depending on the test, the incentive, especially for a home worker, is to score as quickly as possible in order to earn any money: at 30 cents per paper, you have to score forty papers an hour to make $12 an hour, and test scoring requires a lot of mental breaks. Presumably, the score-from-home model is more profitable for testing companies than setting up an office, especially since it avoids the prospect of overtime pay, the bane of existence for companies operating on tight deadlines. But overtime pay is a gift from heaven for impoverished test scorers; on one project, I worked in an office for twenty-three days straight, including numerous nine-hour days operating on four to five hours sleep—such was my excitement about overtime. No matter at what pace scorers work, however, tests are not always scored with the utmost attentiveness. The work is mind numbing, so scorers have to invent ways to entertain themselves. The most common method seems to be staring blankly at the wall or into space for minutes at a time. But at work this year, I discovered that no one would notice if I just read news articles while scoring tests. So every night, while scoring from home, I would surf the Internet and cut and paste loads of articles—reports on Indian Maoists, scientific speculation on whether animals can be gay, critiques of standardized testing—into what typically came to be an eighty-page, single-spaced Word document. Then I would print it out and read it the next day while I was working at the scoring center. This was the only way to avoid going insane. I still managed to score at the average rate for the room and perform according to “quality” standards. While scoring from home, I routinely carry on three or four intense conversations on Gchat. This is the reality of test scoring. There is a common fantasy that test scorers have some control over the grades they are giving. I laugh whenever someone tells me, “Make sure you go easy and give the kids good grades!” We [scorers] are entirely beholden to and constrained by the standards set by the states and (supposedly) enforced by the test-scoring companies. To ensure that test scorers are administering the “correct” score, we receive several hours of training per test, and are monitored through varying quality control measures, such as random “validity” papers that are pre-scored and that we must score correctly. This all seems logical and necessary to ensure impartiality—these are, after all, “standardized” tests. Unfortunately, after scoring tests for at least five states over the past three years, the only truly standardized elements I have found are a mystifying training process, supervisors who are often more confused than the scorers themselves, and a pervasive inability of these tests to foster creativity and competent writing. Scorers often emerge from training more confused than when they started. Usually, within a day or two, when the scores we are giving are inevitably too low (as we attempt to follow the standards laid out in training), we are told to start giving higher scores, or, in the enigmatic language of scoring directors, to “learn to see more papers as a 4.” For some mysterious reason, unbeknownst to test scorers, the scores we are giving are supposed to closely match those given in previous years. So if 40 percent of papers received 3s the previous year (on a scale of 1 to 6), then a similar percentage should receive 3s this year. Lest you think this is an isolated experience, Farley cites similar stories from his fourteen-year test-scoring career in his book, reporting instances where project managers announced that scoring would have to be changed because “our numbers don’t match up with what the psychometricians [the stats people] predicted.” Farley reports the disbelief of one employee that the stats people “know what the scores will be without reading the essays.”2 If scoring is any indication, everyone should be worried about the logic of putting more of our education system in 

Page 30: December Standardized Testing Brief (1).compressed

the hands of these for‐profit companies, which would love to grow even deeper roots for the commodification of students’ minds. Why would people in their right minds want to leave educational assessment in the hands of poorly trained, overworked, low‐paid temps, working for companies interested only in cranking out acceptable numbers and improving their bottom line? Though the odds might seem slim, our collective goal, as students, teachers, parents—and even test scorers—should be to liberate education from this farcical numbers game.