Pytanie:
Zrozumienie nieprawidłowego rozkładu ocen
scozy
2014-03-31 17:58:51 UTC
view on stackexchange narkive permalink

Mam trzyletnie doświadczenie w nauczaniu w zespole (wielu nauczycieli, niektórzy z większym doświadczeniem, uzgadnianie programu nauczania i wspólne przygotowywanie testów), ale w tym roku po raz pierwszy jestem w pełni odpowiedzialny za niektóre kursy .

Po zaliczeniu egzaminu w połowie semestru dla jednej z moich zajęć zauważyłem dziwny rozkład ocen:

Abnormal grade distribution

(Jeśli to jest przydatny, są 24 stopnie, zestaw ocen to {1.2, 1.4, 1.4, 1.9, 2.0, 2.3, 2.6, 2.6, 3.4, 4.2, 4.2, 4.3, 4.6, 4.6, 4.8, 4.8, 4.9, 5.3, 6.0, 6.2, 6.4, 7.1, 7.8, 7.8}, średnia to 4,25, a odchylenie standardowe to 2,01.)

Dokładnie przyjrzałem się wszystkim moim poprzednim testom i mogę potwierdzić, że nigdy nie widziałem krzywą taką jak ta wcześniej.

Z mojego krótkiego doświadczenia, jak słyszałem, czytałem o refleksji, że rozkład z dwoma krzywymi prawdopodobnie oznaczałby, że a ) duża podgrupa uczniów oszukiwany lub b ) jako nauczyciel zwracam się głównie do najlepszych uczniów i zawiodę innych.

B ale wygląda na to, że w rzeczywistości istnieją trzy krzywe i zastanawiam się, która cecha mojego nauczania lub moich uczniów może to wyjaśnić.

Poza tym, jeśli ktoś jest świadomy jakiejkolwiek pracy naukowej na ten temat, byłoby to śliczny. Sam nie mogłem nic znaleźć.

Dziękuję za to pytanie, które dodaje treści do witryny akademickiej SO, która nie dotyczy tego, jak dany przełożony jest osobą podła lub poczuciem własnej wartości. Na ten temat muszę powiedzieć, że zawsze jestem zdumiony, gdy uczę się, że instruktor / prof. Nie dba o rozkład ocen.
Twoje pojemniki wyglądają na zbyt małe w stosunku do rozmiaru i standardowego oprogramowania lub zestawu danych. Wikipedia ma kilka sugestii dotyczących rozmiaru pojemnika: http://en.wikipedia.org/wiki/Histogram#Number_of_bins_and_width
@RedSirius: Rzeczywiście, próbowałem z pierwszą sugestią, sqrt (24) ≈5 bins, a wynikowa krzywa ma tylko jeden szczyt.
http://xkcd.com/1347/ (Przepraszam, ale nie mogłem się oprzeć.)
Trudno uwierzyć, że dzieje się coś szczególnie niezwykłego, gdy dostosowanie trzech uczniów o jedno SD (przesuń dwóch z 2 do 4 i jednego z 8 do 6) daje rozkład z pojedynczym szczytem.
1) Wykreśl histogramy surowych punktów. Czy wygląda lepiej? Jeśli nie: 2) Wykreśl histogramy poszczególnych zadań, aby dowiedzieć się, czy wystąpiły jakieś problemy, czy też egzamin jako całość. Zawsze 3) stosuj testy statystyczne, aby sprawdzić, czy Twoje dane są * naprawdę * nieprawidłowe.
Ta dystrybucja wygląda bardzo podobnie do [Dystrybucja nauczyciela T] (http://xkcd.com/1347/). Innymi słowy, czasami dane będą wyglądać dziwnie, co nie oznacza, że ​​dzieje się coś dziwnego.
Co jest warte, martwiłbym się bardziej tym, że większość twoich uczniów nie wydaje się być w stanie uzyskać więcej niż 50% na egzaminie. O ile nie zaprojektowałeś egzaminu w sposób wyraźny z zamiarem umożliwienia im wyboru między pytaniami, a nie wypełniania ich wszystkich, sugeruje to rozbieżność między uczniami, technikami nauczania, egzaminem i nauczanym materiałem.
Moje dwa centy: Twój zestaw nie powinien być zestawem, ale zestawem wielokrotnym.
Dziesięć odpowiedzi:
#1
+86
Stephan Kolassa
2014-03-31 20:36:38 UTC
view on stackexchange narkive permalink

Zgadzam się z innymi odpowiedziami, że może to być artefakt histogramu. Czy mogę pokornie zaoferować kilka alternatywnych sposobów wykreślenia tych ocen?

enter image description here

Wszystkie te zasadniczo pokazują, że twoje efekty są prawdopodobnie spowodowane niewielkimi n i prawdopodobnie zasadniczo dyskretny podstawowy proces generowania danych.

Kod R:

  require (hdrcde) require (Hmisc) require (denstrip) require (beanplot) require (beeswarm ) stopnie <- c (1.2, 1.4, 1.4, 1.9, 2.0, 2.3, 2.6, 2.6, 3.4, 4.2, 4.2, 4.3, 4.6, 4.6, 4.8, 4.8, 4.9, 5.3, 6.0, 6.2, 6.4, 7.1, 7.8, 7.8) opar <- par (mfrow = c (1,6), mar = c (3,2,4,1)) boxplot (grades, col = "gray90", main = "Standard \ nboxplot", yaxt = "n") hdr.boxplot (grades, main = "HDR \ nboxplot", yaxt = "n") bpplot (grades, xlab = "", name = FALSE, main = "Box-Percentile \ nPlot") beanplot ( grades, col = "gray", yaxt = "n", main = "Bean plot / \ nViolin plot", border = "black") plot (c (0,2), range (grades), type = "n" , xaxt = "n", yaxt = "n", xlab = "", ylab = "", main = "Gęstość \ nplot") denstrip (grades, horiz = FALSE, at = 1, width = 1) beeswarm (oceny , pch = 19, main = "Beesw arm \ nplot ") par (opar)  

EDYCJA: (przepraszam, jestem statystykiem, nic na to nie poradzę ...) Poszedłem i wziąłem jądro Jacka gęstość i kilkakrotnie próbowali z niej 24 „uczniów”. W każdym przypadku wykreśliłem histogram. Wynik jest poniżej. Widzimy, że nawet nieszkodliwa, unimodalna krzywa może prowadzić do dość wyboistych histogramów ze względu na dyskretyzację i mały rozmiar próbki.

resampled histograms

R code:

  dens <- gęstość (grades) opar <- par (mfrow = c (2,4)) for (ii in 1: 8) {samp <- rnorm (length (grades ), sample (grades, size = length (grades), replace = TRUE), dens $ bw) hist (pmin (10, pmax (0, samp)), breaks = 0: 10, xlab = "", ylab = " ", main =" ", col =" gray ")} par (opar)  
Biorąc pod uwagę, że jesteś statystykiem, czy możesz odrzucić hipotezę „dane pochodzą z rozkładu normalnego” z jakimkolwiek testem zgodności? (Myślę, że nie ze względu na mały rozmiar próbki, ale to dałoby „dowód”, że nic się nie dzieje.)
`shapiro.test (grades)` nie odrzuca hipotezy zerowej rozkładu normalnego, p = 0,27. Jednak, jak piszesz, może to wynikać z małej wielkości próbki. W rzeczywistości * wiemy *, że dane nie mogą być normalne, ponieważ (a) oceny są ograniczone między 0 a 10 (?), Podczas gdy rozkład normalny jest nieograniczony, a (b) oceny są dyskretne w podanych punktach. Co ilustruje, dlaczego wartość p> 0,05 nie jest „dowodem” na cokolwiek i dlaczego statystycy nie są zbytnio zainteresowani NHST ;-)
@StephanKolassa: Oczywiście każda próbka jest ograniczona i dyskretna, więc z pewnością nie jest to zbyt duże ograniczenie. Prawdopodobnie można by przetestować dwumian lub cokolwiek, co daje formę, którą uważasz za „oczekiwaną” w ocenach. Tak, wielkość próbki jest mała, ale o to chodzi, prawda? Jeśli jest zbyt mały, aby odrzucić „normalność” * statystycznie *, PO nie powinien się martwić, że nie zinterpretuje danych, mimo że nic tam nie ma. (Myślę, że to się nazywa overfitting?)
@Raphael: tak, oczywiście każda * próbka * jest ograniczona i dyskretna (w tym próbki z normy), ale w tym konkretnym przypadku wiemy, że * populacja * jest ograniczona i dyskretna, więc nie może być normalna. Więc bądź dziwaczny, test Shapiro-Wilksa zadaje pytanie o dane, na które * znamy * odpowiedź. Ale dopóki nie traktujemy wartości p zbyt poważnie, twój ważniejszy punkt jest poprawny: dane nie wyglądają na wystarczająco „nienormalne”, aby można było je zaniepokoić (chociaż tak naprawdę nie jest to * nadmierne dopasowanie *, które byłoby konsekwencją montaż zbyt skomplikowanego * modelu *).
Większość twoich wykresów po prostu utrudnia dostrzeżenie multimodalnego aspektu danych. Sprawienie, że coś trudniej jest dostrzec, to nie to samo, co pokazanie, że jest to nieistotne.
Dane nie wydają mi się multimodalne w sensownym sensie. Jeśli np. Zrobimy gęstość jądra, multimodalność (lub nie) będzie zależeć od przepustowości, z której korzystamy. Szerokość pasma wybrana przez „gęstość ()” daje krzywą, która jest tylko * bardzo nieznacznie * multimodalna, patrz wykres w odpowiedzi Jacka Aidleya. Ostatecznie histogram jest bardzo podobny do takiego estymatora gęstości jądra, z bardzo szczególnym wyborem jądra wygładzającego. Oczywiście YMMV.
Możesz mieć rację, ale nie sądzę, by spisek z wąsami był w ogóle na to dowód.
+1 do Twojego komentarza na temat mojego wykresu pudełkowego. Nie mogłem się bardziej zgodzić. Wykresy pudełkowe są naprawdę zbyt prymitywne i nie lubię ich zbytnio. Moje trzy wykresy po prawej są znacznie bardziej pouczające. Niestety wykresy pudełkowe są bardzo powszechne i wiele osób je rozumie, którzy mogą potrzebować sporo wyjaśnień, aby zrozumieć wykres fasoli lub wykres gęstości. Moim ulubionym jest naprawdę rój pszczół, chyba że jest zbyt wiele punktów danych.
#2
+37
aeismail
2014-03-31 18:17:46 UTC
view on stackexchange narkive permalink

Istnieje kilka możliwych czynników: biorąc pod uwagę stosunkowo niewielką liczbę dostępnych punktów, bryłowanie może wypaczyć sposób dystrybucji ocen, zwłaszcza jeśli są one również przyznawane w postaci przyrostów całkowitych. (Oznacza to, że model nie jest wystarczająco dopracowany, aby to rozdzielić).

Kolejną kwestią jest to, że wielkość próbki jest stosunkowo mała; dwudziestu czterech uczniów nie stanowi szczególnie dużej próby - twoje odchylenie standardowe wynosi tutaj dwa punkty na 10! Powinieneś także spróbować wykreślić dane według półcałkowitych przedziałów (od 0,5 do 1,5, od 1,5 do 2,5 itd.); otrzymasz bardzo inną dystrybucję.

Zasadniczo nie próbowałbym wyciągać żadnych ostatecznych wniosków z takiej fabuły lub rozkładu.

Dziękuję za pomoc. Prawdą jest, że użycie pół-całkowitych pojemników daje [inny wynik] (http://postimg.org/image/hvqpqlgp9/), chociaż nadal wygląda to nienormalnie. Wciąż byłoby interesujące wiedzieć, co oznaczałaby większa anormalna dystrybucja.
#3
+28
Jack Aidley
2014-03-31 19:35:09 UTC
view on stackexchange narkive permalink

Wykonałem wykres szacunkowej gęstości jądra danych, pokazany poniżej. Masz centralną grupę kandydatów z 4-5 i drugą niższą grupą uczniów, którzy radzili sobie całkiem źle.

KDE plot

Nie będąc statystykiem, czy mogę prosić o dodanie kilku słów o tym, czym są oszacowania gęstości jądra i jak są one obliczane? Dzięki.
Oszacowanie gęstości jądra jest próbą wyprowadzenia rozkładu, z którego pochodzi próbka z tej próbki. Jak są obliczane? Zapytaj kogoś lepszego w statystykach niż ja, może @Stephen Kolassa
Szybkie wprowadzenie: https://en.wikipedia.org/wiki/Kernel_density_estimation. KDE zawiera subiektywny parametr przepustowości (wygładzania), z kilkoma praktycznymi regułami automatycznego wyboru. Byłoby interesujące wiedzieć, które oprogramowanie zostało użyte do utworzenia powyższego wykresu.
@DanielRCollins Zrobiłem to w R, ale tak dawno nie mogłem powiedzieć dokładnie, jak to zrobiłem. Prawdopodobnie użyłbym jego domyślnych ustawień.
#4
+17
Nick Stauner
2014-04-01 04:26:47 UTC
view on stackexchange narkive permalink

Dodając tylko do innych analiz statystycznych tutaj ... nie możesz być pewien, że ta próbka nie pochodzi z normalnie rozłożonej populacji ocen podobnych uczniów z podobnych klas. Oto trochę więcej kodu R do analiz i ich wyników: x = c (1.2,1.4,1.4,1.9,2.0,2.3,2.6,2.6,3.4,4.2, 4.2,4.3,4.6,4.6,4.8,4.8, 4.9,5.3,6.0,6.2,6.4,7.1,7.8,7.8); qqnorm (x); qqline (x)

Porównaj swoje oceny z: autorstwa Skbkekas

Twoje oceny po lewej nie pasują cudownie do linii QQ, ale nie odbiegają zbyt systematycznie . Liczby po prawej stronie pochodzą z rozkładu normalnego; poza tym, że są liczniejsze, wydają się podobne.

Twoje oceny w zasadzie nie są wypaczone ( skew (x) = .12). Są one platykurtyczne, ale nie masz ich wystarczająco dużo, aby z dużą pewnością zignorować możliwość, że ta różnica w stosunku do rozkładu normalnego wynika z błędu próbkowania. Oto wyniki testu kurtozy Anscombe – Glynn ( require (momenty); anscombe.test (x) ): kurtosis = 2.03, z = -1,23, p = 0,22. FWIW, możesz również przetestować hipotezę zerową, że Twoje dane pochodzą z populacji o normalnym rozkładzie za pomocą testu Shapiro – Wilka ( shapiro.test (x) : W = .95, p = .27), ale testy normalności mogą być „zasadniczo bezużyteczne” (może to dotyczyć również dedykowanych testów istotności kurtozy lub skośności ).

Wydaje się, że odnosisz się do trybów lub lokalnych maksimów jako krzywych. @StephanKolassa, @aeismail i @JackAidley już pokazali, jak mylące mogą być histogramy w tym względzie. Komentarz @RedSirius jest również trafny, a Ty potwierdziłeś wpływ rozmiaru pojemnika w swoim komentarzu, ale nie zredagowałeś swojego pytania, aby wyjaśnić, na co to nie odpowiada (wskazówka;) ;) . Nie jest jasne, co więcej należy tu powiedzieć. Nie masz zbyt wielu dowodów na coś niezwykłego, a tym bardziej nie podałeś poważnych zewnętrznych podstaw dla swoich proponowanych interpretacji dotyczących oszukiwania lub nierównej służby uczniom o różnych uzdolnieniach, więc wydaje się, że dalsze spekulacje mogą dotyczyć jedynie przysłowiowych brzytew.

Jednak nadal warto przytoczyć niektóre (być może niedostatecznie zbadane) akademickie truizmy:

  1. Bardzo trudno jest dopasować jeden rozmiar, gdy liczba uczniów znacznie przewyższa liczbę instruktorów.
  2. W przypadku uczniów, którzy wykonują prawie zerowy wysiłek, naprawdę nie możesz wystarczająco pomóc.
  3. Oszukiwanie prawdopodobnie również nie będzie miało wystarczającego znaczenia, jeśli jest to główna forma wysiłku.
#5
+8
Nate Eldredge
2014-03-31 20:21:02 UTC
view on stackexchange narkive permalink

Pamiętaj, że centralne twierdzenie graniczne zakłada niezależne próbki. Często jest to złe założenie dla uczniów. Oszukiwanie jest oczywiście możliwe, ale może też polegać na tym, że uczą się w grupach (większość ludzi uważa to za bardzo pomocne). Skoki w danych mogą po prostu odpowiadać grupom, które uczą się razem i mają podobne mocne i słabe strony.

Wydaje mi się, że dystrybucja może być równie łatwo artefaktem testu, jak artefaktem nauczania lub uczniów.
@jack: Tak, oczywiście istnieje wiele możliwych wyjaśnień. Właśnie zaproponowałem.
#6
+6
Wug
2014-04-02 07:36:38 UTC
view on stackexchange narkive permalink

Mam teorię, która może wyjaśnić sytuacyjne anomalie, takie jak ta w klasie, która jest tak dokładna sytuacyjnie, jak mam czas na rozwikłanie.

Aby uprościć matematykę problemu, pomijam pewną skalę czynniki z mojej matematyki, które służą jako niewiele więcej niż wizualny bałagan.

Niech idealna krzywa dzwonowa zostanie zdefiniowana przez C(x).

Twój zestaw student to S , a masz magiczną funkcję Q (s) dla s ∈ S , która zapewnia „jakość” pracy ucznia.

Rozważmy teraz test. Test składa się z zestawu problemów (nazwij ten zestaw T ). Każdy problem p ∈ T ma trudność określoną przez D (p) . Prawdopodobieństwo, że uczeń s poprawnie odpowie na problem, jest zdefiniowane:

P poprawnie (s, p) = borrowed from Wolfram Alpha, 'integral of C(x - D(p)) from -infinity to Q(s)'

Z tego wynika, że ​​uczeń z wyższym Q niż D problemu będzie bardziej niż prawdopodobne, że go rozwiąże, a ktoś z niższy Q będzie mniej niż prawdopodobny.

Zdefiniujmy idealny wynik ucznia przystępującego do testu jako S i (s , T) = Σ P poprawne (s, p), p ∈ T

Gdybyś miał uzyskać idealny wynik z konkretnego testu dla każdego ucznia w w klasie, uzyskałbyś idealny rozkład, a jest szansa, że ​​gdyby twoi uczniowie faktycznie przystąpili do testu, uzyskalibyście rozkład, który przynajmniej w przybliżeniu byłby zbliżony do idealnego.

Ważne jest, aby zabrać z tego, co mamy do tej pory, jest to, że w przypadku populacji uczniów przystępujących do testu stopień trudności zadań z testu matematycznie wpływa na rozkład ocen, jaki prawdopodobnie będziesz mieć.

Na przykład założenie populacja uczniów jest z grubsza krzywą dzwonową, możesz zobaczyć rozkład ocen, taki jak twoje obserwacje, jeśli twoje pytania testowe mają mniej więcej te poziomy trudności:

  [2, 2, 5, 6, 6, 7, 7, 8, 10, 10+, 10+]  

Duża liczba uczniów odpowiedziałaby poprawnie na 2 łatwe pytania, ale ponieważ jest niewiele pytań o niskim poziomie trudności, niektórzy uczniowie z dolnego końca krzywej nie byliby w stanie poprawnie odpowiedzieć na żadne trudniejsze . Na bardzo wysokim końcu są pytania, które mogą być niezwykle trudne dla poziomu umiejętności uczniów (może się to zdarzyć z wielu powodów), że większość klasy popełniła błąd (zakładając, że ocena jest poza 10 punktami) .

Zakładając, że Twoja dystrybucja klas wygląda mniej więcej tak,

  0-2 | 3 | 14 | = 25 | === 46 | ==== 57 | ==== 58 | === 49 | = 210 | 1  

Ich idealna dystrybucja (jak zdefiniowano wcześniej, nieco zaokrąglona w celu zmniejszenia zbrylania) wyglądałaby mniej więcej tak:

  0 | 1 | 2 | === 43 | === 44 | === 45 | === 46 | == 37 | = 28 | 19 | 10 |  

Co w przytłumiony sposób przypomina obserwowaną krzywą, którą zaobserwowałeś doświadczalnie.

Ponadto realistyczne sytuacje nie będą miały tak eleganckich matematycznych rozwiązań ( jak prawdopodobieństwo, że uczeń uzyska poprawne pytanie), więc ten model należy traktować jedynie jako rozsądne, pouczone przybliżenie.

TL; DR Możliwe, że pytania z tego jednego testu były trudniejsze i mniej wyczerpujące niż pomyślałeś, rozdając go.

#7
+4
gnasher729
2014-04-02 12:13:57 UTC
view on stackexchange narkive permalink

Gdyby każdy uczeń był w stanie rozwiązać każde pytanie z niezależnym prawdopodobieństwem p, można by się spodziewać rozkładu normalnego. Ale to właściwie nie jest bardzo dobry model.

Załóżmy, że masz w teście dużą liczbę problemów, które każdy przyzwoity uczeń powinien rozwiązać. Rozwiązanie wszystkich z nich daje ocenę 5. W związku z tym wielu uczniów otrzymuje ocenę 5; każdy, kto radzi sobie dość dobrze na tym kursie; niektóre są nieco niższe z powodu głupich błędów, które po prostu się zdarzają, a także kilka, które są po prostu źle przygotowane i nie mają szans na spasowanie.

Następnie masz kilka naprawdę trudnych problemów. Przeciętny student nie rozwiązuje żadnego z nich. Doskonali uczniowie rozwiązują jeden, dwa lub trzy, dopóki nie skończy im się czas.

Ten rodzaj testu może dać twoją dystrybucję nawet przy bardzo dużej liczbie uczniów.

#8
+3
Legat
2014-03-31 23:56:41 UTC
view on stackexchange narkive permalink

Trudny scenariusz zajęć z dość standardowymi grupami uczniów:

  1. Mistrzowie - ambitni i pracowici / sprytni / zainteresowani
  2. Zwykli uczniowie - każda godzina na ten temat boli, ale muszę zdać to
  3. poniżej osiągnięć - nie ma czasu, wysiłku ani pomysłu jak sobie z tym poradzić temat

Jeśli test nie był wystarczająco ważny lub był zbyt trudny, powyższy podział wyjaśnia wszystko.

Mistrzom nie udało się osiągnąć maksymalnych wyników, ale oni zebrał całkiem niezłe wyniki w granicach 6-7 punktów. Tylko uczniom udało się dowiedzieć się wystarczająco dużo, aby skrócić test o połowę. Ci, którzy nie osiągnęli sukcesu, odkryli, że bez zrozumienia tematu nie będą tutaj świecić.

Grupy 2 i 3 mieszają się ze sobą, co jest widoczne w fabule Jacka Aidleya, mam nadzieję, że mogę to pożyczyć :)

enter image description here

Czy poziom jest wysoki? Czy test był dobrze skonstruowany i zawierał pytania o różnym stopniu trudności?

Jeśli tak, to myślę, że tak jest i właśnie udało Ci się zobaczyć, kim są Twoi uczniowie. Możesz chcieć dowiedzieć się, czy problemem jest brak motywacji lub niemożność przejścia do tematu.

Kiedy po raz pierwszy służyłem jako asystent (1996), główny instruktor powiedział mi, że są 3 typy uczniów: „ci, którzy są tutaj, ponieważ są zainteresowani i chcą się uczyć; ci, którzy są tutaj, aby zdobyć dyplom i dostać dobrą pracę; i ci, którzy są tutaj, aby się ogrzać ”. To niesamowite, jak dobrze odpowiadają Twoim kategoriom :)
Dobrze powiedziane @Emmet, lub raczej dobrze zacytowane. Jednak uczniowie czasami zmieniają kategorie podczas zmiany przedmiotów. Pasjonatom stosunkowo łatwo jest osiągnąć słabsze wyniki (lub odwrotnie) w określonej dziedzinie. Czasami uczniowie potrzebują zachęty, aby zafascynować się tematem lub ich chęć do nauki może zanikać, gdy pierwsze zadania wydają się niejasne lub zbyt trudne.
Nie mam szacunku dla uczniów, którzy są po prostu „[tam] po to, by się ogrzać” - gdyby mieli choć odrobinę popędu i szacunku do samego siebie, ugrzęzliby w gardle i zmusili rodziców do przeniesienia się do cieplejszego klimatu. Poważnie, +1 od strony psychologicznej. Ludzie w pobliżu przełęczy będą mieli trudności z jej pokonaniem; ci, którzy mają szansę osiągnąć sukces, będą zachęcani.
#9
+1
jwg
2014-04-02 19:35:47 UTC
view on stackexchange narkive permalink

Myślę, że przesadnie dostosowałeś poziom trudności pytań do zakresu umiejętności w klasie. To jest podobna teoria do @ gnasher729.

Oczywiście to wszystko jest domysłami opartymi na danych i będziesz musiał sam zdecydować, czy ma to sens, czy nie. Ale byłoby to zgodne z danymi, gdybyś miał dwa niezwykle łatwe pytania (które absolutnie każdy mógłby rozwiązać), trzy nieco trudniejsze, trzy trudniejsze i dwa niemożliwe, których nikt nie mógł rozwiązać. Każdy znalazł się na jednym z trzech poziomów, a niektórzy uczniowie popełnili również jeden lub dwa błędy w pytaniach, które umieli rozwiązać.

Jeśli jeden punkt nie odpowiada jednemu pytaniu, to to samo nadal może tak być, ale z inną liczbą pytań.

Próbowałeś więc rozłożyć poziom trudności pytań (co jest normalne), ale a) zebrałeś razem wiele pytań o tej samej trudności oraz b) zbyt mocno rozłożyłeś kępy, przy 4 na 10 pytaniach nie dających w ogóle żadnej wskazówki co do względnych zdolności uczniów (ponieważ każdy dostał 2 z nich, a pozostałe 2 nikt nie dostał). Domyślam się, że termin egzaminu nie był dużym czynnikiem, ponieważ ludzie pracują z różnymi prędkościami i ograniczeniami czasowymi, prawdopodobnie dlatego wygładzają oceny.

Jest każdy łatwy sposób przetestowania tej teorii. Czy uczniowie, którzy otrzymali 2, 5 i 8 odpowiedzi, otrzymali te same lub bardzo podobne zestawy pytań, prawda? Moja teoria przewiduje, że tak.

Edytuj

Przyglądając się dokładniej liczbom (to wciąż domysły), powiedziałbym teraz, że 3 różne grupy zdolności odpowiadają około 7,8 pytaniom (przy czym sporo osób popełnia błędy warte jeden lub dwa punkty), 4,8 pytania (większość nie popełnia wielu błędów) i 2,6 (większość z nich popełnia błędy warte 0,5-1,5 punktu).

#10
  0
Waterseas
2014-04-02 19:56:15 UTC
view on stackexchange narkive permalink

Uważam, że jednym z problemów jest sposób zaokrąglania wykresu. Zamiast zaokrąglać w górę, zaokrąglijmy do najbliższej liczby całkowitej. enter image description here

Wygląda to znacznie bardziej jak normalna dystrybucja, choć może trochę za ciężka na zapleczu. Szczerze mówiąc, zaokrąglanie w ten sposób ma o wiele więcej sensu, gdy mamy do czynienia z rozkładem klasy, ponieważ bez tego rodzaju zaokrąglania może pojawić się coś podobnego do tego, jak wygląda wykres. To również wyjaśnia, dlaczego wiele niecałkowitych wykresów wygląda raczej normalnie.

Coś podobnego do wykresu OP może pojawić się * z * zaokrągleniem mniej więcej równie łatwo. Myślę, że @StephanKolassa już pokazał, jak zwyczajne jest to w przypadku histogramów małych próbek.


To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 3.0, w ramach której jest rozpowszechniana.
Loading...