MiniJudge Info Page

MiniJudge是什麼？

前次更新： July 12, 2006

MiniJudge (現有版本： MiniJudgeJS) 是一項能將句法學實驗極簡化的工具軟體。MiniJudge能幫助您設計和啟動包含隨機排列、多數句之因子判斷實驗，然後使用R軟體的統計來測試主效應，交互作用, 以及饜足感效應, 並且在詳細報告中作摘要。 MiniJudge雖然專門為句法學判斷實驗所設計，仍可適用於收集語用學、語意學、構詞學、或音韻學的判斷。

為何需要實驗句法學?

Phillips and Lasnik (2003:61)有段完全肯確的段落強調說：『收集母語者的判斷是一項簡單且微不足道的實驗，使人可以在短時間內，從眾多的語言中，獲得大量可信度高的實證結果。』實驗句法學者Cowart (1997:1)也同意：『舉凡語言學家所採用的新語料，經由句子接受性的判斷，並結合其它創新方法，已經帶來大量的句法現象，並融入當代理論範疇。』即使Labov (1996:102)曾尖銳地批評過把判斷作為語料來源，亦坦承說：『對於絕大多數語言學家所舉列的句子』，母語者的語感仍是相當『可靠的』。

然而，要明智地使用一項工具，就需要明瞭它的侷限性。Phillips and Lasnik (2003:61)指出：『語言學界所廣泛地承認並思慮的事實即為，接受性的評估基於許多理由實是迥異於語法。』遺憾地，語言學家在實際做法上並不如他們應該要做那般嚴格地區辨『接受性』和『合法性』(Chomsky 1965曾嘗試藉由引介『語法接受性』來免除混淆，卻未能普遍使用)。結果就成為：標準句法學現採用的『微不足道』和『簡單』方法，卻是把『合法性判斷』(而非『接受性判斷』)視為語言能力的『直接』證據，以彌補不夠精確的工具。

幾乎從衍生語言學以降(參見Schütze 1996的完整回顧)，句法學者就觀察到判斷經常是難以捉摸，句法學者(更別說是教授句法學的老師和學生)之間很難判斷一致。當僅有一少部分的母語者宣稱可以接受某項爭議的判斷，或是同一個母語者前後猶豫不定的時候，最嚴重的歧見就會出現。尤其在施測者和受試者為同一個人的時候，偏見即會隱約地影響判斷，這可能是特別令人擔憂的狀況。

為了舉例來說明這項爭議，請看(1)的德文句子。根據Meinunger (2001)這個句子是可以接受的，因而支持某項理論的說法。相反地，Rapp and von Stechow (1999)宣稱這個句子不能被接受，因而支持另一項對立理論的說法。若不是母語者，根本沒辦法從這兩項敵對的說法去選擇。

(1)	Gestern traf sie mich fast. yesterday met she me almost "Yesterday she almost met me."

如同Newmeyer (1983)闡釋，某些語料上明顯的爭議可能涉及語言事實的適當詮釋，並非真正構成問題。原則上，這樣的爭議可以透過假設出一個分析，與另一個分析互相對立，從而獲得解決。這即是採用因子實驗設計的關鍵所在，以下將會再討論。

請您留意上述的問題，自語言表現(即為語感判斷)的混雜性語料中，提取包含語言能力的可靠資訊，恰是實驗認知科學家共同面對的問題。他們同樣嘗試透過混雜性的行為途徑(例如回憶測驗估算的反應時間)，來提取心智『黑盒子』內部關於認知歷程的可靠訊息(例如記憶表徵)。

因此，因應句法學者面對的實證挑戰，合理的對策即為採取其它實驗認知科學學門在過去兩百年歷史艱辛發展出的標準規則：多數的實驗語料和受試者(未受學科訓練的人，而非受偏見影響的施測者本人)，系統化控管，因子設計，連續性的反應測值，填充項，抵銷式，以及統計分析。

當我們以這些較謹慎的規則收集語感判斷後，有時眾所皆知的現象將會更加確認，但是同時也會發掘迄今未知的複雜性。近期逐漸增加的實驗句法學文獻包括Bard et al. 1996, Cowart 1997, McDaniel and Cowart 1999, Keller 2000, Snyder 2000, Sorace and Keller 2005, Featherston 2005a,b, 以及 Clifton et al. (2006)。來自Cowart 1997其中的一個例子將會在下面詳細描述。對於學習合宜的實驗方法有興趣的句法學者，會發現Cowart 1997是一本容易閱讀的手冊。Mayo, Corley, and Keller 2005也對在網路上設計和啟動句法學判斷實驗的軟體有所著墨。

什麼是 "極簡化" 實驗句法學?

雖然全副完整的實驗句法學，其益處無庸置疑，但卻是複雜且費時的。典型的實驗要有超過100個句子(包括填充項，其僅在隱藏實驗目的，防止受試者知情)，以及要有大量的母語者(約略40人左右)。母語者特別是要分成數組，讓句子依照抵銷式呈現於各組間，以確保每種句型只有被某些母語者看見，而且同一個母語者不會看到太多類似的句子。母語者以及造句、操作實驗的助理，必須彼此補償抵銷個別條件。最後，結果分析必須要靠句法學者缺乏訓練過的統計能力。這樣的情形將會是研究人員耗費許多時間於理論上大異其趣的工作上，致使結論的獲得遲遲落後在某項判斷的假設提出之後，遠遠超乎句法學者所習以為常的時間(需要數週而非數小時或數天)。

然而，一個實驗的複雜度應該要與其欲偵測效應的精細度成比例。非常清楚的判斷句型採用『微不足道』和『簡單』方法即可偵測出來。非常隱晦的判斷句型，或是要探究複雜歷程的研究議題，可能需要完整的實驗方法。但是對於介於其中的大範圍，一個折衷辦法似乎是合適的。說到方法上效力強大，能夠產生具有統計上憑據的結果，但是卻是簡單而便宜，迅速學習上手的，即是極簡化實驗句法學。

目前構想上的極簡化實驗句法學，可以定義為具有下列特徵：

只有實驗句 (無填充項)

只要產生有統計上憑據的句數即可 (大約10句)

只要產生有統計上憑據的母語者即可 (大約10-20位)

所有母語者分配到相同句子 (無抵銷式句子呈列)

二元化判斷(是或否)

至多兩項二元化的因子

隨機句子呈現順序，同時視作一個因子(幫助控制運作歷程的效應)

一些句法學者可能會覺得這些內建的限制太過於僵硬。尤其是二元化判斷限制住了潛在的大量資訊。舉例來說，在二元化判斷實驗中，兩個母語者判斷兩個句子只有16 (= 2⁴)個邏輯上的可能結果，但若是用三元度量法的話，卻變成有81 (= 3⁴)個。這意謂著要偵測出精細的型態往往是需要測試較多的母語者或句子，而非要資訊更繁複的度量法。然而，僅採用二元化判斷仍然可依據下列的理由：

二元化判斷簡單易行，未受學科訓練的母語者即使不確定答案也會受到鼓勵而作猜測。所謂的『隨意猜測』實則呈現系統性。
不像等級估量法(參見Bard et al. 1996, Featherston 2005b)，雖被稱作判斷值測量的『黃金標準原則』，二元化判斷卻無需特殊的訓練。
社會科學普遍採用的多元度量法，Bard et al. (1996)和Snyder (2000)發現其容易產生混淆。後者記述一位受試者在that-trace violation的判斷中減去一個判斷數，就因為只有一個字(that)是錯的(p. 576, fn. 2)！
三元度量法(是、否、和不確定)似乎尤其是窒礙難行，因為母語者在隨意地判斷的情況下，只對少數句子作出『是』和『否』的反應，相當於是置於接受性度量的分佈極端點上，卻讓無用的『不確定』成為最常見的反應。
在詮釋二元度量法時，任何母語者間的系統性差異(例如：全面性地傾向把『不確定』當作『是』的反應)都可在統計上自動消除掉。(更多相關的議題參見下面)。
在實際做法上，即使採用較為少數的句子和母語者，二元化判斷實驗仍可以偵測相當到微細的差異(參見如：Myers 2006)。
Cowart 1997:68 指出：漸増式的接受性甚至可以由二元化判斷偵測出來(這項理論的要旨可參見Sorace and Keller 2005)。這是因為經由母語者間累積後的是/否判斷的分佈，可以反映出感知本身上的漸增接受性：比如說70%程度的接受性將傾向有70%的時機獲得『是』的反應。儘管採用少量的母語者和句子，二元化判斷卻足以偵測出微細的差異，由其漸增性達到統計效益即可見出端倪。(例子請參見下面)。

另一項來自心理語言學的異議即為，極簡化實驗句法學缺少填充項和抵銷式的句子呈列。若是沒有填充項，母語者可能在一定程度上依循他們所猜測的實驗目的而給予判斷(或者，他們抱持悖逆的態度而給予相反的判斷)。若是沒有抵銷式的句子呈列，母語者會得到一整列辭彙對應的句子，因而導致偏頗的反應，像是會去比較成對的句子而作判斷。雖然比較式判斷是標準的語言學作法，但是心理語言學一般來說卻要避免。原因在於比較式是人為操弄，可能會擴大其差異性，或受到未知的語境影響。目前仍然無從得知這些問題有多大的嚴重性。Cowart (1997)記述到採用填充項似乎不會影響判斷的型態，而是會提高或降低整體的度量值，但這並不意謂說完全去除填充項不會有嚴重的影響。抵銷式的問題可能較容易掌握，下面即將解釋。

即使執行極簡化實驗比起執行全副完整的判斷實驗較為簡單(詳盡的介紹請參見Myers 2006)，一些步驟仍然可能太過繁複，對於剛入門做實驗的新手可能因此畏怯，尤其是實驗句子的設計和統計分析的部分。MiniJudge軟體的目的就在自動化這些步驟，也同時作為線上指南和查詢目錄。

為什麼我們要測試多數的母語者和句子?

『合宜』的實驗比非正規的方法好的原因其實很簡單。實驗的設計在於盡量免除對一個現象的『無聊』解釋，僅留下『有趣』的解釋。因此除非你仔細留意到這些『無聊』解釋的可能影響，您可能無從確定已經真的排除了它們。如同Cowart (1997:47)提及，既然『任何一個人對於任何一個句子的反應通常是混淆著眾多因素』，唯一能夠區分符合旨趣的導因和混淆的因素，是去測試多數的母語者(內部有許多無關緊要的差異) 和多數的句子(內部亦有無關緊要的差異)。語言學家直覺意識到他們必須測試多數的母語者和句子，所以他們傾向讓測試的句子，比他們於論文中真正報告出來的還要多。然而遺憾地，在沒有檢驗的狀況之下，他們太常就會假定一個『典型』的母語者會同意檢選出的例句都會是『典型』的代表。這樣的假定的原因無它，只因為他們需要這樣來符合他們理論上的要旨。

準備句法判斷實驗中最耗時的部分就在於產生多組句子。MiniJudge會以某種方式讓這過程自動化，然而，母語者仍然必須去確認每一組句子。這過程必須使得理論上攸關的特性突顯出來，但是每組句子之間依然存有不影響理論假設的差異。為了達到此目的，Cowart (1997:50-51) 建議從同義辭典去找出一整列語義相近的動詞，從中挑選出一部份來產生句法結構上對應的句子。對於多數常見語言，更便利的方式則是採用網路搜尋的同義辭典。

雖然MiniJudge把母語者之間的差異性視作隨機取樣的結果，但是許多語言學家認為同一個語言社團的母語者可能呈現語法上的系統性差異(個人習慣語)。基本上，測試個人習慣語是可能的(see Rousseau & Sankoff 1978)，將來MiniJudge的版本或許會採行這種測試。但是此種測試若要統計上有憑據，則需要測試龐大數量的母語者和句子，此將會違反『極簡化』實驗的目標。請您也參見Labov 1996，針對個人習慣語的真實性提出懷疑性的反證(以及其觀察到即使謹慎實驗下收集的判斷，結果的詮釋依舊困難重重。)

什麼是因子實驗?

一項實驗是用於檢驗形式像是『假設有X就會有Y』之類假設的工具。基本邏輯就是輸入X(比如一個句子)進去系統中(比如母語者的大腦)，然後看看是否Y(比如說預期中出現的判斷類別)會出現。在這個『假設有X就會有Y』的陳述中則內含有：『假設有[+X]就會有[+Y]；反之，假設有[-X]就會有[-Y]』。Y在此為因變數， X為自變數或者因子，而[+X] and [-X]則構成因子水準，其中 [-X]為受控數。

一項實驗沒有理由每次只須測試一個因子。事實上，基本的心理語言學實驗會包含有兩個或更多的自變數。這樣不僅節省時間(一項單獨的實驗測試超過一個的假設)，而且容許不同因子的效應區隔開來。

當僅有一個因子合乎理論要旨，而其它因子(擾亂變數)則混雜其中時，區隔它們的效應則尤其重要。因此，除非施測者明確地考慮到擾亂變數的存在，我們並無法確知所觀察到的效應來自某個重要因子。二因子實驗可以排除擾亂變數的效應，而使得重要因子(如果有的話)能夠清楚地呈現出來。(當然，實驗設計若包含更多的因子，實驗本身和詮釋都將更形複雜。這也就是為什麼MiniJudge 僅有容許至多兩個因子。)

為了闡明因子設計的邏輯性，Cowart (1997)討論了針對英語中that-trace 效應所做的實驗。基本假設是像(2)的句子是不合乎語法的。

(2) Who do you think that likes John?

假設(2)真的不合乎語法，我們預測它會被判斷為『不能接受』。但是，甚至合乎語法的句子在接受程度上都會變化，我們需要一個和(2)盡可能相似的比較句，但是卻合乎假設語法，且為母語者接受。最明顯的候選例句像是(3)，因為它移除了導致錯誤的that。

(3) Who do you think likes John?

然而Cowart (1997)指出，像(2)和(3)事實上有一個以上的地方是不同的：(2)不僅是含有一個that-trace的字串，而且也多了一個that. 在(2)中，that的出現本身就足夠得到一個較(3)還低的接受度，例如說它會讓句子變得比較長，或是說讓複雜的附屬子句結構更顯著，或是說會有其它未知的影響面向。因此我們需要一種區別that-trace效應和可能的that效應。

解決方法即為使[+/-That]因子與另一個因子交叉呈現。這個新的[+/-Subject]因子用於界定外移(extraction)的位置。如此的結果就構成下列四個句子：

(2) [+T,+S] Who do you think that _ likes John?
(3) [-T,+S] Who do you think _ likes John?
(4) [+T,-S] Who do you think that John likes _ ?
(5) [-T,-S] Who do you think John likes _ ?

我們現在可以預測含有字串的句子(2)會比沒含有同樣字串的句子(3)有較低的判斷，句子(4)和(5)亦會有相對性的判斷型態，因為它們也擔任對照組來測試that效應。Cowart (1997)透過全副完整的實驗程序來證實這些預測。此外，Cowart也證實了that效應(擾亂變數)的真實性: 像是(4)的句子的確比(5)有較低的判斷，即使說兩句都被認為是合乎語法的。因此，that-trace效應不能只靠比較句子(2)和(3)就可獲知。

注意到上述的句子組合實類似於句法學論文引用的例句。即使是採用『微不足道』和『簡單』的方法，因子性邏輯仍是隱含其中。問題是句法學者很少有系統性地採行這項邏輯。因此常見的情形是他們引用單一句子卻沒有比較上的對照句，或是需要四句一組的情況下卻只有引用一對句子，因為其理論僅有主張兩個要素而已(例如that和that-trace)。即使當四句一組採用時，兩個二元因子以外的混雜因子也往往滲入例句之中(例子將於下個段落闡述)。

什麼是交互作用?

假如兩個因子沒有交互作用，即使其它因子水準已經更動，某一個因子的效應將會維持不變。假如有交互作用，則觀察到的效應要看兩個因子的結合，所以沒有一個因子可以單獨看待。

上面討論過的that-trace例子包含了兩個因子[+/-That]和[+/- Subject]的交互作用。其中[That]的效應在[+Subject]的句子(也就是主語有外移現象)比在[-Subject]的句子中要強。相同的對應上，因子[Subject]只有影響到在[+That]的句子判斷；在[-That]的句子中，主語和賓語外移的接受度兩者相同。

句法假設常要考慮到交互作用。如同上面闡述過，在that和trace的例子中，理論上主張兩個元件有相互關係。另一個例子是來自Li 1998，其中有一個要點是關於漢語的存在詞素有可以與數字共同出現，若要成立這樣的情況，這個數字會是也只能夠是個體指稱(而非數量指稱)的含意。此刻這兩個元件是 [+/-you]和[+/-Individual-denoting]。文章中採用的四個句子類似因子設計，如下面所舉列。然而卻不是完善的因子設計，因為這些句子只有兩兩成對。再者，這些句子原本是散佈在文章裡，更加使因子設計的邏輯無法理解。

(6)	[+Ind, +you]	You sange xuesheng zai xuexiao shoushang le. [= (3) in Li] have three-classifier student at school hurt aspect "Three students were hurt at school."
(7)	[+Ind, -you]	*Sange xuesheng zai xuexiao shoushang le. [= (1) in Li] three-classifier student at school hurt aspect "Three students were hurt at school."
(8)	[-Ind, +you]	*You sanzhi gunzi gou ni da ta ma? [= (17a) in Li] have three-classifier stick enough you hit him question "Are three sticks enough for you to hit him (with)?"
(9)	[-Ind, -you]	Sanzhi gunzi gou ni da ta ma? [= (8) in Li] three-classifier stick enough you hit him question "Are three sticks enough for you to hit him (with)?"

注意到標有星號的句子型態顯示出有交互作用。我們無從認為這裡有[Ind]和[you]的主效應(例如說對(6)-(7)的平均判斷值會跟對(8)-(9)的平均判斷值有何不同)。因此，這裡只有交互作用是攸關理論上分析的。

另一個常見理由去檢驗交互作用是關係到心理學上模件的概念。假設說實驗中一個因子在某種意義上說是與特殊的認知模件相關聯，於是我們可以預期它們有交互作用(參見如Sternberg 1998)。

然而，這個邏輯若是運用到接受性判斷卻可能是錯誤的。既然語言學家認為語言能力和語言表現是分開的模件，我們似乎會預測語言能力和語言表現在判斷上沒有交互作用，但是其實不難去證實這個預測是錯的。例如說，假設我們設計了一個因子實驗，包含有語言能力和語言表現的因子，前者相當細微，像是 [Agreement]，後者則相當明顯，像是[CenterEmbedding]。我們因此預期在下列句子(10)和(11)裡有清楚的判斷上差異，因為簡單的結構會使得違反容易被偵測出來。但是對於(12)和(13)的判斷可能會十分類似，因為center embedding使得違反單複數一致的原則難以辨識出來。

(10) [+A,-C] The mice run away.
(11) [-A,-C] The mouse run away.
(12) [+A,+C] The mice the cat the dogs chased caught run away.
(13) [-A,+C] The mouse the cat the dogs chased caught run away.

眾所皆知的是，在效應上，語言表現的因子甚至可以顛倒語言表現的因子。舉例說，Chomsky (1965)引用(14)作為一個合乎語法卻不能接受的句子，而Montalbetti (1984)引用(15)作為一個不合語法卻可以接受的句子。無論這些例子的理論意涵為何，在實務上的要旨卻是句法學者必須在設計判斷實驗時謹慎考慮語言表現的因子。如同Cowart (1997)處理他的that-trace實驗。

(14) The man who the boy who the students recognized pointed out is a friend of mine.
(15) More people have been to Berlin than I have.

除了這些交互作用邏輯上的一般性運用，MiniJudge也使用它來檢驗饜足感。下面即將說明。

為什麼要以及如何隨機排列句子的順序?

心理語言學上最嚴重的擾亂變數之一即是呈現次序。實驗參加者在實驗過程中會繁複地改變他們的反應模式，逐漸變得更加熟練(因此更加準確)，同時也變得疲倦無聊(因而比較不準確)。假使實驗材料彼此很相似(似乎是必要的)，它們也會彼此促發。也就是說，實驗中稍早遇過的題項，會讓大腦做好準備去處理稍後出現類似的題項。

處理這種情形的實際作法即是，施測者必須於參加者之間去混合呈現次序，使得任何一個題項平均來講可以在實驗過程中的每個時間點有相等的出現機會。否則，假如所有的[+X]題項都比所有的[-X]題項出現較早，因子[X]就會和順序擾因混雜一起，而難以確定觀察到的效應來自何種導因。

最常見去抵銷順序擾因的作法就是隨機呈現次序(就是測試單上的句子次序)。然而，假如沒有很多的題項或參加者，壞機運仍可能產生順序擾因。這項問題的標準解決方式就是使用部分隨機法。此法在MiniJudge的施行細則於 Cowart (1997:101)亦有描述。首先，隨機號碼分派給每個句子。然後句子依照隨機編號分配在每個句型類別下(例如[+F,+G])。每個句型類別下的每一個句子又分屬不同的組別(每個類別有多少句子就採用多少組別)。最後，每個組別下的句子又隨機地編號排序。結果就是每個句子有相等的機率出現在實驗中的每個時間點(由於組別的隨機排列)，而句子類別又會均等地(隨機地)分布於整個實驗(因為一開始時句型類別內的排列)。

因為MiniJudge實驗只包括少量的句子，也沒有填充項或是在母語者間作抵銷式呈列，非常可能的狀況是就算採行部分隨機法，母語者還是會遇到句型相同且連續成對的句子。然而考量到句子總數少，以及所有句子也都僅有出現一次，若是要防止成對句子出現而去採行複雜的規則，效益上值不值得仍然不清楚。

MiniJudge把順序含括為統計分析上的一個獨立變數，在一定程度上彌補了上述缺點，而把難以擺脫的順序效應消除。這種效應通常是透過在母語者間作抵銷式的句子呈列來處理。抵銷式的呈列用於全副完整的實驗句法學中，為了使母語者不會判斷到一整列相同句型的句子(像是句子(2)-(5))，而不會誘使他們採行明顯的比較策略(解釋此為不合宜的理由參見上述)。此與順序相關是因為母語者只會在遇到一成對句子的第二句時才作比較。假設約有一半的母語者都先得到句型[+F]，且另一半都先得到句型[-F]，如此平均說來，對[+F]以及[-F]的判斷在某種程度上只能說導因於比較策略。再者，假如有任何比較策略被偵測到，也是順序上的效應而已：稍早的判斷(比較不可能時) 跟稍後的判斷不一樣。

看看順序與其它效應的交互作用可能也有幫助獲得更多資訊，除了可以更加排除順序因子，也可以檢驗饜足感效應。下面即將說明。

句法饜足感是什麼？

句法學家常常會為到一種惱人的現象所苦：在思考或討論某些句法上的差異時，語感會隨著不斷的接觸這種差異而遲鈍導致句法學家對自己做出的判斷產生不確定感。Snyder (2000)首先以實驗研究這個現象，並將它命名為句法饜足感。

Snyder也指出雖然句法饜足感對句法學家來說是個擾人的現象，但它對關於人類語法的本質以及語言處理開啟了另一個研究的窗口。隨著句法類型的不同，句法饜足感是否會產生及產生的情況也不儘相同。Snyder因此提供了兩種解釋：第一是句法饜足感可能只單純是語言處理而非語法所造成的現象。因此句法饜足感可作為一些研判語言表現的現象的工具（這也是Goodall 2004所持的立場）。而在另一方面，句法饜足感產生與否的差異也可能是由不同句型中不同的語法成分所造成。因此句法饜足感可謂是一個區分句法變因的新工具：若變因[F]出現句法饜足感而[G]不會出現，則[F]和[G]所包含的語法成分必定有所差異（Hiramatsu 2000抱持此立場）。除了句法上的影響外，Luka and Barsalou (2005) 也提出了心理學上與句法饜足感相關的有趣看法。

MiniJudge探測句法饜足感的方式是觀察實驗變因與實驗句順序的交互作用：在實驗初期[+/-F]的差異可能會很強烈，但隨著實驗進行，這個差異就會慢慢減弱 (Myers 2006 似乎是第一個以這種方法測試句法饜足感的研究)。然而，MiniJudge不會自動偵測句法饜足感。要使用偵測句法饜足感的功能必須額外勾選。這是因為統計一個包含連續變因（例：順序）的交互作用可能會使得主要效應較難被詮釋，甚至可能造成不顯著或相反的效果。因此比較安全的作法是讓統計模式保持簡單，除非你對句法饜足感有特別的興趣或是想要排除順序所造成的影響。

MiniJudge使用統計的原因與方法

統計簡介

通常設計實驗的目的通常是為了測試一個『若是X，則Y』的假說，而統計就是我們利用來偵測X與Y之間是否存在系統化相關性的工具。由於人類常偏好表面上可觀察到的型態而不管是否這個型態真正存在，因此最保險的驗證方法就是計算我們觀察到的相關性恰巧發生的機率。若計算的結果顯示恰巧發生的機率低於某個預設的門檻，我們即可認定所檢驗的相關確實性存在。這個有關機率的觀念也就是推論統計學的邏輯所在。因此統計的應用絕非單單只是點綴之用，而是早在設計實驗時就必須考量的一個不可或缺的角色。

我們以p來代表恰巧發生的機率的值。MiniJudge採用標準的 p<.05為非巧合的門檻。設定這個門檻的意義在於低於這個門檻的p值就會被認為有統計上的顯著性。顯著性的發生與否取決於判斷差異以及觀察數量的大小。在一個要求一百位受試者對五百個句子做出判斷的實驗中，只要有1%的差異就會被認定為有統計上的顯著性。但這個顯著性事實上是沒有任何實質上的意義的（實際例子請參考 Cowart 1997:123 ）。此外，p<.05這個門檻也代表即便理論上的假設是完全錯誤的，在20次相同的實驗中也可能會有一次能得到統計上顯著的結果（請參考Ioannidis 2005，這篇文章討論了這個簡單的數學機率問題帶來的影響）。另外值得注意的是，即便實驗結果顯示p>.05，我們也無法就因此斷定這個型態的發生完全是巧合。唯一能斷定的只是它並沒有達到一個公認的採信標準。因此一個不顯著的趨向仍然值得改善實驗內容或設計後再繼續研究或增加受試者與實驗句的數量。

統計模式的種類

依據資料的型態和要測試的假設型態，需靠不同的模型來建構機率。心理語言學中最為人熟知的統計模型是變異數分析，但是MiniJudge實驗的資料卻無法使用變異數分析來建構。這是因為不像大多心理語言資料(例如反應時間或正確數目)，MiniJudge實驗的資料是類別性(特別來說是二元性)：不是『可以接受的』就是『不能接受的』。

最為人熟知處理類別性資料的統計模型是卡方檢定，統計學入門課常常教導的方法。然而MiniJudge的資料也不適用這個模型，因為那是重複測試的資料，其觀察來自成組的叢聚，而不是完全獨立的資料。叢聚指的是母語者，每個人都要判斷多數句。在心理語言學中，連續性重複測試的資料，在跨題項間的平均之後，通常再經由跨受試者間的重複測試變異數分析來處理。假如題項沒有對應，另外不同的依題項分析(跨受試者間作平均)就為標準採取作法。但是MiniJudge資料不是連續性，且類別性資料無法作『平均』。

再者，處理呈現次序是另一個複雜的問題。不像二元性主效應，它是連續性的。假如因變數是連續性的，可經由共變因數分析(ANCOVA；ANalysis of COVAriance)，或是經由提取最佳相關等式的廻歸(就是詮釋"假如X然後 Y"成為"Y = f(X) + 雜訊")來處理。假如我們的類別性資料不是重複測試資料，可以使用在社會語言學研究中廣泛被用來找出回歸通則的邏輯迴歸。事實上，邏輯回歸也是在社會語言研究中常用的變因規則分析程式VARBRUL以及它的後繼者GoldVarb(麥金塔電腦專用)及GOLDVARB 2001(PC專用)的核心部分（請參考Mendoza-Denton et al. 2003）。（而 John C. Pezzullo以JavaScript編寫的線上邏輯回歸程式則是MiniJudge產生的重要關鍵）

然而，MiniJudge所收集到的資料既為類別性資料，同時也是連續的。因此我們需要採用在語言學及心理語言學研究中較少被採用的統計模組「推廣之線性混和模組」(Generalized Linear Mixed Modeling，簡稱為GLMM)來分析所收集到的資料(請參考 Agresti et al. 2000) 。如同常見的迴歸分析一般，推廣之線性混和模組可以找出最適合資料的一條等式，而每個等式中的構成要素都代表著一個變因或交互作用。除此之外，這個模組分析的範圍還包含了連續性及類別性的自變數。它是以效果編碼的方式處理類別性自變數，例如：將變因值[+F]編碼為 1，而相對的變因值[-F]則編碼為-1（這個方式也簡化了交互作用的顯著性的測試）。推廣之線性混和模組不只計算每個變因及交互作用的p值，同時也計算它們的係數。我們可以藉由觀察這些係數知道顯著效應為正面或是負面的。

一個二因子產生的正面效應代表得到可接受的判斷之機率因為一個變因的[+]變因值而提高，而負面效應則代表不可接受的判斷因為[-]而降低。順序產生的正面效應代表隨著實驗進行獲得可接受的判斷之機率提升了；而負面效應則是相反。順序和變因之間的互動代表受試者出現饜足感：由變因引起的判斷差異隨著實驗的進行變小。

順序和變因或是變因之間的交互作用的效應為正或負部分取決於變因本身的定義（例如[+F]是合於語法或不合語法）。一個能更簡單觀察出交互作用的效應的方法是比較各種變因值組合獲得的可接受度判斷數（例如[+F+G]和[+F-G]所獲得的可接受判斷數差不多，而[-F+G]則比[-F-G]獲得多出許多的可接受判斷）。

處理受試者與與實驗句之間的變異

如同先前提到的，標準的心理語言實驗結果分析方式是比較兩種變異數分析：一種分析將受試者之間的變異列入考量，而另一種則是將實驗句之間的變異列入考量。一般將這兩種因素列入考量所持的理由是當從事項目分析時我們必須測試實驗項目之間的共通性；而從事受試者分析時則必須測試受試者之間的共通性。然而， Raaijmakers et al. 1999 指出，這項被廣為接受的理由其實是錯誤解讀 Clark 1973 的結果。

首先，認為項目分析能附帶檢驗出不合群體的項目（例如統計學上所稱的極端值）是錯誤的。以變異分析這種統計模式來說，一個極端值的確可能導致錯誤的顯著結果，因此你必須自行檢驗項目的個別結果。MiniJudge在結果報告中會提供每個項目得到「可接受」判斷的比率，因此出現不尋常地高或低的比率的項目可能就是受到其他因素的影響而應該被剔除（參考範例）。

此外，Clark所提供的建議只是用於使用非對應項目的實驗。例如：一個比較及物動詞（如：吃）及包含不及物動詞（例如：睡）的實驗。這類型的實驗會使得實驗結果不只被實驗所關心的變因（及物以及不及物）影響，同時也會被一些非關實驗目的的因素（如：每個動詞各自的詞頻）混淆。但若在實驗項目互相對應的實驗中（例如：有關that-trace effect的實驗），這類的混淆就不會發生，因為互相對應句之間的差異僅在於實驗要探討的變因。更精確地來說，使用對應項目的實驗以對應的句組交互測試實驗變因，變因所造成的變異因此可以清楚地從許多非相關的干擾因素中隔離出來。然而因為對應受試者有實行上的困難，因此統計分析仍然應該將受試者明確地納入統計模式的計算中。而這也正是受試者變異分析的目的。

多數的句法實驗使用多組的對應句組，但仍有某些變因是以詞彙本身的性質定義因而較難明確的對應（例如：及物與不及物動詞；心理狀態及非心理狀態動詞；生物及非生物主詞）。在其他的情況下，詞彙和句法因素產生混淆的效應則較微弱，以以下的一個中文複雜名詞短語(Complex NP)的實驗為例：複雜名詞短語不止在句法角色上和一般名詞有差異，它本身的詞彙內容也多於一般的名詞。使用MiniJudge蒐集詞彙判斷的構詞學者和音韻學者必須面對更嚴重的變因混淆。若實驗項目可以對應良好（這的確有可能發生，即便變因是以詞彙本身的性詞定義），參考實驗句之間的變異可能不會對結果分析造成影響。但若實驗項目沒有良好對應，忽視實驗句變異可能會導致偏低但錯誤的p值。

即便如此，若是只採用將項目變異列入考量的統計模組，我們可能會遺漏否些可用資訊。畢竟較高的 p並不代表蒐集到的資料中完全沒有明顯的規律，只是我們在該次實驗無法成功地偵測到它。因此即便實驗句分析未達顯著，但受試者分析中出現的顯著效應仍有可能提供我們有用的資訊。這樣的結果當然可能代表在受試者分析中所出現的顯著效應只是因為一些非實驗目的的詞彙因素，但也可能代表若是我們更謹慎地挑選對應的實驗句，我們將能成功證明與我們實驗目的相關的變因的確有顯著的效應。因此MiniJudge提供兩種模式的分析，但只在發現項目及實驗變因出現顯著混淆的情況下在結果的簡要報告中提供項目分析。兩種模式分析的結果以及統計上的比較將會存在另一個檔案中。

最後一項提醒：GLMM這類的統計模式可以同時將受試者之間的變異和實驗句之間的變異列入考量，而不用像多數的心理語言學研究一般必須進行多次分析。若你有興趣知道統計方法的演化如何淘汰一些心理語言學的傳統，請參考Baayen 2004。

限制

雖然GLMM對於從MiniJudge獲得的語料來說是目前能獲得的最佳統計模式，它在某些部分仍然受到限制：

GLMM使用 z分數測試顯著性，因此它的準確性必須依賴大量的資料數。但在實際上這並非十分嚴重的問題，因為大量的資料數其實只代表50個觀察數，而50個句子判斷簡直是垂手可得。（50個判斷=五個受試者*十個句子）
如同一般的迴歸分析，GLMM認定自變數和他變數之間的相關性並非完整。若是自變數和他變數為完整相關的話，它估算相關性的演算法將無法計算出相關係數。但在句組與受試者都達到一定數目的狀況下，完整的相關性將會非常顯著。
和邏輯迴歸相似（但不同於ANOVA或一般的迴歸分析），完全無誤地算出 p值和GLMM係數是不可能的，只能估算。但由於準確估計的困難度高，即使是像R這類擁有強大功能的統計軟體，估算GLMM時仍然使用較簡單卻有較大誤差的估算方法。
即使是簡略的GLMM估算法仍然在程式設計上有相當的難度，因此MiniJudge依賴另一個軟體來完成統計分析的工作。接下來將介紹這套免費軟體。

R是什麼？

R 是一個可以在 http://www.r-project.org/上免費取得的統計軟體。它是當前最好的免費統計軟體，強大且靈活的功能已經使它在全世界通用。若你想從事嚴謹的量化研究，R會是一套值得擁有的軟體。若你想更瞭解R， Crawley 2005 和 Johnson 2004 (其中有一個專門討論實驗句法學的章節) 以及一些其他的文章都有對R更深一步的介紹。

即便擁有這些優點，R的主要缺陷在於它不是非常容易學習與使用。R使用者必須一行一行輸入必要的指令而非單單憑著一些目錄選單和對話視窗即可操作。這種操作介面造成使用者相當大的負擔，而不儘完善的線上支援更常帶給使用者嚴重的挫折感。因此，許多正在進行的計畫都期望能將R的操作介面簡化，其中一個較有進展的計畫是 R Commander (Fox 2005)。

既然R並不容易上手，MiniJudge將會自動產生必須的R程式碼，並將R產生的檔案轉化成簡單易懂的結果報告。

以下是兩個R的主要連結：

若你準備好要下載R，請參考以下步驟並依序進行：

請連結到上面的第二個連結，你將會看到一個下載R的網站位置列表。
請在這個列表中選擇一個與你所在區域最接近的一個網站。
在 Download and Install R 的地方選擇選擇和你的作業系統符合的連結。

接下來的步驟將依不同的作業系統而有所差異：

Windows: 選擇 "base"，然後選擇安裝程式 (例如 "R-2.2.1-win32.exe").
Mac: 選擇適合你的電腦的安裝程式。
Linux: Linux使用者需要提示嗎？

MiniJudge所使用的GLMM統計模式需要一個由Douglas Bates 和 Deepayan Sarkar開發，名為"lme4"的R程式套件。（安裝"lme4"之前必須先安裝"Matrix"程式套件）由MiniJudge產生的R程式碼將會引導你下載並安裝這些程式套件。由於這些程式套件仍會修正，因此MiniJudge可能也會更新來因應這些修正。若你必須自行更新已經下載的R程式套件，你可以在R的"程式套件"目錄下選擇"更新程式套件"，或貼上以下的R程式碼：

update.packages()

R產生的統計結果代表什麼？

MiniJudge將 R產生的結果轉換為容易閱讀的格式，但它同時將一份更詳盡的報告存在你的電腦中。以下將以一份中文的complex NP island現象的結果報告（未測試句法饜足感）為例，解釋R產生的結果報告中每一行所代表的意義。

R 產生的結果	解釋
Analysis of demo.txt: Factor1 = ComplexNP Factor2 = Topic	標題
Generalized linear mixed model fit using Laplace	使用R目前最強大的演算法來估算GLMM
Formula: Judgment ~ Factor1 * Factor2 + Order + (1 \| Speaker)	受試者判斷:應變數（0或1） Y~X: Y隨著函數X變異。 Factor1 * Factor2: 測試兩個變因以及它們的交互作用的影響。 (1\|Speaker): 以受試者為分組因子
Data: minexp	預設的資料名稱
Family: binomial(logit link)	Binomial: 二元資料的分佈 (cf.連續數據的常態分佈). Logit link: 簡化回歸分析的數學運算.
AIC BIC logLik deviance 74.83804 92.4879 -31.41902 62.83804	計算統計模式與資料的相稱度
Random effects: Groups Name Variance Std.Dev. Speaker (Intercept) 3.6564 1.9122	將分組因子"受試者"看作一個隨機變因，因為實驗目的並非檢驗受試者之間的不同
# of obs: 140, groups: Speaker, 7	資料總數為從7個受試者收集來的140個資料點
Estimated scale (compare to 1) 0.712777	越接近1，實驗結果越可靠。0.712777這個值還可以更好。
Fixed effects:	以下是我們要測試顯著性的變因
Estimate Std. Error z value Pr(>\|z\|) (Intercept) 2.791088 1.191824 2.3419 0.019188 * Factor1 -1.273354 0.493731 -2.5790 0.009907 Factor2 -3.373103 0.655563 -5.1454 2.67e-07 * Order -0.077629 0.065348 -1.1879 0.234860 Factor1:Factor2 -1.295523 0.497422 -2.6045 0.009202 **	截距: 隨機變因的測量值（這裡為"受試者"），MiniJudge不考慮這個測量值 Factor1:Factor2: 交互作用估計值: GLMM 的回歸係數(只有符號重要). Pr(>\|z\|): p值 (雙尾). z value: 測量係數距離運氣期望值為零的距離。 Std. Error: 標準差（用來計算z value）
Signif. codes: 0 '*' 0.001 '' 0.01 '*' 0.05 '.' 0.1 ' ' 1	p值的分類（MiniJudge只會確認p值是否小於.05）
Correlation of Fixed Effects: (Intr) Factr1 Factr2 Order Factor1 -0.025 Factor2 -0.423 0.200 Order -0.635 0.095 0.188 Fctr1:Fctr2 -0.065 -0.332 0.217 0.153	Intr: 截距這些值告訴你各種效應之間的相關性，1或-1分別代表了兩種效應之間完全正相關或完全負相關。
More complex model including both cross-speaker and cross-sentence variation:	當實驗句無法反應實驗設計時可能會需要。
Generalized linear mixed model fit using Laplace Formula: Judgment ~ Factor1 * Factor2 + Order + (1\|Speaker) + (1\|Sentence)	注意："實驗句"已經被列為分組因子。
Data: minexp Family: binomial(logit link) AIC BIC logLik deviance 74.35075 94.94225 -30.17538 60.35075 Random effects: Groups Name Variance Std.Dev. Sentence (Intercept) 726.14 26.947 Speaker (Intercept) 855.30 29.246 # of obs: 140, groups: Sentence, 20; Speaker, 7 Estimated scale (compare to 1) 0.2716192	請注意：當把實驗句列為一個隨機變因之後，受試者的變異上升了非常多。（從3.662到855.30）。這暗示了使用這個模式分析偵測到了比前一個較簡單的模式更多的干擾。你可以從"estimated scale"的值看出這項差異，它掉到了0.27，距離理想值1非常遙遠。
Fixed effects: Estimate Std. Error z value Pr(>\|z\|) (Intercept) 23.41929 20.06858 1.16696 0.2432 Factor1 -13.91324 11.75116 -1.18399 0.2364 Factor2 -26.89312 19.07604 -1.40979 0.1586 Order -0.41488 0.42343 -0.97982 0.3272 Factor1:Factor2 -14.32556 11.75755 -1.21841 0.2231 Correlation of Fixed Effects: (Intr) Factr1 Factr2 Order Factor1 0.390 Factor2 -0.977 -0.374 Order -0.974 -0.402 0.973 Fctr1:Fctr2 -0.394 -0.415 0.400 0.409	在這組資料中，加入了句子之間的變異讓所有變因都變得不顯著了。這暗示了實驗句和變因之間有混淆的可能性。然而，因為我們知道較複雜的模式會偵測到較多的干擾，因此毋須擔心以這個模式運算出的結果在顯著性上的改變。
Comparison of the two models: Data: minexp Models: glmm1: Judgment ~ Factor1 * Factor2 + Order + (1\|Speaker) glmm2: Judgment ~ Factor1 * Factor2 + Order + (1\|Speaker) + (1\|Sentence) Df AIC BIC logLik Chisq Chi Df Pr(>Chisq) glmm1 6 74.838 92.488 -31.419 glmm2 7 74.351 94.942 -30.175 2.4873 1 0.1148	glmm1, glmm2: MiniJudge 使用的兩種統計模式的名稱。第一個 "Df": 顯示統計模式的複雜程度。 AIC, BIC, logLik: 測量統計模式的合適度，較小的AIC&BIC值代表統計模式較合適（以這裡來說兩種統計模式得到的值都很接近）。 Chisq & Chi Df: 用來計算p值。 Pr(>Chisq): 比較兩個模式算出的結果得到的p值(以藍色字體標示)。這裡p值大於.05，因此較複雜的模式並沒有明顯優於簡單的統計模式。
By-sentence percentages of YES judgments: Factor(s) Sent %YES ============================ [+C][+T] 1 0 [+C][+T] 5 14 [+C][+T] 9 14 [+C][+T] 13 0 [+C][+T] 17 0 ---------------------------- [+C][-T] 2 100 [+C][-T] 6 86 [+C][-T] 10 100 [+C][-T] 14 100 [+C][-T] 18 100 ---------------------------- [-C][+T] 3 86 [-C][+T] 7 71 [-C][+T] 11 29 [-C][+T] 15 71 [-C][+T] 19 86 ---------------------------- [-C][-T] 4 100 [-C][-T] 8 86 [-C][-T] 12 100 [-C][-T] 16 100 [-C][-T] 20 100 ----------------------------	這些資訊可以幫助你找出哪些實驗句的判斷結果和其他的句子不同。右邊的編號第十一句似乎表現的和其他句子不相同。它得到可接受的判斷的比率低於其他同類型的句子。另一個令人感興趣的發現就是，即使實驗規模並不大，也只有兩種選項可供選擇，但不同類型實驗句的可接受度仍然出現了漸增的趨勢而非二分為完全可接受或完全不可接受。[-T]的句子幾乎被受試者完全接受，而[+C][+T]則被認為是完全無法接受。而[-C][+T]的句子則是介於前兩者之間。請參考這裡有更多相關資訊。
Number of YES judgments for each category: [+C] [-C] Total C = ComplexNP [+T] 2 24 26 T = Topic [-T] 34 34 68 Total 36 58 94	這裡並沒有以百分比表現不同的分類被接受的多寡，因為判斷次數和比例一樣重要。另外如我們所預期的，兩個變因的互相影響讓 [Topic]這個效應只會在[+ComplexNP]之下作用。然而[Topic]這個變因的效應也大到令人起疑，因為這種句型在中文中應該是可以被接受的。因此，這個實驗在設計上或是實驗句方面可能有問題。
Significance summary (p < .05): The factor ComplexNP had a significant negative effect. The factor Topic had a significant negative effect. The interaction between ComplexNP and Topic had a significant negative effect. There were no other significant effects. Though the above results do not take cross-item variability into account, items and factors showed a marginally significant confounding (.2 > p > .05).	這是MiniJudge產生的結果簡報，目的是為了能明白地表達實驗的結果。而最後一段是提醒實驗設計者複雜的統計模式幾乎顯著的優於簡單的統計模式了。請往上瞭解如何解釋正面或負面效應。

若想要以一般通用的方式表達以上的結果，你需要參考上面紅色的值，因為它摘錄了重要的實驗分析數據。至於顯著的變因和交互作用，你必須把四個關鍵值納入你的報告之中。以以上的例子來說，報告變因一(ComplexNP)的顯著性的方式是："B = -1.27, SE = 0.49, z = -2.58, p < .05."（注意四捨五入）。

你可以從藍色的 p值得知預設的分析可以被採用，因為大於.05的 p值顯示出兩種統計模式的差異並不顯著。然而在這裡你必須接受無效假設，也就是說，必須認定任何存在於兩個模式之間的差異都只是意外（然而意外之中可能包含了隱藏的事實）。因此，我們最好以較保守的標準來檢視這個非顯著性，而MiniJudge使用的保守標準是 p>.2。但是在以上的範例中，.2 > p >.05，因此雖然MiniJudge推薦較簡單的統計模式所計算出的結果（忽略實驗句的變異），但仍會在結果報告中提出警告。的確，由於兩個分析的結果出現了不小的差異，因此我們可能會需要進行新的實驗並更加小心的控制作為ComplexNP內容的詞彙。

另一個關於 p值的資訊：某些 p值中可能會出現字母"e"，這代表這些值非常的小（例如：2.67e-07 = 0.000000267）。這也是為什麼變因二(WhMove)會被標記為顯著變因的原因。

若是R在分析資料時遭遇到嚴重錯誤（例如：讓估算的演算法無法收斂的完全相關性），它將會以NA"(無法取得)以及"NaN"(不是一個數字)取代原本應該出現的數值。MiniJudge仍然會提供簡單的結果報告，但將無法計算出任何變因在統計上的顯著性。

MiniJudge的統計基礎

在執行過由MiniJudge自動產生的R程式碼之後，你可以藉由自己輸入R程式碼來檢驗計算出來的結果。你可能會想試看看是否移除掉某些讓統計模式顯得過於複雜的非顯著交互作用能突顯出隱藏的主要效應。要達到這個目的，請你將以下的R程式碼複製到文字編輯器上並根據目的適當地修正它（加上底線的部分是計算出以上分析的"glmm"函數，而粗體字的部分是和上面不同的部分）。最後，請你將這段程式碼複製到R的工作視窗中開始執行資料分析。

glmm1.new = lmer(Judgment ~ Factor1 * Factor2 + Order + (1|Speaker) - Factor1:Factor2, data = minexp, family = "binomial", method = "Laplace")

你可以輸入這個函數的名稱來檢視 R的分析結果：

glmm1.new

若你想測試這個新的統計模式是否和原本的有顯著的差異，請使用以下的R程式碼。在R的報告中，找出是否"Df Pr(>Chisq)"的值小於.05，然後找出是否新模式中AIC和BIC的值比舊的統計模式還高。參考相關解釋

anova(glmm1, glmm1.new)

對於可接受度的漸層性研究有興趣的學者 (參考以上) 可能會需要以下的R程式碼。例如，要是我們想檢驗上面的實驗中明顯的漸層性，我們可以檢驗看看可接受度中等的[-C][+T]句型是否會和可接受度較高的[-C][-T]句型和可接受度最低的[+C][+T]句型在可接度上達到統計的顯著差異。一個檢視這個問題的方法是使用GLMM來分析這兩種比較，並觀察變因[C]是否在兩個比較中都有顯著效應。[C]在兩種比較中都有顯著效應的發生機率是非常低的(0.05)*(0.05) = 0.0025，因此非常不可能因意外造成。以下是分析所需的R程式碼（注意：這裡必須使用實際上的變因名稱而非MiniJudge所使用的名稱 "Factor1"）。

# Clear names associated with full data set
  detach(minexp)
# Create first subset (& = "and", "|" = "or")
  minexp.grad1 = subset(minexp, (ComplexNP==-1 & Topic== 1) |
   (ComplexNP== 1 & Topic==-1))
# Associate names with subset
  attach(minexp.grad1)
# Test for ComplexNP effect
  glmm1.grad1 = lmer(Judgment ~ ComplexNP + Order + (1|Speaker),
   data = minexp.grad1, family = "binomial", method = "Laplace")
# Show results
  glmm1.grad1
# Clear names associated with this subset
  detach(minexp.grad1)
# Create second subset (& = "and", "|" = "or")
  minexp.grad2 = subset(minexp, (ComplexNP== 1 & Topic== 1) |
    (ComplexNP== 1 & Topic== 1))
# Associate names with subset
  attach(minexp.grad2)
# Test for ComplexNP effect
  glmm1.grad2 = lmer(Judgment ~ ComplexNP + Order + (1|Speaker),
   data = minexp.grad2, family = "binomial", method = "Laplace")
# Show results
  glmm1.grad2
# Clear names associated with this subset
  detach(minexp.grad2)
# Re-associate names with full data set
  attach(minexp)

當以上的程式碼分析demo.txt 這個資料檔案時，兩種比較都達到了統計上的顯著性 (p < .01 for each)，這代表這個實驗所收集到的使用者判斷的確顯示出可接受度的漸層性。

MiniJudge 最新消息

目前MiniJudge唯一的版本是 MiniJudgeJS。我們仍在努力催生另一個以Java語言編寫的版本，這個版本將能夠真正的在視窗環境下執行並將提供滑鼠直接點選及下拉式選單等對於使用者更友善的功能（MiniJudgeJS2.0也將會有類似的功能）。為了使用更新版本的MiniJudge，安裝R仍然是必須的，但MiniJudge本身將會永遠免費並開放資源。

另一個與MiniJudge互補的語料庫分析程式MiniCorp也正在編寫中，雖然MiniCorp主要是為了分析音韻及構詞學的語料而設計。

參考資料

Agresti, A., Booth, J. G., Hobert, J. P., & Caffo, B. (2000). Random-effects modeling of categorical response data. Sociological Methodology, 30, 27-80.

Baayen, R. H. (2004). Statistics in psycholinguistics: A critique of some current gold standards. Mental Lexicon Working Papers, 1, 1-45. University of Alberta, Canada. Available at www.mpi.nl/world/persons/private/baayen/submitted/statistics.pdf

Bard, E. G., Robertson, D., & Sorace, A. (1996). Magnitude estimation of linguistic acceptability. Language, 72 (1), 32-68.

Chomsky, N. (1965). Aspects of the theory of syntax. Cambridge, MA: MIT Press.

Clark, H. (1973). The language-as-fixed-effect fallacy: A critique of language statistics in psychological research. Journal of Verbal Learning and Verbal Behavior, 12, 335-359.

Clifton, C., Fanselow, G., & Frazier, L. (2006). Amnestying superiority violations: Processing multiple questions. Linguistic Inquiry, 37, (1), 51-68.

Cowart, W. (1997). Experimental syntax: Applying objective methods to sentence judgments. London: Sage Publications.

Crawley, Micheal J. 2005. Statistics: An introduction using R. Wiley.

Featherston, S. (2005a). That-trace in German. Lingua, 115 (9), 1277-1302.

Featherston, S. (2005b). Magnitude estimation and what it can do for your syntax: Some wh-constraints in German. Lingua, 115 (11),1525-1550.

Fox, J. (2005). The R Commander: A basic-statistics graphical user interface to R. Journal of Statistical Software, 14 (9).

Goodall, G. (2004). On the syntax and processing of wh-questions in Spanish. B. Schmeiser, V. Chand, A. Kelleher, & A. Rodriguez (Eds.) WCCFL 23 Proceedings (pp. 101-114). Somerville, MA: Cascadilla Press.

Hiramatsu, K. (2000). Accessing linguistic competence: Evidence from children's and adults' acceptability judgements. Doctoral dissertation, University of Connecticut, Storrs.

Ioannidis, J. P. A. (2005). Why most published research findings are false. PLoS Medicine, 2 (8), e124. Available for free at http://www.plosmedicine.org/.

Johnson, K. (2004). Quantitative methods in linguistics. UC Berkeley ms. Available at http://corpus.linguistics.berkeley.edu/~kjohnson/quantitative/

Keller, F. (2000). Gradience in grammar: Experimental and computational aspects of degrees of grammaticality. PhD dissertation, University of Edinburgh.

Labov, W. (1996). When intuitions fail. L. McNair (Ed.) CLS 32: Papers from the Parasession on Theory and Data in Linguistics (pp. 77-105). University of Chicago.

Li, Y.-H. A. (1998). Argument determiner phrases and number phrases. Linguistic Inquiry, 29 (4), 693-702.

Luka, B. J., & Barsalou, L. W. (2005). Structural facilitation: Mere exposure effects for grammatical acceptability as evidence for syntactic priming in comprehension. Journal of Memory and Language, 52, 436-459.

Mayo, N., Corley, M., & Keller, F. (2005). WebExp2 experimenter's manual. Available online at http://www.webexp.info/.

McDaniel, D., & Cowart, W. (1999). Experimental evidence for a minimalist account of English resumptive pronouns. Cognition, 70, B15-B24.

Meinunger, A. (2001). Restrictions on verb raising. Linguistic Inquiry, 32, 732-740.

Mendoza-Denton, N., Hay, J., & Jannedy, S. (2003). Probabilistic sociolinguistics: Beyond variable rules. In R. Bod, J. Hay, & S. Jannedy (Eds.) Probabilistic linguistics (pp. 97-138). Cambridge, MA: MIT Press.

Montalbetti, M. M. (1984). After binding: On the interpretation of pronouns. MIT Ph.D. dissertation.

Myers, J. (2005, April). Empirical methods for rationalist linguistics. Presented at FOSS3, Tsinghua University, Taiwan. [Contains Chinese fonts, so non-Asian Acrobat Reader may choke on it]

Myers, J. (2006). An experiment in minimalist experimental syntax. National Chung Cheng University ms. Submitted.

Newmeyer, F. J. (1983). Grammatical theory, its limits and its possibilities. Chicago: University of Chicago Press.

Phillips, C., & Lasnik, H. (2003). Linguistics and empirical evidence: Reply to Edelman and Christiansen. Trends in Cognitive Science, 7 (2), 61-62.

Raaijmakers, J. G. W., Schrijnemakers, J. M. C., & Gremmen, F. (1999). How to deal with "the language-as-fixed-effect fallacy": Common misconceptions and alternative solutions. Journal of Memory and Language, 41, 416-426.

Rapp, I., & von Stechow, A. (1999). Fast. Handout from talk presented at ZAS/Berlin.

Rousseau, P., & Sankoff, D. (1978). A solution to the problem of grouping speakers. In D. Sankoff (Ed.), Linguistic variation: Models and methods (pp. 97-117). Academic Press.

Schütze, C. T. (1996). The empirical base of linguistics: Grammaticality judgments and linguistic methodology. Chicago: University of Chicago Press.

Snyder, W. (2000). An experimental investigation of syntactic satiation effects. Linguistic Inquiry, 31, 575-582.

Sorace, A., & Keller, F. (2005). Gradience in linguistic data. Lingua, 115, 1497-1524.

Sternberg, S. (1998). Discovering mental processing stages: The method of additive factors. In D. Scarborough and S. Sternberg (Eds.) An invitation to cognitive science, vol. 4: Methods, models, and conceptual issues (pp. 703-863). MIT Press.

若有關於程式的問題或建議請聯絡作者麥傑

中文化的問題請聯絡中文化作者：李盈興、柯昱光