METHODOLOGY

ELO Leaderboard
Prompt 排行榜方法論

說明 Uedu 平台如何透過 ELO 評分系統與盲測 A/B 比較，讓使用者評估不同 AI Prompt 的回應品質，類似 LM Arena / Chatbot Arena 的機制。

1. 概述

Uedu 的 Prompt 排行榜（ELO Leaderboard）是一個以 ELO 評分系統為核心的 Prompt 評估工具，靈感來自 LM Arena（原 Chatbot Arena）。使用者透過盲測 A/B 比較，評判兩個不同 Prompt 產生的 AI 回應孰優孰劣，系統據此動態調整每個 Prompt 的 ELO 分數。

此機制讓教師與學生能以群眾智慧（crowdsourced evaluation）的方式，找出最適合特定任務的 Prompt 設計，同時也為 Prompt Engineering 的研究提供量化數據。

2. ELO 評分系統

2.1 基本概念

ELO 評分系統最初用於西洋棋選手排名，核心概念是：每場對局後，根據實際結果與預期結果的差異調整雙方分數。勝方加分、敗方扣分，且「爆冷」的幅度更大。

2.2 系統參數

參數	值	說明
K 值	32	每場對局的最大分數變動量
初始分數	1500	新 Prompt 的起始 ELO 分數
最低對局數	30	Prompt 需累計至少 30 場盲測才會進入排行榜

3. 盲測比較流程

系統隨機選取兩個 Prompt（A 與 B），並隨機選擇一道問題
兩個 Prompt 分別生成 AI 回應，呈現給使用者
使用者不知道哪個回應來自哪個 Prompt（盲測）
使用者選擇：A 較好、B 較好、或平手（tie）
系統依據選擇結果更新雙方的 ELO 分數

為何採用盲測？

盲測消除了使用者對特定 Prompt 作者或名稱的偏見，確保評判純粹基於回應品質。這與學術研究中的雙盲實驗精神一致。

4. 數學公式

4.1 預期得分

在一場 A vs. B 的對局中，A 的預期得分（Expected Score）為：

E_A = 1 / (1 + 10^{(R_B - R_A) / 400})

其中 R_A、R_B 分別為 A 與 B 的當前 ELO 分數。同理，B 的預期得分 E_B = 1 - E_A。

4.2 分數更新

根據實際對局結果（actual score），更新 A 的 ELO 分數：

ΔR_A = K × (S_A - E_A)

其中 S_A 為 A 的實際得分：

結果	S_A	S_B
A 勝	1.0	0.0
B 勝	0.0	1.0
平手	0.5	0.5

4.3 計算範例

假設 Prompt A（ELO 1500）vs. Prompt B（ELO 1600），使用者選擇 A 勝（爆冷）：

E_A = 1 / (1 + 10^{(1600-1500)/400}) = 1 / (1 + 10^0.25) ≈ 0.36
ΔR_A = 32 × (1.0 - 0.36) = +20.5
ΔR_B = 32 × (0.0 - 0.64) = -20.5
新分數：A = 1520.5，B = 1579.5

由於 A 的預期勝率較低，爆冷獲勝時獲得較多加分。

5. 問題類型與標籤

5.1 問題類型

盲測使用的問題分為以下類型，確保 Prompt 在不同任務面向都被評估：

類型代碼	說明
`knowledge`	知識型問題（事實回答、概念解釋）
`coding`	程式設計問題（寫程式、除錯、解釋程式碼）
`writing`	寫作類問題（文章撰寫、潤稿、翻譯）
`reasoning`	推理問題（邏輯推演、數學、因果分析）
`creative`	創意問題（腦力激盪、故事創作、方案設計）

5.2 Prompt 標籤

每個 Prompt 可標記多個標籤，方便使用者篩選與研究者分析：

標籤	說明
`beginner_friendly`	適合初學者使用
`coding_expert`	擅長程式設計相關任務
`detailed`	傾向提供詳細完整的回應
`concise`	傾向提供簡潔精煉的回應
`academic`	適合學術研究場景

5.3 使用者人口統計

系統收集盲測參與者的基本人口統計資訊（user profiles），作為研究分析的背景變項，例如使用經驗、學科領域等。

6. 排名條件

為確保排名的可靠性，Prompt 需滿足以下條件才會出現在公開排行榜：

累計至少 30 場盲測對局
對局需來自不同使用者（避免單一使用者大量灌票）

未達門檻的 Prompt 仍會持續參與盲測配對，但其 ELO 分數標記為「暫定」，不列入正式排名。

30 場的統計依據

根據中央極限定理，30 次以上的獨立觀測可初步趨近常態分布，使 ELO 分數具有一定的統計穩定性。

7. 研究引用建議

方法論描述範本

AI Prompt 的品質評估採用 Uedu 平台的 ELO Leaderboard 模組，參考 LM Arena（Chatbot Arena）的盲測比較機制。系統隨機配對兩個 Prompt，分別生成 AI 回應後以盲測方式呈現給使用者，由使用者判定勝負或平手。ELO 評分參數為 K=32、初始分數 1500，依公式 E_A = 1/(1+10^{(R_B-R_A)/400}) 計算預期得分，再以 ΔR = K×(S-E) 更新分數。Prompt 需累計至少 30 場盲測方進入正式排名。盲測問題涵蓋知識、程式、寫作、推理與創意五種類型。詳細方法論說明見 https://uedu.tw/doc/leaderboard。

建議同時提供：

排行榜的 Prompt 數量與對局總數
盲測參與者人數與人口統計摘要
各問題類型的對局分布
資料收集期間

方法論文件

Bloom's Taxonomy· RAG 檢索增強· 知識圖譜· PALM 生理感知· 學習特質· 討論區評分· 互動作業· AI 出題· Prompt 排行榜· 學習側寫· 語意向量· 資料匯出· 蘇格拉底前後測· 辯論態度問卷

--

2

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定

ELO Leaderboard
Prompt 排行榜方法論

1. 概述

2. ELO 評分系統

2.1 基本概念

2.2 系統參數

3. 盲測比較流程

4. 數學公式

4.1 預期得分

4.2 分數更新

4.3 計算範例

5. 問題類型與標籤

5.1 問題類型

5.2 Prompt 標籤

5.3 使用者人口統計

6. 排名條件

7. 研究引用建議

uedu.tw

uedu.tw/fit

--

2

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定

ELO LeaderboardPrompt 排行榜方法論

1. 概述

2. ELO 評分系統

2.1 基本概念

2.2 系統參數

3. 盲測比較流程

4. 數學公式

4.1 預期得分

4.2 分數更新

4.3 計算範例

5. 問題類型與標籤

5.1 問題類型

5.2 Prompt 標籤

5.3 使用者人口統計

6. 排名條件

7. 研究引用建議

uedu.tw

uedu.tw/fit

ELO Leaderboard
Prompt 排行榜方法論