Home
學生控制台
註冊會員/登入
研究知情同意書
UeduGPTs
Aida 優學伴
Uedu Open
支援與訊息

UeduGPTs

--

Jupyters

2

AI 回覆桌面通知

AI 助教回覆完成時顯示桌面通知

聊天訊息通知

同學在討論區發送訊息時通知

聲音通知

每當有新通知時播放提示音

METHODOLOGY

ELO Leaderboard
Prompt 排行榜方法論

說明 Uedu 平台如何透過 ELO 評分系統與盲測 A/B 比較,讓使用者評估不同 AI Prompt 的回應品質,類似 LM Arena / Chatbot Arena 的機制。

1. 概述

Uedu 的 Prompt 排行榜(ELO Leaderboard)是一個以 ELO 評分系統為核心的 Prompt 評估工具,靈感來自 LM Arena(原 Chatbot Arena)。使用者透過盲測 A/B 比較,評判兩個不同 Prompt 產生的 AI 回應孰優孰劣,系統據此動態調整每個 Prompt 的 ELO 分數。

此機制讓教師與學生能以群眾智慧(crowdsourced evaluation)的方式,找出最適合特定任務的 Prompt 設計,同時也為 Prompt Engineering 的研究提供量化數據。

2. ELO 評分系統

2.1 基本概念

ELO 評分系統最初用於西洋棋選手排名,核心概念是:每場對局後,根據實際結果與預期結果的差異調整雙方分數。勝方加分、敗方扣分,且「爆冷」的幅度更大。

2.2 系統參數

參數說明
K 值32每場對局的最大分數變動量
初始分數1500新 Prompt 的起始 ELO 分數
最低對局數30Prompt 需累計至少 30 場盲測才會進入排行榜

3. 盲測比較流程

  1. 系統隨機選取兩個 Prompt(A 與 B),並隨機選擇一道問題
  2. 兩個 Prompt 分別生成 AI 回應,呈現給使用者
  3. 使用者不知道哪個回應來自哪個 Prompt(盲測)
  4. 使用者選擇:A 較好、B 較好、或平手(tie)
  5. 系統依據選擇結果更新雙方的 ELO 分數
為何採用盲測?

盲測消除了使用者對特定 Prompt 作者或名稱的偏見,確保評判純粹基於回應品質。這與學術研究中的雙盲實驗精神一致。

4. 數學公式

4.1 預期得分

在一場 A vs. B 的對局中,A 的預期得分(Expected Score)為:

EA = 1 / (1 + 10(RB - RA) / 400)

其中 RA、RB 分別為 A 與 B 的當前 ELO 分數。同理,B 的預期得分 EB = 1 - EA

4.2 分數更新

根據實際對局結果(actual score),更新 A 的 ELO 分數:

ΔRA = K × (SA - EA)

其中 SA 為 A 的實際得分:

結果SASB
A 勝1.00.0
B 勝0.01.0
平手0.50.5

4.3 計算範例

假設 Prompt A(ELO 1500)vs. Prompt B(ELO 1600),使用者選擇 A 勝(爆冷):

  • EA = 1 / (1 + 10(1600-1500)/400) = 1 / (1 + 100.25) ≈ 0.36
  • ΔRA = 32 × (1.0 - 0.36) = +20.5
  • ΔRB = 32 × (0.0 - 0.64) = -20.5
  • 新分數:A = 1520.5,B = 1579.5

由於 A 的預期勝率較低,爆冷獲勝時獲得較多加分。

5. 問題類型與標籤

5.1 問題類型

盲測使用的問題分為以下類型,確保 Prompt 在不同任務面向都被評估:

類型代碼說明
knowledge知識型問題(事實回答、概念解釋)
coding程式設計問題(寫程式、除錯、解釋程式碼)
writing寫作類問題(文章撰寫、潤稿、翻譯)
reasoning推理問題(邏輯推演、數學、因果分析)
creative創意問題(腦力激盪、故事創作、方案設計)

5.2 Prompt 標籤

每個 Prompt 可標記多個標籤,方便使用者篩選與研究者分析:

標籤說明
beginner_friendly適合初學者使用
coding_expert擅長程式設計相關任務
detailed傾向提供詳細完整的回應
concise傾向提供簡潔精煉的回應
academic適合學術研究場景

5.3 使用者人口統計

系統收集盲測參與者的基本人口統計資訊(user profiles),作為研究分析的背景變項,例如使用經驗、學科領域等。

6. 排名條件

為確保排名的可靠性,Prompt 需滿足以下條件才會出現在公開排行榜:

  • 累計至少 30 場盲測對局
  • 對局需來自不同使用者(避免單一使用者大量灌票)

未達門檻的 Prompt 仍會持續參與盲測配對,但其 ELO 分數標記為「暫定」,不列入正式排名。

30 場的統計依據

根據中央極限定理,30 次以上的獨立觀測可初步趨近常態分布,使 ELO 分數具有一定的統計穩定性。

7. 研究引用建議

方法論描述範本

AI Prompt 的品質評估採用 Uedu 平台的 ELO Leaderboard 模組,參考 LM Arena(Chatbot Arena)的盲測比較機制。系統隨機配對兩個 Prompt,分別生成 AI 回應後以盲測方式呈現給使用者,由使用者判定勝負或平手。ELO 評分參數為 K=32、初始分數 1500,依公式 EA = 1/(1+10(RB-RA)/400) 計算預期得分,再以 ΔR = K×(S-E) 更新分數。Prompt 需累計至少 30 場盲測方進入正式排名。盲測問題涵蓋知識、程式、寫作、推理與創意五種類型。詳細方法論說明見 https://uedu.tw/doc/leaderboard。

建議同時提供:

  • 排行榜的 Prompt 數量與對局總數
  • 盲測參與者人數與人口統計摘要
  • 各問題類型的對局分布
  • 資料收集期間