Spaces:

davidkim205
/

ko-bench

Sleeping

App Files Files Community

davidkim205 commited on Aug 14, 2024

Commit

174062d

1 Parent(s): 731e515

add claud-3-5 results

Browse files

Files changed (2) hide show

app.py +157 -48
ko_bench.csv +92 -88

app.py CHANGED Viewed

@@ -3,27 +3,43 @@ import pandas as pd
 import numpy as np
 import random
 import plotly.graph_objects as go
 file_result_score = 'ko_bench.csv'
 file_full_lb = 'mt_bench_240805.csv'
 # read csv
 df_result_score = pd.read_csv(file_result_score)
 df_full_lb = pd.read_csv(file_full_lb)
 # dataframe
 df = pd.DataFrame(df_result_score)
 df_rs = pd.DataFrame(df_result_score)
 df_full_lboard = pd.DataFrame(df_full_lb)
 df_full_lboard.replace('GPT-4-1106-preview', 'gpt-4-0125-preview', inplace=True) # MT-bench의 GPT-4-1106-preview 를  gpt-4-0125-preview로 변경
-models = df_full_lboard['Model'].unique() # 열 추가를 위한 models 리스트
 df_rs.replace("", np.nan, inplace=True)  # 모델별 turn1,2 score 합병
 def custom_mean(series):
     numeric_series = pd.to_numeric(series, errors='coerce') # 시리즈를 숫자로 변환
     return numeric_series.mean() if not numeric_series.isna().all() else np.nan # NaN이 아닌 값이 하나라도 있으면 평균 계산
@@ -34,7 +50,8 @@ def get_mt_bench(model): # 대소문자 무시하고 모델을 매칭하기 위
         return matching_rows['MT-bench (score)'].values[0]
     return ''
-def get_organization(model): # 대소문자 무시하고 모델을 매칭하기 위한 함수 정의
     if pd.Series(model).str.contains('mistral-large', case=False, regex=True).any():
         return 'Mistral'
     elif pd.Series(model).str.contains('koni-llama3-8b', case=False, regex=True).any():
@@ -44,13 +61,32 @@ def get_organization(model): # 대소문자 무시하고 모델을 매칭하기
     matching_rows = df_full_lboard[df_full_lboard['Model'].str.lower() == model_lower]
     if not matching_rows.empty:
         return matching_rows['Organization'].values[0]
-    return ''
 def get_license(model): # 대소문자 무시하고 모델을 매칭하기 위한 함수 정의
-    if pd.Series(model).str.contains('mistral-large', case=False, regex=True).any():
         return 'Apache-2.0'
     elif pd.Series(model).str.contains('koni-llama3-8b', case=False, regex=True).any():
         return 'llama3'
     model_lower = model.lower()
     matching_rows = df_full_lboard[df_full_lboard['Model'].str.lower() == model_lower]
@@ -58,10 +94,26 @@ def get_license(model): # 대소문자 무시하고 모델을 매칭하기 위
         return matching_rows['License'].values[0]
     return ''
 # dataframe_full
 df_full_rs = df_rs.copy()
-df_full_rs.rename(columns={'score': 'KO-Bench'}, inplace=True)
 df_full_rs = df_full_rs.drop(columns=['Coding', 'Extraction', 'Humanities', 'Math', 'Reasoning', 'Roleplay', 'STEM', 'Writing'])
 df_full_rs = df_full_rs.drop(columns=['turn']) # 모델별 turn1,2 score 합병
@@ -69,16 +121,16 @@ df_full_rs = df_full_rs.groupby(['model', 'judge_model']).agg({col: custom_mean
 df_full_rs = df_full_rs.round(2)
 df_full_rs.replace("", np.nan, inplace=True)
-df_full_rs['KO-Bench/openai'] = '' # KO-Bench/openai, KO-Bench/keval 열 추가
-df_full_rs['KO-Bench/keval'] = ''
 for idx, j_model in df_full_rs['judge_model'].items():
     if j_model == 'keval':
-        df_full_rs.at[idx, 'KO-Bench/keval'] = df_full_rs.at[idx, 'KO-Bench']
     else :
-        df_full_rs.at[idx, 'KO-Bench/openai'] = df_full_rs.at[idx, 'KO-Bench']
 df_full_rs = df_full_rs.drop(columns=['judge_model'])
-df_full_rs = df_full_rs.groupby(['model']).agg({col: custom_mean for col in df_full_rs.columns if col not in ['model']}).reset_index() # KO-Bench/openai, KO-Bench/keval 행 합병
 df_full_rs = df_full_rs.round(2)
 df_full_rs.replace("", np.nan, inplace=True)
@@ -87,17 +139,20 @@ df_full_rs['MT-Bench'] = df_full_rs['model'].apply(get_mt_bench)
 df_full_rs['MT-Bench'] = df_full_rs['MT-Bench'].str.replace('-', '', regex=False)
 df_full_rs['Organization'] = '' # Organization 열 추가
-df_full_rs['Organization'] = df_full_rs['model'].apply(get_organization)
 df_full_rs['License'] = '' # License 열 추가
 df_full_rs['License'] = df_full_rs['model'].apply(get_license)
-df_full_rs = df_full_rs.sort_values(by='KO-Bench', ascending=False)
 df_full_rs.insert(0, 'rank', range(1, len(df_full_rs) + 1))
-df_full_rs = df_full_rs.drop(columns=['KO-Bench'])
 plot_models = df_full_rs['model'].unique() # model detail view를 위한 models 리스트
 # dataframe
 df_rs['MT-Bench'] = ''  # MT-Bench 열 추가
@@ -115,6 +170,10 @@ df_openai = df_openai.drop(columns=['judge_model', 'turn']) # 모델별 turn1,2
 df_openai = df_openai.groupby('model').agg({col: custom_mean for col in df_openai.columns if col != 'model'}).reset_index()
 df_openai = df_openai.round(2)
 df_openai = df_openai.sort_values(by='score', ascending=False)
 df_openai.insert(0, 'rank', range(1, len(df_openai) + 1))
@@ -127,6 +186,10 @@ df_keval = df_keval.drop(columns=['judge_model', 'turn']) # 모델별 turn1,2 sc
 df_keval = df_keval.groupby('model').agg({col: custom_mean for col in df_keval.columns if col != 'model'}).reset_index()
 df_keval = df_keval.round(2)
 df_keval = df_keval.sort_values(by='score', ascending=False)
 df_keval.insert(0, 'rank', range(1, len(df_keval) + 1))
@@ -206,10 +269,13 @@ def radar_chart(categories, Top1_turn1, Top1_turn2, Selected_model_turn1, Select
     return fig
 def search_openai_plot(dropdown_model): # openai plot 함수 정의
-    condition1 = (df['judge_model'] != 'keval') & (df['turn'] == 1) & (df['model'] == df_openai.iat[0, df_openai.columns.get_loc('model')])
     top1_openai_turn1 = df.loc[condition1, 'Coding':'Writing'].values.tolist()
-    condition2 = (df['judge_model'] != 'keval') & (df['turn'] == 2) & (df['model'] == df_openai.iat[0, df_openai.columns.get_loc('model')])
     top1_openai_turn2 = df.loc[condition2, 'Coding':'Writing'].values.tolist()
     condition3 = (df['judge_model'] != 'keval') & (df['turn'] == 1) & (df['model'] == dropdown_model)
@@ -219,8 +285,8 @@ def search_openai_plot(dropdown_model): # openai plot 함수 정의
     openai_turn2 = df.loc[condition4, 'Coding':'Writing'].values.tolist()
     category_labels = []
-    category_labels.append(df_openai.iat[0, df_openai.columns.get_loc('model')] + "  /Turn 1")
-    category_labels.append(df_openai.iat[0, df_openai.columns.get_loc('model')] + "  /Turn 2")
     category_labels.append(dropdown_model + "  /Turn 1")
     category_labels.append(dropdown_model + "  /Turn 2")
@@ -228,10 +294,13 @@ def search_openai_plot(dropdown_model): # openai plot 함수 정의
     return fig
 def search_keval_plot(dropdown_model): # keval plot 함수 정의
-    condition1 = (df['judge_model'] == 'keval') & (df['turn'] == 1) & (df['model'] == df_keval.iat[0, df_keval.columns.get_loc('model')])
     top1_keval_turn1 = df.loc[condition1, 'Coding':'Writing'].values.tolist()
-    condition2 = (df['judge_model'] == 'keval') & (df['turn'] == 2) & (df['model'] == df_keval.iat[0, df_keval.columns.get_loc('model')])
     top1_keval_turn2 = df.loc[condition2, 'Coding':'Writing'].values.tolist()
     condition3 = (df['judge_model'] == 'keval') & (df['turn'] == 1) & (df['model'] == dropdown_model)
@@ -241,8 +310,8 @@ def search_keval_plot(dropdown_model): # keval plot 함수 정의
     keval_turn2 = df.loc[condition4, 'Coding':'Writing'].values.tolist()
     category_labels = []
-    category_labels.append(df_keval.iat[0, df_keval.columns.get_loc('model')] + " /Turn 1")
-    category_labels.append(df_keval.iat[0, df_keval.columns.get_loc('model')] + "  /Turn 2")
     category_labels.append(dropdown_model + "  /Turn 1")
     category_labels.append(dropdown_model + "  /Turn 2")
@@ -250,37 +319,77 @@ def search_keval_plot(dropdown_model): # keval plot 함수 정의
     return fig
 #gradio
-with gr.Blocks() as demo:
     gr.Markdown("")
-    gr.Markdown("# 🏆 KO-Bench Leaderboard")
     gr.Markdown("")
-    gr.Markdown("")
-    gr.Markdown("#### The Ko-bench is a leaderboard for evaluating the multi-level conversation ability and instruction-following ability of Korean Large Language Models (LLMs).")
     gr.Markdown("- MT-Bench: a set of challenging multi-turn questions. We use GPT-4 to grade the model responses.")
-    gr.Markdown("- KO-Bench/openai: a set of challenging multi-turn questions in Korean. We use GPT-4o to grade the model responses.")
-    gr.Markdown("- KO-Bench/keval: a set of challenging multi-turn questions in Korean. We use the keval model as an evaluation model.")
-    gr.Markdown("")
     gr.Markdown("")
     gr.Markdown("")
-    with gr.TabItem("KO-Bench"):
-        gr.Dataframe(value=df_full_rs)
-    with gr.TabItem("Openai Judgment"):
-        gr.Dataframe(value=df_openai)
-    with gr.TabItem("Keval Judgment"):
-        gr.Dataframe(value=df_keval)
-    with gr.TabItem("Model Detail View"):
-        with gr.Blocks():
             with gr.Row():
-                dropdown = gr.Dropdown(choices=plot_models_list, label="Choose a Model")
-            with gr.Row():
-                dataframe = gr.Dataframe(label="Model Detail View")
-                dropdown.change(fn=search_dataframe, inputs=dropdown, outputs=dataframe)
-            with gr.Row():
-                plot_openai = gr.Plot(label="Openai Plot")
-                dropdown.change(fn=search_openai_plot, inputs=dropdown, outputs=plot_openai)
-                plot_keval = gr.Plot(label="Keval Plot")
-                dropdown.change(fn=search_keval_plot, inputs=dropdown, outputs=plot_keval)
-demo.launch(share=True, server_name="0.0.0.0")

 import numpy as np
 import random
 import plotly.graph_objects as go
+from bs4 import BeautifulSoup
+import plotly.express as px
 file_result_score = 'ko_bench.csv'
 file_full_lb = 'mt_bench_240805.csv'
+def add_hf_link(row):
+    organization, model = row['model'].split('__')
+    if organization.lower() not in ['google', 'openai', 'anthropic']:
+        row['link'] = f"https://huggingface.co/{organization}/{model}"
+    if organization.lower() == 'google' and 'gemini' in model:
+        row['link'] = "https://ai.google.dev/gemini-api"
+    return row
 # read csv
 df_result_score = pd.read_csv(file_result_score)
 df_full_lb = pd.read_csv(file_full_lb)
 # dataframe
 df = pd.DataFrame(df_result_score)
+df['model'] = df['model'].str.split('__').str[1]
 df_rs = pd.DataFrame(df_result_score)
+df_rs['link'] = ''
+df_rs = df_rs.apply(add_hf_link, axis=1)
+df_rs['organization'] = df_rs['model'].str.split('__').str[0]
+df_rs['model'] = df_rs['model'].str.split('__').str[1]
 df_full_lboard = pd.DataFrame(df_full_lb)
 df_full_lboard.replace('GPT-4-1106-preview', 'gpt-4-0125-preview', inplace=True) # MT-bench의 GPT-4-1106-preview 를  gpt-4-0125-preview로 변경
 df_rs.replace("", np.nan, inplace=True)  # 모델별 turn1,2 score 합병
 def custom_mean(series):
+    if series.name == 'link' or series.name == 'organization':
+        return series.values[0]
     numeric_series = pd.to_numeric(series, errors='coerce') # 시리즈를 숫자로 변환
     return numeric_series.mean() if not numeric_series.isna().all() else np.nan # NaN이 아닌 값이 하나라도 있으면 평균 계산
         return matching_rows['MT-bench (score)'].values[0]
     return ''
+def get_organization(row): # 대소문자 무시하고 모델을 매칭하기 위한 함수 정의
+    model = row['model']
     if pd.Series(model).str.contains('mistral-large', case=False, regex=True).any():
         return 'Mistral'
     elif pd.Series(model).str.contains('koni-llama3-8b', case=False, regex=True).any():
     matching_rows = df_full_lboard[df_full_lboard['Model'].str.lower() == model_lower]
     if not matching_rows.empty:
         return matching_rows['Organization'].values[0]
+    if row['organization'] != '' and pd.notna(row['organization']):
+        organization = row['organization'].lower()
+        if organization == 'qwen':
+            return 'Alibaba'
+        elif organization == 'google':
+            return 'Google'
+        elif organization == 'lgai-exaone':
+            return 'LGAI'
+    return row['organization']
 def get_license(model): # 대소문자 무시하고 모델을 매칭하기 위한 함수 정의
+    if pd.Series(model).str.contains('mistral-large|WizardLM-2-8x22B|ko-gemma-2', case=False, regex=True).any():
         return 'Apache-2.0'
     elif pd.Series(model).str.contains('koni-llama3-8b', case=False, regex=True).any():
         return 'llama3'
+    elif pd.Series(model).str.contains('Ko-Llama-3-8B-Instruct', case=False, regex=True).any():
+        return 'Llama Community'
+    elif pd.Series(model).str.contains('claude|gemini|EXAONE-3.0-7.8B-Instruct', case=False, regex=True).any():
+        return 'Proprietary'
+    elif pd.Series(model).str.contains('qwen', case=False, regex=True).any():
+        if pd.Series(model).str.contains('max', case=False, regex=True).any():
+            return 'Proprietary'
+        else:
+            return 'Qianwen LICENSE'
     model_lower = model.lower()
     matching_rows = df_full_lboard[df_full_lboard['Model'].str.lower() == model_lower]
         return matching_rows['License'].values[0]
     return ''
+def get_link(row): # 대소문자 무시하고 모델을 매칭하기 위한 함수 정의
+    if row['link'] != '' and pd.notna(row['link']):
+        return row
+    model_lower = row['model'].lower()
+    matching_rows = df_full_lboard[df_full_lboard['key'].str.lower() == model_lower]
+    if not matching_rows.empty:
+        row['link'] = matching_rows['Link'].values[0]
+    return row
+def add_link(row):
+    if pd.isna(row['link']):
+        row['link'] = ''
+    if row['link'] != '':
+        row['model'] = f"<a href={row['link']}>{row['model']}</a>"
+    return row
 # dataframe_full
 df_full_rs = df_rs.copy()
+df_full_rs.rename(columns={'score': 'Ko-Bench'}, inplace=True)
 df_full_rs = df_full_rs.drop(columns=['Coding', 'Extraction', 'Humanities', 'Math', 'Reasoning', 'Roleplay', 'STEM', 'Writing'])
 df_full_rs = df_full_rs.drop(columns=['turn']) # 모델별 turn1,2 score 합병
 df_full_rs = df_full_rs.round(2)
 df_full_rs.replace("", np.nan, inplace=True)
+df_full_rs['Ko-Bench/openai'] = '' # Ko-Bench/openai, Ko-Bench/keval 열 추가
+df_full_rs['Ko-Bench/keval'] = ''
 for idx, j_model in df_full_rs['judge_model'].items():
     if j_model == 'keval':
+        df_full_rs.at[idx, 'Ko-Bench/keval'] = df_full_rs.at[idx, 'Ko-Bench']
     else :
+        df_full_rs.at[idx, 'Ko-Bench/openai'] = df_full_rs.at[idx, 'Ko-Bench']
 df_full_rs = df_full_rs.drop(columns=['judge_model'])
+df_full_rs = df_full_rs.groupby(['model']).agg({col: custom_mean for col in df_full_rs.columns if col not in ['model']}).reset_index() # Ko-Bench/openai, Ko-Bench/keval 행 합병
 df_full_rs = df_full_rs.round(2)
 df_full_rs.replace("", np.nan, inplace=True)
 df_full_rs['MT-Bench'] = df_full_rs['MT-Bench'].str.replace('-', '', regex=False)
 df_full_rs['Organization'] = '' # Organization 열 추가
+df_full_rs['Organization'] = df_full_rs.apply(get_organization, axis=1  )
 df_full_rs['License'] = '' # License 열 추가
 df_full_rs['License'] = df_full_rs['model'].apply(get_license)
+df_full_rs = df_full_rs.sort_values(by='Ko-Bench', ascending=False)
 df_full_rs.insert(0, 'rank', range(1, len(df_full_rs) + 1))
 plot_models = df_full_rs['model'].unique() # model detail view를 위한 models 리스트
+df_full_rs = df_full_rs.apply(get_link, axis=1)
+df_full_rs = df_full_rs.apply(add_link, axis=1)
+df_full_rs = df_full_rs.drop(columns=['Ko-Bench', 'link', 'organization'])
 # dataframe
 df_rs['MT-Bench'] = ''  # MT-Bench 열 추가
 df_openai = df_openai.groupby('model').agg({col: custom_mean for col in df_openai.columns if col != 'model'}).reset_index()
 df_openai = df_openai.round(2)
+df_openai = df_openai.apply(get_link, axis=1)
+df_openai = df_openai.apply(add_link, axis=1)
+df_openai = df_openai.drop(columns=['link', 'organization'])
 df_openai = df_openai.sort_values(by='score', ascending=False)
 df_openai.insert(0, 'rank', range(1, len(df_openai) + 1))
 df_keval = df_keval.groupby('model').agg({col: custom_mean for col in df_keval.columns if col != 'model'}).reset_index()
 df_keval = df_keval.round(2)
+df_keval = df_keval.apply(get_link, axis=1)
+df_keval = df_keval.apply(add_link, axis=1)
+df_keval = df_keval.drop(columns=['link', 'organization'])
 df_keval = df_keval.sort_values(by='score', ascending=False)
 df_keval.insert(0, 'rank', range(1, len(df_keval) + 1))
     return fig
 def search_openai_plot(dropdown_model): # openai plot 함수 정의
+    openai_top_model = df_openai.iat[0, df_openai.columns.get_loc('model')]
+    openai_top_model = BeautifulSoup(openai_top_model, 'html.parser').get_text()
+    condition1 = (df['judge_model'] != 'keval') & (df['turn'] == 1) & (df['model'] == openai_top_model)
     top1_openai_turn1 = df.loc[condition1, 'Coding':'Writing'].values.tolist()
+    condition2 = (df['judge_model'] != 'keval') & (df['turn'] == 2) & (df['model'] == openai_top_model)
     top1_openai_turn2 = df.loc[condition2, 'Coding':'Writing'].values.tolist()
     condition3 = (df['judge_model'] != 'keval') & (df['turn'] == 1) & (df['model'] == dropdown_model)
     openai_turn2 = df.loc[condition4, 'Coding':'Writing'].values.tolist()
     category_labels = []
+    category_labels.append(openai_top_model + "  /Turn 1")
+    category_labels.append(openai_top_model + "  /Turn 2")
     category_labels.append(dropdown_model + "  /Turn 1")
     category_labels.append(dropdown_model + "  /Turn 2")
     return fig
 def search_keval_plot(dropdown_model): # keval plot 함수 정의
+    keval_top_model = df_keval.iat[0, df_keval.columns.get_loc('model')]
+    keval_top_model = BeautifulSoup(keval_top_model, 'html.parser').get_text()
+    condition1 = (df['judge_model'] == 'keval') & (df['turn'] == 1) & (df['model'] == keval_top_model)
     top1_keval_turn1 = df.loc[condition1, 'Coding':'Writing'].values.tolist()
+    condition2 = (df['judge_model'] == 'keval') & (df['turn'] == 2) & (df['model'] == keval_top_model)
     top1_keval_turn2 = df.loc[condition2, 'Coding':'Writing'].values.tolist()
     condition3 = (df['judge_model'] == 'keval') & (df['turn'] == 1) & (df['model'] == dropdown_model)
     keval_turn2 = df.loc[condition4, 'Coding':'Writing'].values.tolist()
     category_labels = []
+    category_labels.append(keval_top_model + " /Turn 1")
+    category_labels.append(keval_top_model + "  /Turn 2")
     category_labels.append(dropdown_model + "  /Turn 1")
     category_labels.append(dropdown_model + "  /Turn 2")
     return fig
+# average
+def plot_average():
+    fig = go.Figure()
+    colors = [px.colors.qualitative.Set2, px.colors.qualitative.Pastel2]
+    turn_df = df_full_rs
+    # gpt-4o
+    fig.add_trace(go.Scatter(x=turn_df['model'], y=turn_df['Ko-Bench/openai'], mode='lines+markers',
+                             name=f'gpt-4o(Average)',
+                             line=dict(color=colors[0][0], dash='dash'),
+                             marker=dict(symbol='x', size=10)))
+    # keval
+    fig.add_trace(go.Scatter(x=turn_df['model'], y=turn_df['Ko-Bench/keval'], mode='lines+markers',
+                             name=f'keval(Average)',
+                             line=dict(color=colors[0][1]),
+                             marker=dict(symbol='circle', size=10)))
+    fig.update_layout(
+        title=f'Comparison of OpenAI ko_bench and keval ko_bench (Average)',
+        xaxis_title='Model',
+        yaxis_title='Score',
+        legend_title='Metric',
+        hovermode='x unified',
+        template='plotly_white'
+    )
+    fig.update_yaxes(range=[0, 10])
+    fig.update_layout(legend_traceorder="reversed")
+    return fig
 #gradio
+with gr.Blocks(css='assets/leaderboard.css') as demo:
     gr.Markdown("")
+    gr.Markdown("# 🏆 Ko-Bench Leaderboard")
     gr.Markdown("")
+    gr.Markdown("#### The Ko-Bench is a leaderboard for evaluating the multi-level conversation ability and instruction-following ability of Korean Large Language Models (LLMs).")
     gr.Markdown("- MT-Bench: a set of challenging multi-turn questions. We use GPT-4 to grade the model responses.")
+    gr.Markdown("- Ko-Bench/openai: a set of challenging multi-turn questions in Korean. We use GPT-4o to grade the model responses.")
+    gr.Markdown("- Ko-Bench/keval: a set of challenging multi-turn questions in Korean. We use the keval model as an evaluation model.")
     gr.Markdown("")
+    gr.Markdown("github : https://github.com/davidkim205/Ko-Bench")
+    gr.Markdown("keval : https://huggingface.co/collections/davidkim205/k-eval-6660063dd66e21cbdcc4fbf1")
     gr.Markdown("")
+    with gr.Row():
+        with gr.TabItem("Ko-Bench"):
+            gr.Dataframe(value=df_full_rs,
+                         datatype=['html' if col == 'model' else 'markdown' for col in df_full_rs.columns])
             with gr.Row():
+                with gr.TabItem("Average"):
+                    gr.Plot(plot_average)
+        with gr.TabItem("Openai Judgment"):
+            gr.Dataframe(value=df_openai,
+                         datatype=['html' if col == 'model' else 'markdown' for col in df_openai.columns])
+        with gr.TabItem("Keval Judgment"):
+            gr.Dataframe(value=df_keval,
+                         datatype=['html' if col == 'model' else 'markdown' for col in df_keval.columns])
+        with gr.TabItem("Model Detail View"):
+            with gr.Blocks():
+                with gr.Row():
+                    dropdown = gr.Dropdown(choices=plot_models_list, label="Choose a Model")
+                with gr.Row():
+                    dataframe = gr.Dataframe(label="Model Detail View")
+                    dropdown.change(fn=search_dataframe, inputs=dropdown, outputs=dataframe)
+                with gr.Row():
+                    plot_openai = gr.Plot(label="Openai Plot")
+                    dropdown.change(fn=search_openai_plot, inputs=dropdown, outputs=plot_openai)
+                    plot_keval = gr.Plot(label="Keval Plot")
+                    dropdown.change(fn=search_keval_plot, inputs=dropdown, outputs=plot_keval)
+demo.launch(share=True, server_name="0.0.0.0", debug=True)

ko_bench.csv CHANGED Viewed

@@ -1,89 +1,93 @@
 judge_model,turn,model,score,Coding,Extraction,Humanities,Math,Reasoning,Roleplay,STEM,Writing
-gpt-4o,1,GPT-4o-2024-05-13,9.4,8.7,9.6,9.6,9.9,9.0,9.2,9.7,9.3
-gpt-4o,1,gpt-4-0125-preview,8.9,7.7,9.8,9.1,9.7,7.8,9.2,8.7,9.4
-gpt-4o,1,GPT-4o-mini-2024-07-18,8.8,7.3,9.2,9.4,10.0,6.9,8.7,9.6,9.1
-gpt-4o,1,claude-3-5-sonnet-20240620,8.6,8.1,9.7,9.3,8.7,5.8,8.2,9.4,9.5
-gpt-4o,1,Mistral-Large-Instruct-2407,8.5,6.8,8.9,8.7,9.6,6.6,8.5,9.2,9.5
-gpt-4o,1,Qwen2-72B-Instruct,8.3,5.1,9.7,8.9,7.5,7.9,8.8,9.2,9.3
-gpt-4o,1,gemma-2-27b-it,8.3,6.8,9.4,9.5,7.9,5.4,9.0,9.0,9.2
-gpt-4o,1,gemini-1.5-pro,8.2,5.5,9.7,8.7,7.5,6.5,9.1,9.4,9.2
-gpt-4o,1,ko-gemma-2-9b-it,7.8,6.6,9.0,8.4,6.7,6.2,8.1,8.9,8.7
-gpt-4o,1,gemma-2-9b-it,7.7,6.2,9.3,8.8,5.4,5.4,8.8,8.8,8.7
-gpt-4o,1,WizardLM-2-8x22B,7.4,6.8,6.8,7.8,8.7,4.8,7.2,8.4,8.7
-gpt-4o,1,gpt-3.5-turbo-0125,6.7,5.2,9.0,7.7,6.4,3.3,7.2,6.5,8.6
-gpt-4o,1,Meta-Llama-3.1-70B-Instruct,6.6,6.4,8.7,8.0,4.5,4.0,7.9,7.4,5.9
-gpt-4o,1,Qwen2-7B-Instruct,6.5,3.9,9.0,8.0,5.6,3.6,7.0,6.6,8.2
-gpt-4o,1,EXAONE-3.0-7.8B-Instruct,6.2,4.9,7.4,7.1,7.3,5.1,6.4,4.1,7.6
-gpt-4o,1,Qwen1.5-32B-Chat,6.1,4.0,8.6,8.5,4.7,2.6,6.3,7.5,6.7
-gpt-4o,1,KONI-Llama3-8B-Instruct-20240729,5.8,3.5,5.0,8.5,5.4,3.2,5.4,7.5,7.6
-gpt-4o,1,Ko-Llama-3-8B-Instruct,5.7,4.6,7.0,7.7,2.8,2.5,6.2,6.9,7.6
-gpt-4o,1,Meta-Llama-3.1-8B-Instruct,5.4,4.6,7.4,6.3,5.2,3.3,5.2,5.4,6.0
-gpt-4o,1,Qwen1.5-14B-Chat,5.4,3.3,7.2,6.8,4.2,2.0,5.7,6.7,7.2
-gpt-4o,1,WizardLM-13B-V1.2,4.8,3.4,8.2,6.1,2.2,3.4,5.0,4.3,6.1
-gpt-4o,1,Mistral-7B-Instruct-v0.2,2.6,3.0,3.7,2.0,1.7,1.3,4.5,1.4,3.1
-gpt-4o,2,GPT-4o-2024-05-13,8.3,7.9,8.9,9.2,8.1,7.0,8.9,8.7,7.5
-gpt-4o,2,gpt-4-0125-preview,8.0,7.2,8.5,8.9,6.8,7.3,8.7,8.1,8.6
-gpt-4o,2,GPT-4o-mini-2024-07-18,7.6,6.2,7.6,9.1,7.8,4.6,8.2,9.0,8.3
-gpt-4o,2,Mistral-Large-Instruct-2407,7.2,6.5,8.8,7.5,7.9,4.7,7.3,7.2,7.6
-gpt-4o,2,gemma-2-27b-it,7.0,6.4,7.6,9.0,5.4,5.1,7.9,7.4,7.4
-gpt-4o,2,gemini-1.5-pro,7.0,6.3,7.7,8.3,6.1,5.0,8.5,7.8,6.5
-gpt-4o,2,claude-3-5-sonnet-20240620,6.9,6.0,9.0,7.3,6.2,5.8,7.3,6.5,7.5
-gpt-4o,2,Qwen2-72B-Instruct,6.9,5.5,8.4,8.7,5.3,4.4,7.9,7.4,7.6
-gpt-4o,2,ko-gemma-2-9b-it,6.4,5.7,6.9,8.5,5.6,4.3,7.3,6.6,6.5
-gpt-4o,2,WizardLM-2-8x22B,6.4,6.0,8.2,7.2,6.1,4.1,7.0,6.8,5.5
-gpt-4o,2,gemma-2-9b-it,6.2,4.8,7.6,8.3,4.9,3.9,7.0,7.4,6.1
-gpt-4o,2,Qwen1.5-32B-Chat,5.8,4.3,8.2,7.6,3.8,3.0,6.8,5.9,6.9
-gpt-4o,2,Meta-Llama-3.1-70B-Instruct,5.7,5.5,8.0,7.4,3.6,2.9,6.6,5.7,5.7
-gpt-4o,2,EXAONE-3.0-7.8B-Instruct,5.6,5.8,6.2,5.5,7.0,4.0,5.7,4.3,6.5
-gpt-4o,2,gpt-3.5-turbo-0125,5.4,5.8,5.7,7.2,4.4,3.0,6.6,4.4,6.4
-gpt-4o,2,Qwen2-7B-Instruct,5.3,5.0,7.0,6.6,5.1,2.7,5.6,4.8,5.9
-gpt-4o,2,Qwen1.5-14B-Chat,4.9,3.5,5.1,7.4,4.1,2.7,5.9,5.0,5.9
-gpt-4o,2,KONI-Llama3-8B-Instruct-20240729,4.5,3.3,3.8,7.6,4.9,2.1,5.6,5.7,3.3
-gpt-4o,2,Mistral-7B-Instruct-v0.2,4.5,3.9,4.4,6.8,2.2,2.4,6.2,5.6,4.6
-gpt-4o,2,Ko-Llama-3-8B-Instruct,4.0,3.7,4.3,6.4,2.8,2.3,4.9,4.0,4.1
-gpt-4o,2,Meta-Llama-3.1-8B-Instruct,3.9,4.1,5.0,4.8,3.8,2.1,4.0,3.5,3.6
-gpt-4o,2,WizardLM-13B-V1.2,3.0,2.6,3.5,3.6,1.8,2.3,3.7,3.3,2.8
-keval,1,GPT-4o-2024-05-13,9.1,7.8,9.5,9.6,9.9,8.8,8.7,9.3,9.2
-keval,1,gpt-4-0125-preview,8.8,7.7,9.6,9.2,9.8,7.5,8.2,9.5,9.2
-keval,1,GPT-4o-mini-2024-07-18,8.7,7.8,8.2,9.3,10.0,6.9,8.8,9.7,9.2
-keval,1,claude-3-5-sonnet-20240620,8.4,8.1,9.8,8.7,8.3,5.8,7.9,9.2,9.0
-keval,1,Mistral-Large-Instruct-2407,8.2,6.3,7.9,8.9,9.6,6.4,8.2,9.5,9.2
-keval,1,gemini-1.5-pro,8.2,5.7,9.8,8.8,7.4,6.2,9.1,9.7,9.0
-keval,1,gemma-2-27b-it,8.1,5.9,9.3,9.4,7.4,5.7,8.9,9.0,9.0
-keval,1,Qwen2-72B-Instruct,8.0,5.0,9.2,8.8,8.6,6.9,7.7,9.1,9.0
-keval,1,ko-gemma-2-9b-it,7.8,5.9,9.4,8.5,6.0,6.3,8.2,9.0,8.9
-keval,1,gemma-2-9b-it,7.6,6.7,8.8,8.5,5.2,5.5,9.0,8.6,8.5
-keval,1,Meta-Llama-3.1-70B-Instruct,7.3,6.8,9.0,8.3,5.9,5.1,8.4,8.0,7.1
-keval,1,Qwen1.5-14B-Chat,7.2,4.7,9.7,8.8,4.5,4.8,8.1,8.9,8.4
-keval,1,EXAONE-3.0-7.8B-Instruct,7.2,5.7,8.8,8.1,8.2,6.0,7.7,5.6,7.3
-keval,1,WizardLM-2-8x22B,7.1,6.1,5.6,7.9,8.8,5.9,6.5,8.7,7.1
-keval,1,Qwen1.5-32B-Chat,7.0,3.9,9.9,8.9,5.8,3.6,7.1,8.6,7.9
-keval,1,gpt-3.5-turbo-0125,6.9,5.6,8.9,7.7,6.4,3.2,7.4,7.5,8.6
-keval,1,KONI-Llama3-8B-Instruct-20240729,6.8,3.4,8.6,8.5,5.5,4.1,6.9,8.8,8.4
-keval,1,Qwen2-7B-Instruct,6.4,3.6,9.0,7.7,5.5,3.5,7.1,6.7,8.4
-keval,1,Meta-Llama-3.1-8B-Instruct,6.3,4.3,8.9,7.7,5.3,3.3,7.3,6.0,7.5
-keval,1,Ko-Llama-3-8B-Instruct,6.0,5.0,7.4,7.6,2.9,2.9,7.0,8.0,7.6
-keval,1,WizardLM-13B-V1.2,6.0,3.7,9.3,7.7,2.4,3.8,7.0,6.6,7.7
-keval,1,Mistral-7B-Instruct-v0.2,3.0,3.0,6.7,3.0,2.0,2.0,3.3,1.9,2.4
-keval,2,GPT-4o-2024-05-13,8.1,7.7,8.9,9.2,7.8,6.9,8.4,8.7,7.4
-keval,2,gpt-4-0125-preview,7.7,6.3,8.4,8.8,6.9,6.3,8.6,8.6,8.0
-keval,2,GPT-4o-mini-2024-07-18,7.4,6.8,7.6,8.7,7.7,4.3,7.8,8.4,7.8
-keval,2,Mistral-Large-Instruct-2407,7.0,5.4,7.3,8.5,7.3,5.2,7.9,7.8,6.9
-keval,2,Qwen2-72B-Instruct,7.0,6.2,7.5,8.7,5.5,5.3,7.5,6.9,8.1
-keval,2,gemma-2-27b-it,6.9,6.6,7.0,8.9,5.5,5.0,7.6,6.9,7.3
-keval,2,claude-3-5-sonnet-20240620,6.8,6.2,8.4,7.8,5.4,5.1,7.0,7.3,7.5
-keval,2,WizardLM-2-8x22B,6.6,5.6,7.6,7.9,6.3,4.9,6.9,7.4,6.3
-keval,2,gemini-1.5-pro,6.5,5.2,6.9,8.4,6.0,4.8,8.1,7.3,5.4
-keval,2,ko-gemma-2-9b-it,6.4,5.1,6.6,8.9,6.0,4.0,7.2,6.8,6.7
-keval,2,gemma-2-9b-it,6.3,5.2,7.7,8.7,4.6,4.0,7.8,6.8,5.4
-keval,2,EXAONE-3.0-7.8B-Instruct,6.2,5.9,7.0,6.4,6.7,4.3,7.6,4.2,7.8
-keval,2,Qwen1.5-32B-Chat,6.2,5.2,7.7,8.0,4.1,4.0,7.7,6.7,6.5
-keval,2,Qwen1.5-14B-Chat,6.0,4.7,6.9,7.9,4.8,3.8,7.2,6.3,6.7
-keval,2,Meta-Llama-3.1-70B-Instruct,6.0,6.0,7.3,7.6,5.6,2.9,7.0,6.2,5.6
-keval,2,Qwen2-7B-Instruct,5.6,4.9,7.0,6.5,5.1,3.1,6.3,5.0,6.5
-keval,2,KONI-Llama3-8B-Instruct-20240729,5.5,4.6,4.9,6.7,5.9,3.2,6.9,6.8,5.2
-keval,2,gpt-3.5-turbo-0125,5.3,6.2,5.5,7.0,4.5,3.3,6.2,4.5,5.4
-keval,2,Meta-Llama-3.1-8B-Instruct,4.8,5.0,6.0,5.5,4.4,2.6,5.9,5.0,4.4
-keval,2,Ko-Llama-3-8B-Instruct,4.2,3.6,4.6,6.3,2.8,2.2,6.1,3.7,4.3
-keval,2,WizardLM-13B-V1.2,4.1,3.7,5.4,5.8,2.8,3.0,5.6,3.3,3.4
-keval,2,Mistral-7B-Instruct-v0.2,4.1,3.5,6.1,6.3,2.6,2.2,3.5,3.2,5.5

 judge_model,turn,model,score,Coding,Extraction,Humanities,Math,Reasoning,Roleplay,STEM,Writing
+gpt-4o,1,openai__GPT-4o-2024-05-13,9.4,8.7,9.6,9.6,9.9,9.0,9.2,9.7,9.3
+gpt-4o,1,Anthropic__claude-3-5-sonnet-20240620,9.0,6.7,9.5,9.2,9.6,9.3,8.7,9.8,9.0
+gpt-4o,1,openai__gpt-4-0125-preview,8.9,7.7,9.8,9.1,9.7,7.8,9.2,8.7,9.4
+gpt-4o,1,openai__GPT-4o-mini-2024-07-18,8.8,7.3,9.2,9.4,10.0,6.9,8.7,9.6,9.1
+gpt-4o,1,Anthropic__claude-3-opus-20240229,8.6,8.1,9.7,9.3,8.7,5.8,8.2,9.4,9.5
+gpt-4o,1,mistralai__Mistral-Large-Instruct-2407,8.5,6.8,8.9,8.7,9.6,6.6,8.5,9.2,9.5
+gpt-4o,1,Qwen__Qwen2-72B-Instruct,8.3,5.1,9.7,8.9,7.5,7.9,8.8,9.2,9.3
+gpt-4o,1,google__gemma-2-27b-it,8.3,6.8,9.4,9.5,7.9,5.4,9.0,9.0,9.2
+gpt-4o,1,google__gemini-1.5-pro,8.2,5.5,9.7,8.7,7.5,6.5,9.1,9.4,9.2
+gpt-4o,1,davidkim205__ko-gemma-2-9b-it,7.8,6.6,9.0,8.4,6.7,6.2,8.1,8.9,8.7
+gpt-4o,1,google__gemma-2-9b-it,7.7,6.2,9.3,8.8,5.4,5.4,8.8,8.8,8.7
+gpt-4o,1,alpindale__WizardLM-2-8x22B,7.4,6.8,6.8,7.8,8.7,4.8,7.2,8.4,8.7
+gpt-4o,1,openai__gpt-3.5-turbo-0125,6.7,5.2,9.0,7.7,6.4,3.3,7.2,6.5,8.6
+gpt-4o,1,meta-llama__Meta-Llama-3.1-70B-Instruct,6.6,6.4,8.7,8.0,4.5,4.0,7.9,7.4,5.9
+gpt-4o,1,Qwen__Qwen2-7B-Instruct,6.5,3.9,9.0,8.0,5.6,3.6,7.0,6.6,8.2
+gpt-4o,1,LGAI-EXAONE__EXAONE-3.0-7.8B-Instruct,6.2,4.9,7.4,7.1,7.3,5.1,6.4,4.1,7.6
+gpt-4o,1,Qwen__Qwen1.5-32B-Chat,6.1,4.0,8.6,8.5,4.7,2.6,6.3,7.5,6.7
+gpt-4o,1,KISTI-KONI__KONI-Llama3-8B-Instruct-20240729,5.8,3.5,5.0,8.5,5.4,3.2,5.4,7.5,7.6
+gpt-4o,1,davidkim205__Ko-Llama-3-8B-Instruct,5.7,4.6,7.0,7.7,2.8,2.5,6.2,6.9,7.6
+gpt-4o,1,meta-llama__Meta-Llama-3.1-8B-Instruct,5.4,4.6,7.4,6.3,5.2,3.3,5.2,5.4,6.0
+gpt-4o,1,Qwen__Qwen1.5-14B-Chat,5.4,3.3,7.2,6.8,4.2,2.0,5.7,6.7,7.2
+gpt-4o,1,WizardLMTeam__WizardLM-13B-V1.2,4.8,3.4,8.2,6.1,2.2,3.4,5.0,4.3,6.1
+gpt-4o,1,mistralai__Mistral-7B-Instruct-v0.2,2.6,3.0,3.7,2.0,1.7,1.3,4.5,1.4,3.1
+gpt-4o,2,openai__GPT-4o-2024-05-13,8.3,7.9,8.9,9.2,8.1,7.0,8.9,8.7,7.5
+gpt-4o,2,openai__gpt-4-0125-preview,8.0,7.2,8.5,8.9,6.8,7.3,8.7,8.1,8.6
+gpt-4o,2,Anthropic__claude-3-5-sonnet-20240620,7.9,6.9,9.1,9.0,6.4,6.9,8.1,8.2,8.4
+gpt-4o,2,openai__GPT-4o-mini-2024-07-18,7.6,6.2,7.6,9.1,7.8,4.6,8.2,9.0,8.3
+gpt-4o,2,mistralai__Mistral-Large-Instruct-2407,7.2,6.5,8.8,7.5,7.9,4.7,7.3,7.2,7.6
+gpt-4o,2,google__gemma-2-27b-it,7.0,6.4,7.6,9.0,5.4,5.1,7.9,7.4,7.4
+gpt-4o,2,google__gemini-1.5-pro,7.0,6.3,7.7,8.3,6.1,5.0,8.5,7.8,6.5
+gpt-4o,2,Anthropic__claude-3-opus-20240229,6.9,6.0,9.0,7.3,6.2,5.8,7.3,6.5,7.5
+gpt-4o,2,Qwen__Qwen2-72B-Instruct,6.9,5.5,8.4,8.7,5.3,4.4,7.9,7.4,7.6
+gpt-4o,2,davidkim205__ko-gemma-2-9b-it,6.4,5.7,6.9,8.5,5.6,4.3,7.3,6.6,6.5
+gpt-4o,2,alpindale__WizardLM-2-8x22B,6.4,6.0,8.2,7.2,6.1,4.1,7.0,6.8,5.5
+gpt-4o,2,google__gemma-2-9b-it,6.2,4.8,7.6,8.3,4.9,3.9,7.0,7.4,6.1
+gpt-4o,2,Qwen__Qwen1.5-32B-Chat,5.8,4.3,8.2,7.6,3.8,3.0,6.8,5.9,6.9
+gpt-4o,2,meta-llama__Meta-Llama-3.1-70B-Instruct,5.7,5.5,8.0,7.4,3.6,2.9,6.6,5.7,5.7
+gpt-4o,2,LGAI-EXAONE__EXAONE-3.0-7.8B-Instruct,5.6,5.8,6.2,5.5,7.0,4.0,5.7,4.3,6.5
+gpt-4o,2,openai__gpt-3.5-turbo-0125,5.4,5.8,5.7,7.2,4.4,3.0,6.6,4.4,6.4
+gpt-4o,2,Qwen__Qwen2-7B-Instruct,5.3,5.0,7.0,6.6,5.1,2.7,5.6,4.8,5.9
+gpt-4o,2,Qwen__Qwen1.5-14B-Chat,4.9,3.5,5.1,7.4,4.1,2.7,5.9,5.0,5.9
+gpt-4o,2,KISTI-KONI__KONI-Llama3-8B-Instruct-20240729,4.5,3.3,3.8,7.6,4.9,2.1,5.6,5.7,3.3
+gpt-4o,2,mistralai__Mistral-7B-Instruct-v0.2,4.5,3.9,4.4,6.8,2.2,2.4,6.2,5.6,4.6
+gpt-4o,2,davidkim205__Ko-Llama-3-8B-Instruct,4.0,3.7,4.3,6.4,2.8,2.3,4.9,4.0,4.1
+gpt-4o,2,meta-llama__Meta-Llama-3.1-8B-Instruct,3.9,4.1,5.0,4.8,3.8,2.1,4.0,3.5,3.6
+gpt-4o,2,WizardLMTeam__WizardLM-13B-V1.2,3.0,2.6,3.5,3.6,1.8,2.3,3.7,3.3,2.8
+keval,1,openai__GPT-4o-2024-05-13,9.1,7.8,9.5,9.6,9.9,8.8,8.7,9.3,9.2
+keval,1,Anthropic__claude-3-5-sonnet-20240620,9.0,7.2,9.8,9.2,9.3,9.2,8.9,9.4,9.0
+keval,1,openai__gpt-4-0125-preview,8.8,7.7,9.6,9.2,9.8,7.5,8.2,9.5,9.2
+keval,1,openai__GPT-4o-mini-2024-07-18,8.7,7.8,8.2,9.3,10.0,6.9,8.8,9.7,9.2
+keval,1,Anthropic__claude-3-opus-20240229,8.4,8.1,9.8,8.7,8.3,5.8,7.9,9.2,9.0
+keval,1,mistralai__Mistral-Large-Instruct-2407,8.2,6.3,7.9,8.9,9.6,6.4,8.2,9.5,9.2
+keval,1,google__gemini-1.5-pro,8.2,5.7,9.8,8.8,7.4,6.2,9.1,9.7,9.0
+keval,1,google__gemma-2-27b-it,8.1,5.9,9.3,9.4,7.4,5.7,8.9,9.0,9.0
+keval,1,Qwen__Qwen2-72B-Instruct,8.0,5.0,9.2,8.8,8.6,6.9,7.7,9.1,9.0
+keval,1,davidkim205__ko-gemma-2-9b-it,7.8,5.9,9.4,8.5,6.0,6.3,8.2,9.0,8.9
+keval,1,google__gemma-2-9b-it,7.6,6.7,8.8,8.5,5.2,5.5,9.0,8.6,8.5
+keval,1,meta-llama__Meta-Llama-3.1-70B-Instruct,7.3,6.8,9.0,8.3,5.9,5.1,8.4,8.0,7.1
+keval,1,Qwen__Qwen1.5-14B-Chat,7.2,4.7,9.7,8.8,4.5,4.8,8.1,8.9,8.4
+keval,1,LGAI-EXAONE__EXAONE-3.0-7.8B-Instruct,7.2,5.7,8.8,8.1,8.2,6.0,7.7,5.6,7.3
+keval,1,alpindale__WizardLM-2-8x22B,7.1,6.1,5.6,7.9,8.8,5.9,6.5,8.7,7.1
+keval,1,Qwen__Qwen1.5-32B-Chat,7.0,3.9,9.9,8.9,5.8,3.6,7.1,8.6,7.9
+keval,1,openai__gpt-3.5-turbo-0125,6.9,5.6,8.9,7.7,6.4,3.2,7.4,7.5,8.6
+keval,1,KISTI-KONI__KONI-Llama3-8B-Instruct-20240729,6.8,3.4,8.6,8.5,5.5,4.1,6.9,8.8,8.4
+keval,1,Qwen__Qwen2-7B-Instruct,6.4,3.6,9.0,7.7,5.5,3.5,7.1,6.7,8.4
+keval,1,meta-llama__Meta-Llama-3.1-8B-Instruct,6.3,4.3,8.9,7.7,5.3,3.3,7.3,6.0,7.5
+keval,1,davidkim205__Ko-Llama-3-8B-Instruct,6.0,5.0,7.4,7.6,2.9,2.9,7.0,8.0,7.6
+keval,1,WizardLMTeam__WizardLM-13B-V1.2,6.0,3.7,9.3,7.7,2.4,3.8,7.0,6.6,7.7
+keval,1,mistralai__Mistral-7B-Instruct-v0.2,3.0,3.0,6.7,3.0,2.0,2.0,3.3,1.9,2.4
+keval,2,openai__GPT-4o-2024-05-13,8.1,7.7,8.9,9.2,7.8,6.9,8.4,8.7,7.4
+keval,2,openai__gpt-4-0125-preview,7.7,6.3,8.4,8.8,6.9,6.3,8.6,8.6,8.0
+keval,2,openai__GPT-4o-mini-2024-07-18,7.4,6.8,7.6,8.7,7.7,4.3,7.8,8.4,7.8
+keval,2,Anthropic__claude-3-5-sonnet-20240620,7.3,6.6,7.6,9.0,6.6,5.7,7.6,8.1,7.1
+keval,2,mistralai__Mistral-Large-Instruct-2407,7.0,5.4,7.3,8.5,7.3,5.2,7.9,7.8,6.9
+keval,2,Qwen__Qwen2-72B-Instruct,7.0,6.2,7.5,8.7,5.5,5.3,7.5,6.9,8.1
+keval,2,google__gemma-2-27b-it,6.9,6.6,7.0,8.9,5.5,5.0,7.6,6.9,7.3
+keval,2,Anthropic__claude-3-opus-20240229,6.8,6.2,8.4,7.8,5.4,5.1,7.0,7.3,7.5
+keval,2,alpindale__WizardLM-2-8x22B,6.6,5.6,7.6,7.9,6.3,4.9,6.9,7.4,6.3
+keval,2,google__gemini-1.5-pro,6.5,5.2,6.9,8.4,6.0,4.8,8.1,7.3,5.4
+keval,2,davidkim205__ko-gemma-2-9b-it,6.4,5.1,6.6,8.9,6.0,4.0,7.2,6.8,6.7
+keval,2,google__gemma-2-9b-it,6.3,5.2,7.7,8.7,4.6,4.0,7.8,6.8,5.4
+keval,2,LGAI-EXAONE__EXAONE-3.0-7.8B-Instruct,6.2,5.9,7.0,6.4,6.7,4.3,7.6,4.2,7.8
+keval,2,Qwen__Qwen1.5-32B-Chat,6.2,5.2,7.7,8.0,4.1,4.0,7.7,6.7,6.5
+keval,2,Qwen__Qwen1.5-14B-Chat,6.0,4.7,6.9,7.9,4.8,3.8,7.2,6.3,6.7
+keval,2,meta-llama__Meta-Llama-3.1-70B-Instruct,6.0,6.0,7.3,7.6,5.6,2.9,7.0,6.2,5.6
+keval,2,Qwen__Qwen2-7B-Instruct,5.6,4.9,7.0,6.5,5.1,3.1,6.3,5.0,6.5
+keval,2,KISTI-KONI__KONI-Llama3-8B-Instruct-20240729,5.5,4.6,4.9,6.7,5.9,3.2,6.9,6.8,5.2
+keval,2,openai__gpt-3.5-turbo-0125,5.3,6.2,5.5,7.0,4.5,3.3,6.2,4.5,5.4
+keval,2,meta-llama__Meta-Llama-3.1-8B-Instruct,4.8,5.0,6.0,5.5,4.4,2.6,5.9,5.0,4.4
+keval,2,davidkim205__Ko-Llama-3-8B-Instruct,4.2,3.6,4.6,6.3,2.8,2.2,6.1,3.7,4.3
+keval,2,WizardLMTeam__WizardLM-13B-V1.2,4.1,3.7,5.4,5.8,2.8,3.0,5.6,3.3,3.4
+keval,2,mistralai__Mistral-7B-Instruct-v0.2,4.1,3.5,6.1,6.3,2.6,2.2,3.5,3.2,5.5