Spaces:

davidkim205
/

ko-bench

Sleeping

App Files Files Community

davidkim205 commited on Aug 14, 2024

Commit

1b0c644

1 Parent(s): 3ac4c37

Fixed issue with charts loading slowly.

Browse files

Files changed (1) hide show

app.py +54 -49

app.py CHANGED Viewed

@@ -154,6 +154,7 @@ df_full_rs = df_full_rs.apply(add_link, axis=1)
 df_full_rs = df_full_rs.drop(columns=['Ko-Bench', 'link', 'organization'])
 # dataframe
 df_rs['MT-Bench'] = ''  # MT-Bench 열 추가
 df_rs['MT-Bench'] = df_rs['model'].apply(get_mt_bench)
@@ -285,10 +286,10 @@ def search_openai_plot(dropdown_model): # openai plot 함수 정의
     openai_turn2 = df.loc[condition4, 'Coding':'Writing'].values.tolist()
     category_labels = []
-    category_labels.append(openai_top_model + "  /Turn 1")
-    category_labels.append(openai_top_model + "  /Turn 2")
-    category_labels.append(dropdown_model + "  /Turn 1")
-    category_labels.append(dropdown_model + "  /Turn 2")
     fig = radar_chart(CATEGORIES, top1_openai_turn1, top1_openai_turn2, openai_turn1, openai_turn2, category_labels,"openai")
     return fig
@@ -310,10 +311,10 @@ def search_keval_plot(dropdown_model): # keval plot 함수 정의
     keval_turn2 = df.loc[condition4, 'Coding':'Writing'].values.tolist()
     category_labels = []
-    category_labels.append(keval_top_model + " /Turn 1")
-    category_labels.append(keval_top_model + "  /Turn 2")
-    category_labels.append(dropdown_model + "  /Turn 1")
-    category_labels.append(dropdown_model + "  /Turn 2")
     fig = radar_chart(CATEGORIES, top1_keval_turn1, top1_keval_turn2, keval_turn1, keval_turn2, category_labels, "keval")
     return fig
@@ -327,13 +328,13 @@ def plot_average():
     # gpt-4o
     fig.add_trace(go.Scatter(x=turn_df['model'], y=turn_df['Ko-Bench/openai'], mode='lines+markers',
-                             name=f'gpt-4o(Average)',
                              line=dict(color=colors[0][0], dash='dash'),
                              marker=dict(symbol='x', size=10)))
     # keval
     fig.add_trace(go.Scatter(x=turn_df['model'], y=turn_df['Ko-Bench/keval'], mode='lines+markers',
-                             name=f'keval(Average)',
                              line=dict(color=colors[0][1]),
                              marker=dict(symbol='circle', size=10)))
@@ -352,44 +353,48 @@ def plot_average():
 #gradio
 with gr.Blocks(css='assets/leaderboard.css') as demo:
-    gr.Markdown("")
-    gr.Markdown("# 🏆 Ko-Bench Leaderboard")
-    gr.Markdown("")
-    gr.Markdown("#### The Ko-Bench is a leaderboard for evaluating the multi-level conversation ability and instruction-following ability of Korean Large Language Models (LLMs).")
-    gr.Markdown("- MT-Bench: a set of challenging multi-turn questions. We use GPT-4 to grade the model responses.")
-    gr.Markdown("- Ko-Bench/openai: a set of challenging multi-turn questions in Korean. We use GPT-4o to grade the model responses.")
-    gr.Markdown("- Ko-Bench/keval: a set of challenging multi-turn questions in Korean. We use the keval model as an evaluation model.")
-    gr.Markdown("")
-    gr.Markdown("github : https://github.com/davidkim205/Ko-Bench")
-    gr.Markdown("keval : https://huggingface.co/collections/davidkim205/k-eval-6660063dd66e21cbdcc4fbf1")
-    gr.Markdown("")
-    with gr.Row():
-        with gr.TabItem("Ko-Bench"):
-            gr.Dataframe(value=df_full_rs,
-                         datatype=['html' if col == 'model' else 'markdown' for col in df_full_rs.columns])
-            with gr.Row():
-                with gr.TabItem("Average"):
-                    gr.Plot(plot_average)
-        with gr.TabItem("Openai Judgment"):
-            gr.Dataframe(value=df_openai,
-                         datatype=['html' if col == 'model' else 'markdown' for col in df_openai.columns])
-        with gr.TabItem("Keval Judgment"):
-            gr.Dataframe(value=df_keval,
-                         datatype=['html' if col == 'model' else 'markdown' for col in df_keval.columns])
-        with gr.TabItem("Model Detail View"):
-            with gr.Blocks():
-                with gr.Row():
-                    dropdown = gr.Dropdown(choices=plot_models_list, label="Choose a Model")
                 with gr.Row():
-                    dataframe = gr.Dataframe(label="Model Detail View")
-                    dropdown.change(fn=search_dataframe, inputs=dropdown, outputs=dataframe)
                 with gr.Row():
-                    plot_openai = gr.Plot(label="Openai Plot")
-                    dropdown.change(fn=search_openai_plot, inputs=dropdown, outputs=plot_openai)
-                    plot_keval = gr.Plot(label="Keval Plot")
-                    dropdown.change(fn=search_keval_plot, inputs=dropdown, outputs=plot_keval)
-demo.launch(share=True, server_name="0.0.0.0", debug=True)

 df_full_rs = df_full_rs.drop(columns=['Ko-Bench', 'link', 'organization'])
 # dataframe
 df_rs['MT-Bench'] = ''  # MT-Bench 열 추가
 df_rs['MT-Bench'] = df_rs['model'].apply(get_mt_bench)
     openai_turn2 = df.loc[condition4, 'Coding':'Writing'].values.tolist()
     category_labels = []
+    category_labels.append(openai_top_model + " (Turn 1)")
+    category_labels.append(openai_top_model + " (Turn 2)")
+    category_labels.append(dropdown_model + " (Turn 1)")
+    category_labels.append(dropdown_model + " (Turn 2)")
     fig = radar_chart(CATEGORIES, top1_openai_turn1, top1_openai_turn2, openai_turn1, openai_turn2, category_labels,"openai")
     return fig
     keval_turn2 = df.loc[condition4, 'Coding':'Writing'].values.tolist()
     category_labels = []
+    category_labels.append(keval_top_model + " (Turn 1)")
+    category_labels.append(keval_top_model + " (Turn 2)")
+    category_labels.append(dropdown_model + " (Turn 1)")
+    category_labels.append(dropdown_model + " (Turn 2)")
     fig = radar_chart(CATEGORIES, top1_keval_turn1, top1_keval_turn2, keval_turn1, keval_turn2, category_labels, "keval")
     return fig
     # gpt-4o
     fig.add_trace(go.Scatter(x=turn_df['model'], y=turn_df['Ko-Bench/openai'], mode='lines+markers',
+                             name=f'gpt-4o (Average)',
                              line=dict(color=colors[0][0], dash='dash'),
                              marker=dict(symbol='x', size=10)))
     # keval
     fig.add_trace(go.Scatter(x=turn_df['model'], y=turn_df['Ko-Bench/keval'], mode='lines+markers',
+                             name=f'keval (Average)',
                              line=dict(color=colors[0][1]),
                              marker=dict(symbol='circle', size=10)))
 #gradio
 with gr.Blocks(css='assets/leaderboard.css') as demo:
+    with gr.Blocks():
+        gr.Markdown("")
+        gr.Markdown("# 🏆 Ko-Bench Leaderboard")
+        gr.Markdown("")
+        gr.Markdown(
+            "#### The Ko-Bench is a leaderboard for evaluating the multi-level conversation ability and instruction-following ability of Korean Large Language Models (LLMs).")
+        gr.Markdown("- MT-Bench: a set of challenging multi-turn questions. We use GPT-4 to grade the model responses.")
+        gr.Markdown(
+            "- Ko-Bench/openai: a set of challenging multi-turn questions in Korean. We use GPT-4o to grade the model responses.")
+        gr.Markdown(
+            "- Ko-Bench/keval: a set of challenging multi-turn questions in Korean. We use the keval model as an evaluation model.")
+        gr.Markdown("")
+        gr.Markdown("github : https://github.com/davidkim205/Ko-Bench")
+        gr.Markdown("keval : https://huggingface.co/collections/davidkim205/k-eval-6660063dd66e21cbdcc4fbf1")
+        gr.Markdown("")
+    with gr.Blocks():
+        with gr.Row():
+            with gr.TabItem("Ko-Bench"):
                 with gr.Row():
+                    gr.Dataframe(value=df_full_rs,
+                                datatype=['html' if col == 'model' else 'markdown' for col in df_full_rs.columns])
                 with gr.Row():
+                    avg = plot_average()
+                    gr.Plot(avg)
+            with gr.TabItem("Openai Judgment"):
+                gr.Dataframe(value=df_openai,
+                             datatype=['html' if col == 'model' else 'markdown' for col in df_openai.columns])
+            with gr.TabItem("Keval Judgment"):
+                gr.Dataframe(value=df_keval,
+                             datatype=['html' if col == 'model' else 'markdown' for col in df_keval.columns])
+            with gr.TabItem("Model Detail View"):
+                with gr.Blocks():
+                    with gr.Row():
+                        dropdown = gr.Dropdown(choices=plot_models_list, label="Choose a Model")
+                    with gr.Row():
+                        dataframe = gr.Dataframe(label="Model Detail View")
+                        dropdown.change(fn=search_dataframe, inputs=dropdown, outputs=dataframe)
+                    with gr.Row():
+                        plot_openai = gr.Plot(label="Openai Plot")
+                        dropdown.change(fn=search_openai_plot, inputs=dropdown, outputs=plot_openai)
+                        plot_keval = gr.Plot(label="Keval Plot")
+                        dropdown.change(fn=search_keval_plot, inputs=dropdown, outputs=plot_keval)
+demo.launch(share=True, server_name="0.0.0.0", server_port=7860, debug=True)