Spaces:

mahesh1209
/

Market-Basket

Sleeping

App Files Files Community

Market-Basket / app.py

mahesh1209

Create app.py

1799a54 verified 4 months ago

raw

history blame contribute delete

1.94 kB

	import pandas as pd
	import numpy as np
	from sklearn.cluster import KMeans
	from sklearn.preprocessing import MultiLabelBinarizer
	import gradio as gr
	from transformers import pipeline

	# ⚡ Load lightweight summarizer
	summarizer = pipeline("summarization", model="sshleifer/distilbart-cnn-12-6")

	# 🧺 Synthetic transaction data
	transactions = [
	["Milk", "Bread"],
	["Milk", "Diapers", "Beer"],
	["Bread", "Diapers", "Eggs"],
	["Milk", "Bread", "Diapers", "Beer"],
	["Bread", "Eggs"],
	["Milk", "Eggs"],
	["Beer", "Diapers"],
	["Milk", "Bread", "Eggs"],
	["Bread", "Diapers"],
	["Milk", "Beer"]
	]
	df = pd.DataFrame({"TransactionID": range(1, len(transactions)+1), "Items": transactions})

	# 🔄 One-hot encode items
	mlb = MultiLabelBinarizer()
	encoded = mlb.fit_transform(df["Items"])
	encoded_df = pd.DataFrame(encoded, columns=mlb.classes_)

	# 🧠 Clustering + LLM summary
	def cluster_and_summarize(n_clusters):
	kmeans = KMeans(n_clusters=n_clusters, random_state=42, n_init="auto")
	df["Cluster"] = kmeans.fit_predict(encoded_df)

	summaries = []
	for i in range(n_clusters):
	cluster_items = df[df["Cluster"] == i]["Items"].explode()
	top_items = cluster_items.value_counts().head(5).to_dict()
	raw_summary = f"Cluster {i} contains transactions with top items: " + ", ".join([f"{k} ({v})" for k, v in top_items.items()])
	llm_output = summarizer(raw_summary, max_length=50, min_length=10, do_sample=False)[0]["summary_text"]
	summaries.append(f"🧠 Cluster {i}: {llm_output}")

	return "\n\n".join(summaries)

	# 🚀 Gradio UI
	gr.Interface(
	fn=cluster_and_summarize,
	inputs=gr.Slider(2, 5, value=3, label="Number of Clusters"),
	outputs="text",
	title="🛒 Market Basket Clustering + LLM Summary",
	description="Fast, error-free clustering of synthetic transactions with LLM-powered summaries.",
	cache_examples=False
	).launch()