Upload v2 of URL classifier model (hybrid BERT + tabular)

e7b7078 verified about 1 month ago

5.63 kB

	import re
	import os
	import json
	import torch
	import torch.nn as nn
	from urllib.parse import urlparse
	from transformers import AutoModel, AutoConfig, AutoTokenizer
	from transformers.modeling_outputs import SequenceClassifierOutput

	PROFILE_SLUGS = re.compile(
	r'/(profile\|store\|shop\|freelancers?\|biz\|therapists?\|counsellors?\|'
	r'restaurants?\|menu\|cottage\|actors?\|celebrants?\|broker-finder\|'
	r'users?\|usr\|sellers?\|vendors?\|merchants?\|dealers?\|agents?\|'
	r'members?\|str\|book\|booking\|appointments?)(/\|$)', re.IGNORECASE
	)

	NUM_TABULAR_FEATURES = 6
	NUMERIC_ID_IN_PATH = re.compile(r'/\d{3,}(/\|$)')
	TABULAR_HIDDEN_SIZE = 128

	KNOWN_PLATFORMS_PATH = os.path.join(os.path.dirname(__file__), "known_platforms.json")
	with open(KNOWN_PLATFORMS_PATH) as _f:
	KNOWN_PLATFORMS = set(json.load(_f))

	try:
	import tldextract
	_get_registered_domain = lambda url: tldextract.extract(url).registered_domain.lower()
	_tld = lambda url: tldextract.extract(url).suffix.lower()
	except ImportError:
	_get_registered_domain = lambda url: '.'.join(urlparse(url).netloc.lower().split('.')[-2:])
	_tld = lambda url: urlparse(url).netloc.lower().split('.')[-1]

	_subdomain_dot_count = lambda url: max(0, urlparse(url).netloc.count('.') - 1)
	_path_depth = lambda url: len([s for s in urlparse(url).path.split('/') if s])

	extract_tabular_features = lambda url: [
	1.0 if PROFILE_SLUGS.search(urlparse(url).path.lower()) else 0.0,
	1.0 if _get_registered_domain(url) in KNOWN_PLATFORMS else 0.0,
	min(_path_depth(url) / 10.0, 1.0),
	min(_subdomain_dot_count(url) / 3.0, 1.0),
	1.0 if NUMERIC_ID_IN_PATH.search(urlparse(url).path) else 0.0,
	1.0 if _tld(url) == 'jp' else 0.0,
	]


	class UrlBertWithTabular(nn.Module):
	def __init__(self, bert_model_name, num_labels, num_tabular_features=NUM_TABULAR_FEATURES):
	super().__init__()
	self.bert = AutoModel.from_pretrained(bert_model_name)
	self.hidden_size = self.bert.config.hidden_size
	self.num_labels = num_labels
	self.num_tabular_features = num_tabular_features
	self.tabular_proj = nn.Sequential(
	nn.Linear(num_tabular_features, TABULAR_HIDDEN_SIZE),
	nn.ReLU(),
	nn.Dropout(0.1),
	)
	self.classifier = nn.Linear(self.hidden_size + TABULAR_HIDDEN_SIZE, num_labels)

	def forward(self, input_ids=None, attention_mask=None, token_type_ids=None, tabular_features=None, **kwargs):
	bert_output = self.bert(input_ids=input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids)
	cls_output = bert_output.last_hidden_state[:, 0, :]
	tabular_proj = self.tabular_proj(tabular_features.float())
	combined = torch.cat([cls_output, tabular_proj], dim=1)
	logits = self.classifier(combined)
	return SequenceClassifierOutput(logits=logits)

	@classmethod
	def from_pretrained(cls, save_directory):
	with open(os.path.join(save_directory, "tabular_config.json")) as f:
	tabular_config = json.load(f)
	bert_config = AutoConfig.from_pretrained(save_directory)
	model = cls.__new__(cls)
	nn.Module.__init__(model)
	model.bert = AutoModel.from_config(bert_config)
	model.hidden_size = bert_config.hidden_size
	model.num_labels = tabular_config["num_labels"]
	model.num_tabular_features = tabular_config["num_tabular_features"]
	model.tabular_proj = nn.Sequential(
	nn.Linear(model.num_tabular_features, TABULAR_HIDDEN_SIZE),
	nn.ReLU(),
	nn.Dropout(0.1),
	)
	model.classifier = nn.Linear(model.hidden_size + TABULAR_HIDDEN_SIZE, model.num_labels)
	safetensors_path = os.path.join(save_directory, "model.safetensors")
	bin_path = os.path.join(save_directory, "pytorch_model.bin")
	if os.path.exists(safetensors_path):
	from safetensors.torch import load_file
	state_dict = load_file(safetensors_path)
	else:
	state_dict = torch.load(bin_path, map_location="cpu", weights_only=True)
	model.load_state_dict(state_dict)
	return model


	LABEL_MAP = {0: "official_website", 1: "platform"}


	class EndpointHandler:
	def __init__(self, path=""):
	self.model = UrlBertWithTabular.from_pretrained(path)
	self.model.eval()
	self.tokenizer = AutoTokenizer.from_pretrained(path)
	self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	self.model.to(self.device)

	def __call__(self, data):
	inputs = data.get("inputs", data)
	if isinstance(inputs, str):
	inputs = [inputs]

	encodings = self.tokenizer(
	inputs, padding=True, truncation=True, max_length=128, return_tensors="pt"
	).to(self.device)

	tabular = torch.tensor(
	[extract_tabular_features(url) for url in inputs], dtype=torch.float32
	).to(self.device)

	with torch.no_grad():
	outputs = self.model(
	input_ids=encodings["input_ids"],
	attention_mask=encodings["attention_mask"],
	tabular_features=tabular,
	)

	probs = torch.softmax(outputs.logits, dim=-1)
	results = []
	for i in range(len(inputs)):
	scores = probs[i].tolist()
	predictions = [
	{"label": LABEL_MAP.get(j, f"LABEL_{j}"), "score": scores[j]}
	for j in range(len(scores))
	]
	predictions.sort(key=lambda x: x["score"], reverse=True)
	results.append(predictions)

	return results