Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 13
How to use bachngo/int-e5-base-5tv5 with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("bachngo/int-e5-base-5tv5")
sentences = [
"Người nộp thuế có trách nhiệm gì trong việc ghi chép chính xác, trung thực và đầy đủ các hoạt động phát sinh nghĩa vụ thuế, khấu trừ thuế và giao dịch phải kê khai thông tin về thuế?",
"Điều 73. Phân loại hồ sơ hoàn thuế 1. Hồ sơ hoàn thuế được phân loại thành hồ sơ thuộc diện kiểm tra trước hoàn thuế và hồ sơ thuộc diện hoàn thuế trước. \n2. Hồ sơ thuộc diện kiểm tra trước hoàn thuế bao gồm: a) Hồ sơ của người nộp thuế đề nghị hoàn thuế lần đầu của từng trường hợp hoàn thuế theo quy định của pháp luật về thuế. Trường hợp người nộp thuế có hồ sơ hoàn thuế gửi cơ quan quản lý thuế lần đầu nhưng không thuộc diện được hoàn thuế theo quy định thì lần đề nghị hoàn thuế kế tiếp vẫn xác định là đề nghị hoàn thuế lần đầu; b) Hồ sơ của người nộp thuế đề nghị hoàn thuế trong thời hạn 02 năm kể từ thời điểm bị xử lý về hành vi trốn thuế; c) Hồ sơ của tổ chức giải thể, phá sản, chấm dứt hoạt động, bán, giao và chuyển giao doanh nghiệp nhà nước; d) Hồ sơ hoàn thuế thuộc loại rủi ro về thuế cao theo phân loại quản lý rủi ro trong quản lý thuế; đ) Hồ sơ hoàn thuế thuộc trường hợp hoàn thuế trước nhưng hết thời hạn theo thông báo bằng văn bản của cơ quan quản lý thuế mà người nộp thuế không giải trình, bổ sung hồ sơ hoàn thuế hoặc có giải trình, bổ sung hồ sơ hoàn thuế nhưng không chứng minh được số tiền thuế đã khai là đúng; e) Hồ sơ hoàn thuế đối với hàng hóa xuất khẩu, nhập khẩu không thực hiện thanh toán qua ngân hàng thương mại, tổ chức tín dụng khác theo quy định của pháp luật; g) Hồ sơ hoàn thuế đối với hàng hóa xuất khẩu, nhập khẩu thuộc diện phải kiểm tra trước hoàn thuế theo quy định của Chính phủ. 3. Hồ sơ thuộc diện hoàn thuế trước là hồ sơ của người nộp thuế không thuộc trường hợp quy định tại khoản 2 Điều này. 4. Bộ trưởng Bộ Tài chính quy định chi tiết Điều này.",
"Điều 17. Trách nhiệm của người nộp thuế 1. Thực hiện đăng ký thuế, sử dụng mã số thuế theo quy định của pháp luật. 2. Khai thuế chính xác, trung thực, đầy đủ và nộp hồ sơ thuế đúng thời hạn; chịu trách nhiệm trước pháp luật về tính chính xác, trung thực, đầy đủ của hồ sơ thuế. 3. Nộp tiền thuế, tiền chậm nộp, tiền phạt đầy đủ, đúng thời hạn, đúng địa điểm. 4. Chấp hành chế độ kế toán, thống kê và quản lý, sử dụng hóa đơn, chứng từ theo quy định của pháp luật. \n5. Ghi chép chính xác, trung thực, đầy đủ những hoạt động phát sinh nghĩa vụ thuế, khấu trừ thuế và giao dịch phải kê khai thông tin về thuế. 6. Lập và giao hóa đơn, chứng từ cho người mua theo đúng số lượng, chủng loại, giá trị thực thanh toán khi bán hàng hóa, cung cấp dịch vụ theo quy định của pháp luật. 7. Cung cấp chính xác, đầy đủ, kịp thời thông tin, tài liệu liên quan đến việc xác định nghĩa vụ thuế, bao gồm cả thông tin về giá trị đầu tư; số hiệu và nội dung giao dịch của tài khoản được mở tại ngân hàng thương mại, tổ chức tín dụng khác; giải thích việc tính thuế, khai thuế, nộp thuế theo yêu cầu của cơ quan quản lý thuế. 8. Chấp hành quyết định, thông báo, yêu cầu của cơ quan quản lý thuế, công chức quản lý thuế theo quy định của pháp luật. 9. Chịu trách nhiệm thực hiện nghĩa vụ thuế theo quy định của pháp luật trong trường hợp người đại diện theo pháp luật hoặc đại diện theo ủy quyền thay mặt người nộp thuế thực hiện thủ tục về thuế sai quy định. 10. Người nộp thuế thực hiện hoạt động kinh doanh tại địa bàn có cơ sở hạ tầng về công nghệ thông tin phải thực hiện kê khai, nộp thuế, giao dịch với cơ quan quản lý thuế thông qua phương tiện điện tử theo quy định của pháp luật. 11. Căn cứ tình hình thực tế và điều kiện trang bị công nghệ thông tin, Chính phủ quy định chi tiết việc người nộp thuế không phải nộp các chứng từ trong hồ sơ khai, nộp thuế, hồ sơ hoàn thuế và các hồ sơ thuế khác mà cơ quan quản lý nhà nước đã có. 12.",
"Điều 52. Ấn định thuế đối với hàng hóa xuất khẩu, nhập khẩu \n1. Cơ quan hải quan ấn định thuế đối với hàng hóa xuất khẩu, nhập khẩu trong các trường hợp sau đây: a) Người khai thuế dựa vào các tài liệu không hợp pháp để khai thuế, tính thuế; không khai thuế hoặc kê khai không chính xác, đầy đủ nội dung liên quan đến xác định nghĩa vụ thuế; b) Quá thời hạn quy định mà người khai thuế không cung cấp, từ chối hoặc trì hoãn, kéo dài việc cung cấp hồ sơ, sổ kế toán, tài liệu, chứng từ, dữ liệu, số liệu liên quan đến việc xác định chính xác số tiền thuế phải nộp theo quy định; c) Người khai thuế không chứng minh, giải trình hoặc quá thời hạn quy định mà không giải trình được các nội dung liên quan đến việc xác định nghĩa vụ thuế theo quy định của pháp luật; không chấp hành quyết định kiểm tra, thanh tra của cơ quan hải quan; d) Người khai thuế không phản ánh hoặc phản ánh không đầy đủ, trung thực, chính xác số liệu trên sổ kế toán để xác định nghĩa vụ thuế; đ) Cơ quan hải quan có đủ bằng chứng, căn cứ xác định về việc khai báo trị giá không đúng với trị giá giao dịch thực tế; e) Giao dịch được thực hiện không đúng với bản chất kinh tế, không đúng thực tế phát sinh, ảnh hưởng đến số tiền thuế phải nộp; g) Người khai thuế không tự tính được số tiền thuế phải nộp; h) Trường hợp khác do cơ quan hải quan hoặc cơ quan khác phát hiện việc kê khai, tính thuế không đúng với quy định của pháp luật. 2. Cơ quan hải quan căn cứ hàng hóa thực tế xuất khẩu, nhập khẩu; căn cứ tính thuế, phương pháp tính thuế; cơ sở dữ liệu của cơ quan quản lý thuế và cơ sở dữ liệu thương mại; hồ sơ khai báo hải quan; tài liệu và các thông tin khác có liên quan đến hàng hóa xuất khẩu, nhập khẩu để ấn định số tiền thuế phải nộp. 3. Chính phủ quy định chi tiết Điều này."
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from intfloat/multilingual-e5-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'Sự khác biệt chính giữa hóa đơn điện tử có mã của cơ quan thuế và hóa đơn điện tử không có mã của cơ quan thuế là gì?',
'Điều 89. Hóa đơn điện tử 1. Hóa đơn điện tử là hóa đơn có mã hoặc không có mã của cơ quan thuế được thể hiện ở dạng dữ liệu điện tử do tổ chức, cá nhân bán hàng hóa, cung cấp dịch vụ lập, ghi nhận thông tin bán hàng hóa, cung cấp dịch vụ theo quy định của pháp luật về kế toán, pháp luật về thuế bằng phương tiện điện tử, bao gồm cả trường hợp hóa đơn được khởi tạo từ máy tính tiền có kết nối chuyển dữ liệu điện tử với cơ quan thuế. \n2. Hóa đơn điện tử bao gồm hóa đơn giá trị gia tăng, hóa đơn bán hàng, tem điện tử, vé điện tử, thẻ điện tử, phiếu thu điện tử, phiếu xuất kho kiêm vận chuyển điện tử hoặc các chứng từ điện tử có tên gọi khác. 3. Hóa đơn điện tử có mã của cơ quan thuế là hóa đơn điện tử được cơ quan thuế cấp mã trước khi tổ chức, cá nhân bán hàng hóa, cung cấp dịch vụ gửi cho người mua. Mã của cơ quan thuế trên hóa đơn điện tử bao gồm số giao dịch là một dãy số duy nhất do hệ thống của cơ quan thuế tạo ra và một chuỗi ký tự được cơ quan thuế mã hóa dựa trên thông tin của người bán lập trên hóa đơn. 4. Hóa đơn điện tử không có mã của cơ quan thuế là hóa đơn điện tử do tổ chức bán hàng hóa, cung cấp dịch vụ gửi cho người mua không có mã của cơ quan thuế. 5. Chính phủ quy định chi tiết Điều này.',
'Điều 14. Cung cấp dịch vụ hóa đơn điện tử 1. Trường hợp sử dụng hóa đơn điện tử có mã của cơ quan thuế không phải trả tiền dịch vụ trong thời gian 12 tháng kể từ khi bắt đầu sử dụng hóa đơn điện tử gồm: a) Doanh nghiệp nhỏ và vừa, hợp tác xã, hộ, cá nhân kinh doanh tại địa bàn có điều kiện kinh tế - xã hội khó khăn, địa bàn có điều kiện kinh tế - xã hội đặc biệt khó khăn. Địa bàn có điều kiện kinh tế - xã hội khó khăn, địa bàn có điều kiện kinh tế - xã hội đặc biệt khó khăn thực hiện theo Danh mục địa bàn ưu đãi đầu tư ban hành kèm theo Nghị định số 118/2015/NĐ-CP ngày 12 tháng 11 năm 2015 của Chính phủ quy định chi tiết và hướng dẫn thi hành một số điều của Luật Đầu tư và các văn bản sửa đổi, bổ sung hoặc thay thế nếu có. b) Doanh nghiệp nhỏ và vừa khác theo đề nghị của Ủy ban nhân dân tỉnh, thành phố trực thuộc Trung ương gửi Bộ Tài chính trừ doanh nghiệp hoạt động tại các khu kinh tế, khu công nghiệp, khu công nghệ cao. Tổng cục Thuế thực hiện hoặc ủy thác cho tổ chức cung cấp dịch vụ về hóa đơn điện tử thực hiện cung cấp hóa đơn điện tử có mã của cơ quan thuế không phải trả tiền dịch vụ cho các đối tượng nêu trên. 2. Các doanh nghiệp, tổ chức kinh tế, hộ, cá nhân kinh doanh không thuộc trường hợp quy định tại khoản 1 Điều này khi sử dụng hóa đơn điện tử có mã của cơ quan thuế, sử dụng hóa đơn điện tử không có mã của cơ quan thuế thông qua tổ chức cung cấp dịch vụ hóa đơn điện tử thực hiện trả tiền dịch vụ theo Hợp đồng ký giữa các bên',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
InformationRetrievalEvaluator| Metric | Value |
|---|---|
| cosine_accuracy@1 | 0.9444 |
| cosine_accuracy@3 | 0.9848 |
| cosine_accuracy@5 | 1.0 |
| cosine_accuracy@10 | 1.0 |
| cosine_precision@1 | 0.9444 |
| cosine_precision@3 | 0.3283 |
| cosine_precision@5 | 0.2 |
| cosine_precision@10 | 0.1 |
| cosine_recall@1 | 0.9444 |
| cosine_recall@3 | 0.9848 |
| cosine_recall@5 | 1.0 |
| cosine_recall@10 | 1.0 |
| cosine_ndcg@10 | 0.9756 |
| cosine_mrr@10 | 0.9673 |
| cosine_map@100 | 0.9673 |
| dot_accuracy@1 | 0.9444 |
| dot_accuracy@3 | 0.9848 |
| dot_accuracy@5 | 1.0 |
| dot_accuracy@10 | 1.0 |
| dot_precision@1 | 0.9444 |
| dot_precision@3 | 0.3283 |
| dot_precision@5 | 0.2 |
| dot_precision@10 | 0.1 |
| dot_recall@1 | 0.9444 |
| dot_recall@3 | 0.9848 |
| dot_recall@5 | 1.0 |
| dot_recall@10 | 1.0 |
| dot_ndcg@10 | 0.9756 |
| dot_mrr@10 | 0.9673 |
| dot_map@100 | 0.9673 |
sentence_0 and sentence_1| sentence_0 | sentence_1 | |
|---|---|---|
| type | string | string |
| details |
|
|
| sentence_0 | sentence_1 |
|---|---|
Theo Điều 67 của Luật Bảo hiểm xã hội, những trường hợp nào được hưởng trợ cấp tuất hằng tháng? |
Điều 67. Các trường hợp hưởng trợ cấp tuất hằng tháng 1. Những người quy định tại khoản 1 và khoản 3 Điều 66 của Luật này thuộc một trong các trường hợp sau đây khi chết thì thân nhân được hưởng tiền tuất hằng tháng: a) Đã đóng bảo hiểm xã hội đủ 15 năm trở lên nhưng chưa hưởng bảo hiểm xã hội một lần; b) Đang hưởng lương hưu; c) Chết do tai nạn lao động, bệnh nghề nghiệp; d) Đang hưởng trợ cấp tai nạn lao động, bệnh nghề nghiệp hằng tháng với mức suy giảm khả năng lao động từ 61% trở lên. 2. Thân nhân của những người quy định tại khoản 1 Điều này được hưởng trợ cấp tuất hằng tháng, bao gồm: a) Con chưa đủ 18 tuổi; con từ đủ 18 tuổi trở lên nếu bị suy giảm khả năng lao |
Thân nhân của người lao động được hưởng trợ cấp tuất hằng tháng bao gồm những ai và điều kiện để được hưởng là gì? |
Điều 67. Các trường hợp hưởng trợ cấp tuất hằng tháng 1. Những người quy định tại khoản 1 và khoản 3 Điều 66 của Luật này thuộc một trong các trường hợp sau đây khi chết thì thân nhân được hưởng tiền tuất hằng tháng: a) Đã đóng bảo hiểm xã hội đủ 15 năm trở lên nhưng chưa hưởng bảo hiểm xã hội một lần; b) Đang hưởng lương hưu; c) Chết do tai nạn lao động, bệnh nghề nghiệp; d) Đang hưởng trợ cấp tai nạn lao động, bệnh nghề nghiệp hằng tháng với mức suy giảm khả năng lao động từ 61% trở lên. 2. Thân nhân của những người quy định tại khoản 1 Điều này được hưởng trợ cấp tuất hằng tháng, bao gồm: a) Con chưa đủ 18 tuổi; con từ đủ 18 tuổi trở lên nếu bị suy giảm khả năng lao |
Theo quy định tại Luật Bảo hiểm xã hội, thân nhân được hưởng trợ cấp tuất hằng tháng khi nào? |
3. Thân nhân quy định tại các điểm b, c và d khoản 2 Điều này phải không có thu nhập hoặc có thu nhập hằng tháng nhưng thấp hơn mức lương cơ sở. Thu nhập theo quy định tại Luật này không bao gồm khoản trợ cấp theo quy định của pháp luật về ưu đãi người có công. 4. Thời hạn đề nghị khám giám định mức suy giảm khả năng lao động để hưởng trợ cấp tuất hằng tháng như sau: a) Trong thời hạn 04 tháng kể từ ngày người tham gia bảo hiểm xã hội chết thì thân nhân có nguyện vọng phải nộp đơn đề nghị; b) Trong thời hạn 04 tháng trước hoặc sau thời điểm thân nhân quy định tại điểm a khoản 2 Điều này hết thời hạn hưởng trợ cấp theo quy định thì thân nhân có nguyện vọng phải nộp đơn đề nghị. |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
eval_strategy: stepsper_device_train_batch_size: 10per_device_eval_batch_size: 10num_train_epochs: 4multi_dataset_batch_sampler: round_robinoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 10per_device_eval_batch_size: 10per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 4max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Falsehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseeval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falsebatch_sampler: batch_samplermulti_dataset_batch_sampler: round_robin| Epoch | Step | cosine_map@100 |
|---|---|---|
| 1.0 | 40 | 0.9505 |
| 1.25 | 50 | 0.9562 |
| 2.0 | 80 | 0.9602 |
| 2.5 | 100 | 0.9673 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Base model
intfloat/multilingual-e5-base