当前位置: 首页 > news >正文

网站每天做100个外链今日军事新闻最新消息

网站每天做100个外链,今日军事新闻最新消息,wordpress "menu-item-9,优推宝可以做自己网站吗目录 前言 text2vec开源项目 核心能力 文本向量表示模型 本地试用 安装依赖 下载模型到本地(如果你的网络能直接从huggingface上拉取文件,可跳过) ​运行试验代码 前言 在上一篇文章中介绍了,如何从不同格式的文件里提取…

目录

前言

text2vec开源项目

核心能力

文本向量表示模型

本地试用

安装依赖 

下载模型到本地(如果你的网络能直接从huggingface上拉取文件,可跳过)

​运行试验代码


前言

 在上一篇文章中介绍了,如何从不同格式的文件里提取文本信息。

本篇文章将介绍,如何将提取出的文本信息转换为vector,以便后续基于vector做相似性检索。

​​​​​​文档向量化工具(一):Apache Tika介绍icon-default.png?t=N7T8https://mp.csdn.net/mp_blog/creation/editor/134488150

text2vec开源项目

text2vec是github上很受欢迎的一个开源项目。

text2vec:Text to Vector。

【GitHub地址】

https://github.com/shibing624/text2vec

【开源协议】

 Apache-2.0 license

核心能力

Text to Vector, Get Sentence Embeddings. 文本向量化,把文本(包括词、句子、段落)表征为向量矩阵。

text2vec实现了:

  1. Word2Vec
  2. RankBM25
  3. BERT
  4. Sentence-BERT
  5. CoSENT

等多种文本表征、文本相似度计算模型,并在文本语义匹配(相似度计算)任务上比较了各模型的效果。

文本向量表示模型

  • Word2Vec:通过腾讯AI Lab开源的大规模高质量中文词向量数据(800万中文词轻量版) (文件名:light_Tencent_AILab_ChineseEmbedding.bin 密码: tawe)实现词向量检索,本项目实现了句子(词向量求平均)的word2vec向量表示
  • SBERT(Sentence-BERT):权衡性能和效率的句向量表示模型,训练时通过有监督训练BERT和softmax分类函数,文本匹配预测时直接取句子向量做余弦,句子表征方法,本项目基于PyTorch复现了Sentence-BERT模型的训练和预测
  • CoSENT(Cosine Sentence):CoSENT模型提出了一种排序的损失函数,使训练过程更贴近预测,模型收敛速度和效果比Sentence-BERT更好,本项目基于PyTorch实现了CoSENT模型的训练和预测
  • BGE(BAAI general embedding):BGE模型按照retromae方法进行预训练,参考论文,再使用对比学习finetune微调训练模型,本项目基于PyTorch实现了BGE模型的微调训练和预测

本地试用

推荐用conda管理python环境

conda create -n py3.9 python=3.9 // 安装一个python3.9的环境

安装依赖 

conda install -c pytorch pytorch

pip install -U text2vec

 下载模型到本地(如果你的网络能直接从huggingface上拉取文件,可跳过)

https://huggingface.co/shibing624/text2vec-base-chinese/tree/main

本地建立一个文件夹,名字是shibing624/text2vec-base-chinese

手动点击,逐个下载文件到此文件夹

 运行试验代码

# 设置huggingface以offline模式运行,从本地加载我们刚才下载的模型数据
HF_DATASETS_OFFLINE=1 TRANSFORMERS_OFFLINE=1
from text2vec import SentenceModelm = SentenceModel(model_name_or_path='/xxxxxxxx绝对路径xxxxxxx/shibing624/text2vec-base-chinese')m.encode("如何更换花呗绑定银行卡")

运行效果

http://www.yidumall.com/news/98722.html

相关文章:

  • 中兴能源建设有限公司网站百度禁止seo推广
  • 旅游网站前台怎么做企业网站建设推广
  • 南宁自助建站模板百度地图轨迹导航
  • 网站 图片防盗链吸引人的软文标题
  • 企业规划设计山西seo排名厂家
  • 网站建设前的分析免费的html网站
  • 上海网站开发开发好的公司电话个人网站设计毕业论文
  • 企业网站管理系统 才能湖南岚鸿重庆疫情最新数据
  • 如何设置wordpress的内存北京推广优化公司
  • 万网域名管理网站网络优化软件
  • 做系统哪个网站好郑州网站关键词优化外包
  • 西安网站建设公司关键词优化排名seo
  • 非自己的网站如何做二次跳转电脑优化
  • 网站建设前的问卷百度查关键词显示排名
  • 做的最好自考网站是哪个seo推广排名重要吗
  • 新疆建设工程信息网关闭通知seo基础
  • 武汉论坛交流seo推广seo技术培训
  • 网站建设骗局一份完整的营销策划书
  • 阿里爸爸网站备案系统新网站推广方法
  • 免费游戏源码资源网搜索引擎营销优化策略有哪些
  • 如何做淘宝优惠券网站小广告多的网站
  • 个人网页设计专业毕业论文海南百度推广seo
  • 北京网页设计工资长沙网站seo优化公司
  • 江苏新有建设集团有限公司官方网站厦门seo优化推广
  • 网站推广包括哪些刷关键词排名
  • 江苏中淮建设集团有限公司网站怎么优化网络
  • 深圳南山做网站的公司国内十大搜索引擎排名
  • 个人响应式网站搜索引擎营销的6种方式
  • 哪里网站建设专业全媒体运营师
  • 淘宝客网站做seo有用吗网站营销策略有哪些