当前位置: 首页 > news >正文

如何自己创造网站淘宝seo是什么意思

如何自己创造网站,淘宝seo是什么意思,米业做网站的好处,太原中小学网站建设本文主要是介绍使用 Apache Tika 来读取 doc、docx 等格式文件内容。 场景 大模型业务应用开发中,避免不了文件的读取,虽说很多大模型应用平台都支持上传文件进行读取,但工作中不少文件保密性是相当高的,必须先在代码中处理一遍…

本文主要是介绍使用 Apache Tika 来读取 doc、docx 等格式文件内容。

场景

大模型业务应用开发中,避免不了文件的读取,虽说很多大模型应用平台都支持上传文件进行读取,但工作中不少文件保密性是相当高的,必须先在代码中处理一遍。

那么就会涉及到后端系统中读取多种文件格式的内容的场景,此时,正是 Tika 大显身手的好时候。

优点

这里选择对比网络上常出现的 poi 组件,有以下优点:

  1. 无需自行判断文件格式从而去选择对应的解析器,tika 支持自识别相当多的文件格式;
  2. 针对错误的 doc、docx 格式,传统代码很难区分,容易导致抛出异常。

如果你遇见了这种场景:doc 文件被修改后缀为 docx,然后代码中读取到的文件类型则为 docx,接着使用 poi 的 XWPFWordExtractor 解析则会报错。

此种情况是不容易区分出两种文件类型的,因为使用 WPS 打开不会存在提示,业务老师对此也不会敏感,你甚至都很难加上约束。

此时可以考虑使用 Apache Tika 帮你快速稳定实现文件读取功能。

用法

引入依赖

dependencies {runtime 'org.apache.tika:tika-core:3.2.0'runtime 'org.apache.tika:tika-parsers-standard-package:3.2.0'
}

执行代码

public String parse() throws IOException, SAXException, TikaException {Tika tika = new Tika();try (InputStream stream = Object.class.getResourceAsStream("test.doc")) {return tika.parseToString(stream);}
}

参考

https://tika.apache.org/3.2.0/examples.html
https://allinprogram.com/archives/zai-java-zhong-shi-yong-apache-tikadu-qu-doc-docxge-shi-wen-jian-nei-rong

http://www.yidumall.com/news/99670.html

相关文章:

  • 网站后台地址忘了百度网盘搜索免费资源
  • wordpress最大的主题优化网站搜索排名
  • 郑州动力无限网站建设成人用品哪里进货好
  • 线上做笔记的网站如何去推广自己的产品
  • 做网站如何提需求如何创建自己的网站
  • 兴县做网站的公司数据交换平台
  • 什么网站可以做免费广告seo中文意思
  • web网站开发软件资源平台
  • 免费个人网站建站全球搜索引擎
  • 武汉人才网最新招聘郑州百度网站快速优化
  • WordPress做的网站源代码软文推广发布
  • e建网免费seo课程
  • 同一个网站可以同时做竞价和优化推广平台的方式有哪些
  • 用七牛做网站常州seo
  • 网站qq访客抓取seo排名优化软件有
  • wordpress高级培训廊坊百度快照优化排名
  • 班级网站建设毕业设计开题报告百度信息流平台
  • 厦门SEO_厦门网站建设外贸网站制作推广
  • 谷歌网站怎么做外链营销策划机构
  • css 设计网站百度竞价推广是什么
  • 家政公司网站建设方案销售管理
  • 成都那家做网站好爱站网关键词挖掘
  • 广州 科技网站建设公司百度搜索排名怎么做
  • wordpress做网站2023年又封城了
  • 怎样推广公司的网站推广app的营销方案
  • 建网站的模块八种营销模式
  • 做门户网站用什么系统好谷歌play商店
  • 企业建设网站的方式哈尔滨网络公司
  • 营销网站建设收费seo关键词优化报价
  • 青海公路建设信用信息服务网站搜索引擎营销的英文缩写