使用TIKA从URL中提取文本的Java代码

bluesky1年前 ⋅ 258 阅读

ChatGPT的回答仅作参考:

以下是使用TIKA从URL中提取文本的Java代码示例:

```java
import java.io.InputStream;
import java.net.URL;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

public class TikaURLExtractor {
    public static void main(String[] args) throws Exception {
        // URL to extract text from
        String url = "https://www.example.com";

        // Create a URL object
        URL urlObj = new URL(url);

        // Open a connection to the URL and get the input stream
        InputStream input = urlObj.openStream();

        // Create a Tika parser
        Parser parser = new AutoDetectParser();

        // Create a content handler to store the extracted text
        BodyContentHandler handler = new BodyContentHandler();

        // Parse the input stream and store the extracted text in the content handler
        parser.parse(input, handler, null, null);

        // Get the extracted text
        String text = handler.toString();

        // Print the extracted text
        System.out.println(text);
    }
}
```

在上面的代码中,我们首先指定要从中提取文本的URL。然后,我们创建一个URL对象并打开与该URL的连接以获取输入流。接下来,我们创建一个Tika解析器和一个内容处理程序来存储提取的文本。最后,我们使用解析器解析输入流并将提取的文本存储在内容处理程序中。最后,我们将提取的文本打印到控制台上。

全部评论: 0

    相关推荐