在C#中獲取word文檔中的文本
Spire.Doc for .NET是一款專門對 Word 文檔進(jìn)行操作的 .NET 類庫。在于幫助開發(fā)人員無需安裝 Microsoft Word情況下,輕松快捷高效地創(chuàng)建、編輯、轉(zhuǎn)換和打印 Microsoft Word 文檔。擁有近10年專業(yè)開發(fā)經(jīng)驗Spire系列辦公文檔開發(fā)工具,專注于創(chuàng)建、編輯、轉(zhuǎn)換和打印Word/PDF/Excel等格式文件處理,小巧便捷。
有時我們在處理信息量很大的word文檔時,只需要從word文檔中獲取文本以供其他使用。在 Spire.Doc 的幫助下,我們已經(jīng)演示了如何通過遍歷 word 文檔中的每個段落然后相應(yīng)地附加文本來從 word 文檔中提取文本。本文將向您展示如何使用 doc.GetText() 的方法直接從包含文本、圖像和表格的 word 文檔中提取文本。更方便開發(fā)者從代碼中提取word文檔中的文本。
首先,查看將首先提取文本的示例word文檔:
第 1 步:創(chuàng)建一個 word 實例并從文件中加載源 word 文檔。
Document doc = new Document(); doc.LoadFromFile("Sample.docx");
第 2 步:調(diào)用 doc.GetText() 方法從 word 文檔中獲取所有文本。
string s = doc.GetText();
第 3 步:創(chuàng)建一個新的 TEXT 文件以保存提取的文本。
File.WriteAllText("Extract.txt", s.ToString());
從word文檔中獲取所有文本后的有效截圖:
完整代碼:
using Spire.Doc; using System.IO; namespace GetText { class WordText { public void GetText() { Document doc = new Document(); doc.LoadFromFile("Sample.docx"); string s = doc.GetText(); File.WriteAllText("Extract.txt", s.ToString()); } } }
以上便是如何在C#中獲取word文檔中的文本,如果您有其他問題也可以繼續(xù)瀏覽本系列文章,獲取相關(guān)教程,你還可以給我留言或者加入我們的官方技術(shù)交流群。