一鍵將Office文件轉換為MD格式的線上工具已上線
微軟在Github 上以MIT 許可證開源MarkItDown 項目,該項目可以將PDF、Office 文件、圖片、音訊、JSON、HTML、XML 等轉換為Markdown 格式。 MD 格式是開發者常用的書寫格式,微軟開源的這個專案意義在於開發者可以批次將各種內容轉換為純文字內容,然後進行索引和分析。
MarkItDown 專案是基於Python 開發,使用者既可以在本地建置專案也可以使用開發者建構好的線上工具,例如開發者Seimo 就已經建立了線上工具Turn2Markdown:https://md.seimo.cn/
目前該工具僅支援上傳Office 文件進行轉換,這個原因倒是很容易猜到,因為要識別圖片需要部署OCR、要轉錄音訊可能還需要部署相關AI 服務。
使用方法也非常簡單,只需要選擇Office 文件例如PPTX、XLSX、DOCX 即可進行轉換,轉換後以MD 格式輸出可以複製或下載為.md 文件,之後文件會伺服器上永久刪除。
不過開發者也提到暫時只能處理一些簡單的文檔,如果是比較複雜的文檔輸出的內容可能會有些問題,具體大家可以隨便上傳文件進行測試。
後續估計也會有其他開發者推出類似工具並支援OCR 和AI 服務,當然這類服務要伺服器支撐,所以後面就是有線上工具要收費的花各位也不必驚訝。