Công cụ mã nguồn mở của Microsoft: Đưa các tệp vào và chuyển đổi thành định dạng Markdown chỉ với 1 cú nhấp chuột

Tháp rơi tự do
Tháp rơi tự do
Phản hồi: 0

Tháp rơi tự do

Intern Writer
Tôi có một đống báo cáo PDF, hợp đồng Word, bảng tính Excel, bài thuyết trình PowerPoint, ảnh chụp màn hình do sếp tôi chụp, bản ghi âm cuộc họp… Tôi muốn đưa chúng vào một mô hình lớn để tóm tắt và xây dựng cơ sở tri thức RAG.Hoặc bạn có thể phân tích dữ liệu trực tiếp, và kết quả sẽ như thế nào?

Việc sao chép và dán dẫn đến định dạng bị lỗi, bảng bị sập và hình ảnh hoàn toàn không thể đọc được. Sau tất cả công sức đó, tất cả những gì tôi nhận được chỉ là một đống dữ liệu rác.

hình ảnh

Tôi cũng từng như vậy, cảm giác muốn đập vỡ cái máy tính của mình.

Gần đây tôi đang xây dựng kho kiến thức cá nhân của mình và rất cần một công cụ để chuyển đổi nó sang định dạng Markdown, đó là lý do tôi tìm thấy công cụ mã nguồn mở của Microsoft - MarkItDown.

hình ảnh

Công cụ này là một công cụ Python nhẹ, chỉ thực hiện một việc duy nhất.

Chuyển đổi tất cả các loại tệp và tài liệu Office sang định dạng Markdown, một định dạng có cấu trúc tốt và được người dùng LLM ưa chuộng.

Đây không phải là loại văn bản thuần túy cứng nhắc; nó cố gắng giữ lại các cấu trúc như tiêu đề, danh sách, bảng và liên kết, khiến nó đọc khá giống với văn bản của con người.

So với TeXtract đã có chỗ đứng trên thị trường, công cụ này không chỉ trích xuất văn bản thuần túy mà còn bảo toàn cấu trúc tài liệu một cách hoàn hảo : tiêu đề, danh sách, bảng và liên kết đều được bao gồm. Mô hình Markdown đầu ra dễ đọc ngay lập tức và tiết kiệm được rất nhiều token!

hình ảnh

Mặc dù vẫn có thể xem được ngay cả sau khi chuyển đổi, chức năng chính của nó là xử lý trước tài liệu bằng AI , chứ không phải tạo ra bố cục đẹp mắt cho người dùng.

Trước tiên, hãy cùng tìm hiểu xem nó thực sự có thể làm được gì​

Hiện tại, MarkItDown hỗ trợ các định dạng sau (bao gồm 99% các trường hợp sử dụng hàng ngày):

Bộ phần mềm Microsoft Office đầy đủ bao gồm : .docx (Word), .pptx (PowerPoint) và .xlsx/.xls (Excel).PDF : Bảng biểu, văn bản và bố cục được giữ nguyên ở mức tối đa.Hình ảnh : JPG, PNG, v.v., hỗ trợ trích xuất văn bản bằng OCR.+ Siêu dữ liệu EXIFCác định dạng âm thanh : MP3, WAV, v.v., hỗ trợ chuyển đổi giọng nói thành văn bản.+ Siêu dữ liệuTrang web và tệp dữ liệu : HTML, CSV, JSON, XMLCác định dạng khác bao gồm : sách điện tử EPUB, Jupyter Notebooks (.ipynb), và thậm chí cả các tệp lưu trữ ZIP (nó sẽ tự động chuyển đổi tất cả các tệp được hỗ trợ bên trong!).Công nghệ tiên tiến : Nó thậm chí có thể chuyển đổi trực tiếp các liên kết YouTube (nó sẽ tự động trích xuất phụ đề và phiên âm chúng).
Tóm lại: Về cơ bản, bất kỳ tài liệu, bảng tính, bài thuyết trình, hình ảnh hoặc bản ghi âm nào bạn đưa vào đều sẽ tạo ra đầu ra Markdown sạch.

Bạn không cần phải lo lắng về việc "không hiểu mô hình khổ lớn này" nữa.

Việc cài đặt và sử dụng cực kỳ đơn giản (chỉ mất 5 phút để bắt đầu).​

1. Cài đặt (khuyến nghị phiên bản đầy đủ tính năng)​

Cài đặt tất cả các phần mềm phụ thuộc chỉ với một cú nhấp chuột; chuyển đổi tất cả các định dạng: pip install 'markitdown[all]'
([all] sẽ cài đặt tất cả các phần mềm phụ thuộc như PDF, Office, nhận dạng ký tự quang học hình ảnh và chuyển đổi âm thanh thành văn bản. Quá trình cài đặt lần đầu có thể hơi chậm, nhưng sau đó sẽ rất nhanh.)

pip install 'markitdown[pdf,docx,pptx]'

2. Chuyển đổi chỉ với một cú nhấp chuột thông qua dòng lệnh (phương pháp được khuyến nghị nhất cho người mới bắt đầu)​


markitdown <tên tài liệu>.pdf -o <đầu ra>.md

Đơn giản vậy thôi! Mở cửa sổ dòng lệnh, gõ một lệnh, và tệp Markdown sẽ hiện ra.

3. Gọi mã Python​

Screenshot 2026-04-13 at 22.32.43.png

Nếu thấy hay, hãy like, chia sẻ và bình luận nhé! Cảm ơn mọi người!
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL2NvbmctY3UtbWEtbmd1b24tbW8tY3VhLW1pY3Jvc29mdC1kdWEtY2FjLXRlcC12YW8tdmEtY2h1eWVuLWRvaS10aGFuaC1kaW5oLWRhbmctbWFya2Rvd24tY2hpLXZvaS0xLWN1LW5oYXAtY2h1b3QuODE3NzEv
Top