บทความ: โปรแกรมถอดเสียงจากวิดีโอเป็นตัวหนังสือฟรี พร้อมไทม์ไลน์: ทางเลือกออนไลน์และออฟไลน์
การแปลงเสียงพูดในวิดีโอให้เป็นข้อความเป็นสิ่งจำเป็นในหลายบริบท ไม่ว่าจะเป็นการสร้างคำบรรยาย (Subtitles), การทำบันทึกการประชุม, การถอดเทปสัมภาษณ์, หรือการสรุปบทเรียนจากวิดีโอ การมีไทม์ไลน์ของข้อความเป็นสิ่งสำคัญเพื่อให้สามารถอ้างอิงช่วงเวลาการพูดได้อย่างแม่นยำ บทความนี้จะนำเสนอโปรแกรมและวิธีการถอดเสียงจากวิดีโอที่สามารถใช้งานได้ฟรี ทั้งในรูปแบบออนไลน์และออฟไลน์ พร้อมคำแนะนำในการใช้งานและข้อจำกัด
ส่วนที่ 1: โปรแกรม/บริการถอดเสียงจากวิดีโอพร้อมไทม์ไลน์ (ออนไลน์ ฟรี/มีข้อจำกัดฟรี)
โปรแกรมเหล่านี้เป็นที่นิยมและใช้งานง่าย เหมาะสำหรับผู้ที่สามารถเชื่อมต่ออินเทอร์เน็ตได้ และต้องการความสะดวกสบายในการใช้งานโดยไม่ต้องติดตั้งโปรแกรมซับซ้อน
CapCut
มันคืออะไร: โปรแกรมตัดต่อวิดีโอที่มีฟังก์ชัน AI ในการถอดเสียงเป็นข้อความและสร้างคำบรรยายอัตโนมัติ ใช้งานง่ายและได้รับความนิยมอย่างมาก
สำหรับใคร: ผู้สร้างเนื้อหา (Content Creator), นักเรียน, นักวิจัย, หรือบุคคลทั่วไป
จะใช้งานได้อย่างไร: อัปโหลดวิดีโอของคุณไปยัง CapCut (มีทั้งเวอร์ชันบนเว็บและแอปมือถือ) จากนั้นเลือกฟังก์ชัน "สร้างคำบรรยายอัตโนมัติ" (Auto-subtitle) หรือ "ถอดเสียง" (Transcribe) โปรแกรมจะสร้างข้อความพร้อมไทม์ไลน์
ข้อจำกัดของระบบ: สามารถใช้งานได้บนอุปกรณ์ Windows, Mac, Android, iPhone และ Web Browser
มีค่าบริการหรือไม่: มีฟังก์ชันฟรีให้ใช้งาน และมีคุณสมบัติเพิ่มเติมที่ต้องสมัครสมาชิก (Premium)
ลิงก์ที่เกี่ยวข้อง:
CapCut Website
Transkriptor
มันคืออะไร: เครื่องมือถอดเสียงที่ขับเคลื่อนด้วย AI สามารถแปลงเสียงและวิดีโอเป็นข้อความได้อย่างแม่นยำสูง พร้อมการประทับเวลา
สำหรับใคร: นักเรียน, นักวิจัย, ผู้ที่ต้องถอดเสียงการประชุม, การสัมภาษณ์ หรือพอดแคสต์
จะใช้งานได้อย่างไร: อัปโหลดไฟล์วิดีโอของคุณไปยัง Transkriptor (ผ่านเว็บแอปพลิเคชันหรือแอปมือถือ) ระบบจะใช้ AI ในการถอดเสียง ระบุผู้พูด และสร้างข้อความพร้อมการประทับเวลา
ข้อจำกัดของระบบ: รองรับการถอดเสียงมากกว่า 100 ภาษา มีการประทับเวลาและระบุผู้พูด
มีค่าบริการหรือไม่: สามารถใช้งานฟรีสำหรับการถอดเสียงหรือวิดีโอที่มีความยาวไม่เกิน 5 นาที หากต้องการใช้งานเต็มรูปแบบจะต้องสมัครสมาชิก
ลิงก์ที่เกี่ยวข้อง:
Transkriptor Website
NoteGPT (เน้น YouTube)
มันคืออะไร: เครื่องมือออนไลน์ฟรีที่ช่วยแปลงวิดีโอ YouTube เป็นข้อความพร้อมการประทับเวลา และยังสามารถสรุปเนื้อหาได้ด้วย AI
สำหรับใคร: นักเรียน, นักวิจัย, ผู้สร้างเนื้อหา (YouTube Creator), หรือผู้ที่ต้องการสรุปและถอดเสียงวิดีโอจาก YouTube
จะใช้งานได้อย่างไร: คัดลอกลิงก์วิดีโอ YouTube มาวางใน NoteGPT แล้วกด "Generate" ระบบจะแปลงวิดีโอเป็นข้อความพร้อมการประทับเวลา
ข้อจำกัดของระบบ: เน้นการทำงานกับวิดีโอ YouTube เป็นหลัก ให้ความแม่นยำสูง
มีค่าบริการหรือไม่: มีเวอร์ชันฟรีให้ใช้งาน
ลิงก์ที่เกี่ยวข้อง:
NoteGPT Website
Any2Text
มันคืออะไร: ซอฟต์แวร์แปลงเสียงและวิดีโอเป็นข้อความออนไลน์ที่ไม่ต้องลงทะเบียน
สำหรับใคร: บุคคลทั่วไปที่ต้องการถอดเสียงไฟล์วิดีโอหรือเสียงอย่างรวดเร็ว
จะใช้งานได้อย่างไร: อัปโหลดไฟล์วิดีโอ (รองรับ MP4, MKV, FLV, AVI, MOV, WMV) หรือเสียงของคุณ จากนั้นคลิก "Transcribe" เมื่อถอดเสียงเสร็จสิ้น สามารถดาวน์โหลดเป็นไฟล์ DOCX, XLSX, SRT หรือ TXT ได้
มีค่าบริการหรือไม่: มีการทดลองใช้ฟรี และอาจมีค่าบริการสำหรับปริมาณการใช้งานที่มากขึ้น
ลิงก์ที่เกี่ยวข้อง:
Any2Text Website
ส่วนที่ 2: โปรแกรมถอดเสียงแบบออฟไลน์ (ติดตั้งบนเครื่อง)
การถอดเสียงแบบออฟไลน์โดยใช้ AI ที่แม่นยำและฟรีทั้งหมดนั้นค่อนข้างจำกัด แต่มีทางเลือกที่สามารถทำได้ หากยินดีที่จะประนีประนอมในบางประเด็น
VLC Media Player + oTranscribe (ถอดเสียงด้วยตนเองแบบออฟไลน์)
มันคืออะไร: VLC เป็นโปรแกรมเล่นมีเดียยอดนิยม ส่วน oTranscribe เป็นเว็บแอปพลิเคชันที่ออกแบบมาเพื่อช่วยในการถอดเสียงแบบแมนวล
สำหรับใคร: ผู้ที่ต้องการควบคุมกระบวนการถอดเสียงด้วยตนเอง, เน้นความเป็นส่วนตัวของข้อมูล, และต้องการทำงานแบบออฟไลน์โดยไม่มีข้อจำกัดด้านเวลา
จะใช้งานได้อย่างไร:
ติดตั้ง VLC Media Player: ดาวน์โหลดและติดตั้ง VLC บนคอมพิวเตอร์ของคุณ
ลิงก์ดาวน์โหลด:
VLC Media Player Official Website
การใช้งาน oTranscribe แบบออฟไลน์ (สำคัญมาก):
เข้าถึง oTranscribe ออนไลน์ครั้งแรก: เปิดเว็บเบราว์เซอร์ของคุณ (Chrome, Firefox, Edge) และเข้าสู่เว็บไซต์ของ oTranscribe:
oTranscribe Website รอให้โหลดหน้าเว็บจนเสร็จ: เมื่อหน้าเว็บโหลดเสร็จสมบูรณ์ เบราว์เซอร์จะเก็บข้อมูลของหน้าเว็บและไฟล์ JavaScript ที่จำเป็นไว้ในแคช (Cache) ของเครื่องคุณ
ตัดการเชื่อมต่ออินเทอร์เน็ต: ตอนนี้คุณสามารถปิด Wi-Fi หรือถอดสาย LAN ออกจากคอมพิวเตอร์ได้เลย
เปิด oTranscribe อีกครั้ง (แบบออฟไลน์): พิมพ์
otranscribe.com
ในแถบที่อยู่ของเบราว์เซอร์อีกครั้ง หรือเปิดจากบุ๊กมาร์กที่คุณบันทึกไว้ เบราว์เซอร์จะโหลดหน้า oTranscribe จากแคชบนเครื่องของคุณ ทำให้สามารถใช้งานได้แม้ไม่มีอินเทอร์เน็ตอัปโหลดไฟล์วิดีโอ/เสียงใน oTranscribe: คลิกที่ปุ่ม "Choose audio or video file" (รูปไอคอนไฟล์) เพื่อเลือกไฟล์วิดีโอของคุณ (VLC และ oTranscribe ทำงานแยกกัน แต่คุณจะใช้ oTranscribe เป็นเครื่องมือพิมพ์และประทับเวลา)
เริ่มถอดเสียง: เล่นวิดีโอใน VLC (หรือใน oTranscribe ถ้าไฟล์ไม่ใหญ่มาก) แล้วพิมพ์ข้อความลงในช่องของ oTranscribe ใช้คีย์ลัดที่ oTranscribe กำหนด (เช่น
Esc
เพื่อ Play/Pause,F1
เพื่อ Rewind,F2
เพื่อ Fast-forward) เพื่อควบคุมการเล่นวิดีโอให้ตรงกับการพิมพ์ของคุณ oTranscribe จะช่วยประทับเวลาให้โดยอัตโนมัติเมื่อคุณกด Pauseบันทึกงาน: ข้อความจะถูกบันทึกอัตโนมัติในเบราว์เซอร์ของคุณทุกวินาที เมื่อเสร็จสิ้น คุณสามารถ Export งานออกมาเป็นไฟล์ข้อความ (Plain Text) หรือไฟล์ SubRip (SRT) ที่มีไทม์ไลน์ได้
ข้อจำกัด: ไม่ใช่การถอดเสียงอัตโนมัติ ต้องพิมพ์ด้วยตนเอง แต่เป็นวิธีฟรีและทำงานออฟไลน์ได้จริงโดยไม่มีข้อจำกัดด้านเวลา และไฟล์ข้อมูลของคุณจะอยู่บนเครื่องเท่านั้น (เน้นความเป็นส่วนตัว)
มีค่าบริการหรือไม่: ฟรีและเป็น Open Source
การใช้ AI Transcription Models (สำหรับผู้มีทักษะทางเทคนิค)
มันคืออะไร: การดาวน์โหลดโมเดลปัญญาประดิษฐ์สำหรับการถอดเสียง เช่น Whisper ของ OpenAI มาติดตั้งและรันบนเครื่องของคุณเอง
สำหรับใคร: ผู้ที่มีความรู้ด้านคอมพิวเตอร์และเขียนโปรแกรมได้ (เช่น Python) หรือยินดีที่จะเรียนรู้การติดตั้งและใช้งาน
จะใช้งานได้อย่างไร:
ติดตั้ง Python: ดาวน์โหลด Python เวอร์ชันล่าสุด
ลิงก์ดาวน์โหลด:
Python Official Website
ติดตั้งไลบรารี Whisper: เปิด Command Prompt (Windows) หรือ Terminal (Mac/Linux) แล้วพิมพ์คำสั่ง:
Bashpip install transformers torch openai-whisper
(อาจต้องติดตั้ง
ffmpeg
เพิ่มเติมสำหรับการประมวลผลไฟล์มีเดีย: )FFmpeg Website ดาวน์โหลดโมเดล Whisper: โมเดลจะถูกดาวน์โหลดโดยอัตโนมัติเมื่อคุณรันโค้ด Python ครั้งแรก (ต้องมีอินเทอร์เน็ตในการดาวน์โหลดครั้งแรกเท่านั้น) เลือกขนาดโมเดลที่ต้องการ เช่น "base", "medium", "large" (ขนาดใหญ่แม่นยำกว่า แต่ใช้ทรัพยากรเครื่องมากกว่า)
เขียนและรันโค้ด Python:
โค้ด Python:
import whisper # โหลดโมเดล (การโหลดครั้งแรกต้องใช้อินเทอร์เน็ต) # ตัวอย่าง: "base", "medium", "large" model = whisper.load_model("base") # ระบุ path ของไฟล์วิดีโอ/เสียงของคุณ video_path = "C:/Users/YourUser/Videos/my_lecture.mp4" # แก้ไข Path ตามไฟล์ของคุณ # ทำการถอดเสียง (อาจใช้เวลานานขึ้นอยู่กับความยาวไฟล์และสเปกคอมพิวเตอร์) print("กำลังถอดเสียง... โปรดรอสักครู่") result = model.transcribe(video_path, word_timestamps=True) # word_timestamps=True เพื่อให้ได้ไทม์ไลน์ # แสดงผลลัพธ์พร้อมไทม์ไลน์ print("\nข้อความที่ถอดพร้อมไทม์ไลน์:") for segment in result["segments"]: start_time = segment["start"] end_time = segment["end"] text = segment["text"] print(f"[{start_time:.2f}-{end_time:.2f}] {text}") # ตัวอย่างการบันทึกเป็นไฟล์ SRT (คำบรรยาย) # ต้องติดตั้งไลบรารี srt: pip install srt try: import srt subs = [] for segment in result["segments"]: subs.append(srt.Subtitle(index=len(subs)+1, start=srt.timedelta(seconds=segment['start']), end=srt.timedelta(seconds=segment['end']), content=segment['text'].strip())) output_srt_path = video_path.replace(".mp4", ".srt").replace(".mov", ".srt") # เปลี่ยนนามสกุลไฟล์ with open(output_srt_path, "w", encoding="utf-8") as f: f.write(srt.compose(subs)) print(f"\nบันทึกไฟล์ SRT ที่: {output_srt_path}") except ImportError: print("\nไม่สามารถบันทึกเป็นไฟล์ SRT ได้: ติดตั้ง 'srt' library ก่อน (pip install srt)")
อธิบายโค้ด:
import whisper
: นำเข้าไลบรารี Whispermodel = whisper.load_model("base")
: โหลดโมเดล AI "base" (ขนาดเล็กแต่ใช้งานได้ดี) เพื่อใช้ในการถอดเสียง การโหลดครั้งแรกจะดาวน์โหลดโมเดลมาเก็บไว้ในเครื่องคุณ และหลังจากนั้นสามารถใช้งานแบบออฟไลน์ได้video_path = "..."
: เปลี่ยน Path นี้เป็นที่อยู่ของไฟล์วิดีโอของคุณmodel.transcribe(video_path, word_timestamps=True)
: คำสั่งนี้จะเรียกใช้โมเดล Whisper เพื่อถอดเสียงจากไฟล์วิดีโอที่ระบุ โดยword_timestamps=True
จะสั่งให้โมเดลสร้างข้อมูลช่วงเวลาของแต่ละคำหรือประโยคที่ถอดออกมาส่วนของ
for segment in result["segments"]:
จะวนลูปเพื่อแสดงผลลัพธ์การถอดเสียง ซึ่งจะแบ่งเป็นช่วงเวลา พร้อมเวลาเริ่มต้นและสิ้นสุดของแต่ละข้อความส่วนท้ายเป็นโค้ดเพิ่มเติมสำหรับการบันทึกผลลัพธ์เป็นไฟล์ SRT ซึ่งเป็นรูปแบบไฟล์คำบรรยายมาตรฐาน (ถ้าต้องการใช้ ต้องติดตั้งไลบรารี
srt
เพิ่มเติม)
ข้อจำกัด:
ต้องใช้ทักษะทางเทคนิค: ไม่ใช่โปรแกรมสำเร็จรูปทั่วไป ต้องมีการติดตั้งและตั้งค่าด้วยตนเอง
ใช้ทรัพยากรเครื่องสูง: โดยเฉพาะโมเดลขนาดใหญ่ อาจต้องใช้ GPU เพื่อการประมวลผลที่รวดเร็ว หากใช้ CPU อาจใช้เวลานานมากสำหรับไฟล์ยาวๆ (เช่น วิดีโอ 30 นาทีขึ้นไป)
การดาวน์โหลดโมเดลครั้งแรกต้องออนไลน์: แต่หลังจากนั้นสามารถรันแบบออฟไลน์ได้
สรุปและคำแนะนำเพิ่มเติม:
หากคุณต้องการ "ฟรี + ติดตั้งบนเครื่อง + ออฟไลน์ + ไม่จำกัดเวลา" ตัวเลือกที่ตรงที่สุดคือการ ใช้ VLC Media Player คู่กับ oTranscribe และถอดเสียงด้วยตนเอง ซึ่งให้ความเป็นส่วนตัวสูงสุดและไม่มีข้อจำกัดด้านเวลา แต่ต้องใช้แรงงานคนในการพิมพ์
สำหรับผู้ที่พร้อมจะลงทุนด้านเวลาและความรู้ทางเทคนิคเล็กน้อย Whisper ของ OpenAI เป็นโซลูชัน AI ถอดเสียงแบบออฟไลน์ที่ฟรีและมีคุณภาพสูงมาก แต่ต้องใช้ทรัพยากรเครื่องพอสมควรและมีการตั้งค่าเริ่มต้นที่ต้องทำผ่านโค้ด
หวังว่าบทความนี้จะเป็นประโยชน์และช่วยให้คุณสามารถถอดเสียงจากวิดีโอได้อย่างที่ต้องการนะครับ!
***********************************************************************************
ปัญหาโค้ดยาวทะลุจอ เนื่องจากธีมที่ใช้อยู่ ไม่ได้ปรับแต่ง Code Container ใว้
ทำให้ไม่สามารถสร้างกรอป ครอบโค้ดได้ แล้วโค้ดที่นำมาจาก Gemini จะมี Syntax Highlighting อยู่ด้วย
การที่จะให้แสดงผลได้เช่นเดียวกัน ผมจำต้องปรับปรุงบล็อกนี้หลายอย่าง เนื่องจากไม่ชำนาน และอาจต้องแก้ไขรูปแบบบทความทั้งหมด จึงขอแสดงผมในรูปแบบนี้ ซึ่งสะดวกต่อผมเองมากกว่าครับแล้วมันก็ยังแสดงผลได้ครบถ้วนเช่นเดิม