วันศุกร์ที่ 11 กรกฎาคม พ.ศ. 2568

 

บทความ: โปรแกรมถอดเสียงจากวิดีโอเป็นตัวหนังสือฟรี พร้อมไทม์ไลน์: ทางเลือกออนไลน์และออฟไลน์

การแปลงเสียงพูดในวิดีโอให้เป็นข้อความเป็นสิ่งจำเป็นในหลายบริบท ไม่ว่าจะเป็นการสร้างคำบรรยาย (Subtitles), การทำบันทึกการประชุม, การถอดเทปสัมภาษณ์, หรือการสรุปบทเรียนจากวิดีโอ การมีไทม์ไลน์ของข้อความเป็นสิ่งสำคัญเพื่อให้สามารถอ้างอิงช่วงเวลาการพูดได้อย่างแม่นยำ บทความนี้จะนำเสนอโปรแกรมและวิธีการถอดเสียงจากวิดีโอที่สามารถใช้งานได้ฟรี ทั้งในรูปแบบออนไลน์และออฟไลน์ พร้อมคำแนะนำในการใช้งานและข้อจำกัด


ส่วนที่ 1: โปรแกรม/บริการถอดเสียงจากวิดีโอพร้อมไทม์ไลน์ (ออนไลน์ ฟรี/มีข้อจำกัดฟรี)

โปรแกรมเหล่านี้เป็นที่นิยมและใช้งานง่าย เหมาะสำหรับผู้ที่สามารถเชื่อมต่ออินเทอร์เน็ตได้ และต้องการความสะดวกสบายในการใช้งานโดยไม่ต้องติดตั้งโปรแกรมซับซ้อน

  1. CapCut

    • มันคืออะไร: โปรแกรมตัดต่อวิดีโอที่มีฟังก์ชัน AI ในการถอดเสียงเป็นข้อความและสร้างคำบรรยายอัตโนมัติ ใช้งานง่ายและได้รับความนิยมอย่างมาก

    • สำหรับใคร: ผู้สร้างเนื้อหา (Content Creator), นักเรียน, นักวิจัย, หรือบุคคลทั่วไป

    • จะใช้งานได้อย่างไร: อัปโหลดวิดีโอของคุณไปยัง CapCut (มีทั้งเวอร์ชันบนเว็บและแอปมือถือ) จากนั้นเลือกฟังก์ชัน "สร้างคำบรรยายอัตโนมัติ" (Auto-subtitle) หรือ "ถอดเสียง" (Transcribe) โปรแกรมจะสร้างข้อความพร้อมไทม์ไลน์

    • ข้อจำกัดของระบบ: สามารถใช้งานได้บนอุปกรณ์ Windows, Mac, Android, iPhone และ Web Browser

    • มีค่าบริการหรือไม่: มีฟังก์ชันฟรีให้ใช้งาน และมีคุณสมบัติเพิ่มเติมที่ต้องสมัครสมาชิก (Premium)

    • ลิงก์ที่เกี่ยวข้อง: CapCut Website

  2. Transkriptor

    • มันคืออะไร: เครื่องมือถอดเสียงที่ขับเคลื่อนด้วย AI สามารถแปลงเสียงและวิดีโอเป็นข้อความได้อย่างแม่นยำสูง พร้อมการประทับเวลา

    • สำหรับใคร: นักเรียน, นักวิจัย, ผู้ที่ต้องถอดเสียงการประชุม, การสัมภาษณ์ หรือพอดแคสต์

    • จะใช้งานได้อย่างไร: อัปโหลดไฟล์วิดีโอของคุณไปยัง Transkriptor (ผ่านเว็บแอปพลิเคชันหรือแอปมือถือ) ระบบจะใช้ AI ในการถอดเสียง ระบุผู้พูด และสร้างข้อความพร้อมการประทับเวลา

    • ข้อจำกัดของระบบ: รองรับการถอดเสียงมากกว่า 100 ภาษา มีการประทับเวลาและระบุผู้พูด

    • มีค่าบริการหรือไม่: สามารถใช้งานฟรีสำหรับการถอดเสียงหรือวิดีโอที่มีความยาวไม่เกิน 5 นาที หากต้องการใช้งานเต็มรูปแบบจะต้องสมัครสมาชิก

    • ลิงก์ที่เกี่ยวข้อง: Transkriptor Website

  3. NoteGPT (เน้น YouTube)

    • มันคืออะไร: เครื่องมือออนไลน์ฟรีที่ช่วยแปลงวิดีโอ YouTube เป็นข้อความพร้อมการประทับเวลา และยังสามารถสรุปเนื้อหาได้ด้วย AI

    • สำหรับใคร: นักเรียน, นักวิจัย, ผู้สร้างเนื้อหา (YouTube Creator), หรือผู้ที่ต้องการสรุปและถอดเสียงวิดีโอจาก YouTube

    • จะใช้งานได้อย่างไร: คัดลอกลิงก์วิดีโอ YouTube มาวางใน NoteGPT แล้วกด "Generate" ระบบจะแปลงวิดีโอเป็นข้อความพร้อมการประทับเวลา

    • ข้อจำกัดของระบบ: เน้นการทำงานกับวิดีโอ YouTube เป็นหลัก ให้ความแม่นยำสูง

    • มีค่าบริการหรือไม่: มีเวอร์ชันฟรีให้ใช้งาน

    • ลิงก์ที่เกี่ยวข้อง: NoteGPT Website

  4. Any2Text

    • มันคืออะไร: ซอฟต์แวร์แปลงเสียงและวิดีโอเป็นข้อความออนไลน์ที่ไม่ต้องลงทะเบียน

    • สำหรับใคร: บุคคลทั่วไปที่ต้องการถอดเสียงไฟล์วิดีโอหรือเสียงอย่างรวดเร็ว

    • จะใช้งานได้อย่างไร: อัปโหลดไฟล์วิดีโอ (รองรับ MP4, MKV, FLV, AVI, MOV, WMV) หรือเสียงของคุณ จากนั้นคลิก "Transcribe" เมื่อถอดเสียงเสร็จสิ้น สามารถดาวน์โหลดเป็นไฟล์ DOCX, XLSX, SRT หรือ TXT ได้

    • มีค่าบริการหรือไม่: มีการทดลองใช้ฟรี และอาจมีค่าบริการสำหรับปริมาณการใช้งานที่มากขึ้น

    • ลิงก์ที่เกี่ยวข้อง: Any2Text Website


ส่วนที่ 2: โปรแกรมถอดเสียงแบบออฟไลน์ (ติดตั้งบนเครื่อง)

การถอดเสียงแบบออฟไลน์โดยใช้ AI ที่แม่นยำและฟรีทั้งหมดนั้นค่อนข้างจำกัด แต่มีทางเลือกที่สามารถทำได้ หากยินดีที่จะประนีประนอมในบางประเด็น

  1. VLC Media Player + oTranscribe (ถอดเสียงด้วยตนเองแบบออฟไลน์)

    • มันคืออะไร: VLC เป็นโปรแกรมเล่นมีเดียยอดนิยม ส่วน oTranscribe เป็นเว็บแอปพลิเคชันที่ออกแบบมาเพื่อช่วยในการถอดเสียงแบบแมนวล

    • สำหรับใคร: ผู้ที่ต้องการควบคุมกระบวนการถอดเสียงด้วยตนเอง, เน้นความเป็นส่วนตัวของข้อมูล, และต้องการทำงานแบบออฟไลน์โดยไม่มีข้อจำกัดด้านเวลา

    • จะใช้งานได้อย่างไร:

      • ติดตั้ง VLC Media Player: ดาวน์โหลดและติดตั้ง VLC บนคอมพิวเตอร์ของคุณ

      • การใช้งาน oTranscribe แบบออฟไลน์ (สำคัญมาก):

        1. เข้าถึง oTranscribe ออนไลน์ครั้งแรก: เปิดเว็บเบราว์เซอร์ของคุณ (Chrome, Firefox, Edge) และเข้าสู่เว็บไซต์ของ oTranscribe: oTranscribe Website

        2. รอให้โหลดหน้าเว็บจนเสร็จ: เมื่อหน้าเว็บโหลดเสร็จสมบูรณ์ เบราว์เซอร์จะเก็บข้อมูลของหน้าเว็บและไฟล์ JavaScript ที่จำเป็นไว้ในแคช (Cache) ของเครื่องคุณ

        3. ตัดการเชื่อมต่ออินเทอร์เน็ต: ตอนนี้คุณสามารถปิด Wi-Fi หรือถอดสาย LAN ออกจากคอมพิวเตอร์ได้เลย

        4. เปิด oTranscribe อีกครั้ง (แบบออฟไลน์): พิมพ์ otranscribe.com ในแถบที่อยู่ของเบราว์เซอร์อีกครั้ง หรือเปิดจากบุ๊กมาร์กที่คุณบันทึกไว้ เบราว์เซอร์จะโหลดหน้า oTranscribe จากแคชบนเครื่องของคุณ ทำให้สามารถใช้งานได้แม้ไม่มีอินเทอร์เน็ต

        5. อัปโหลดไฟล์วิดีโอ/เสียงใน oTranscribe: คลิกที่ปุ่ม "Choose audio or video file" (รูปไอคอนไฟล์) เพื่อเลือกไฟล์วิดีโอของคุณ (VLC และ oTranscribe ทำงานแยกกัน แต่คุณจะใช้ oTranscribe เป็นเครื่องมือพิมพ์และประทับเวลา)

        6. เริ่มถอดเสียง: เล่นวิดีโอใน VLC (หรือใน oTranscribe ถ้าไฟล์ไม่ใหญ่มาก) แล้วพิมพ์ข้อความลงในช่องของ oTranscribe ใช้คีย์ลัดที่ oTranscribe กำหนด (เช่น Esc เพื่อ Play/Pause, F1 เพื่อ Rewind, F2 เพื่อ Fast-forward) เพื่อควบคุมการเล่นวิดีโอให้ตรงกับการพิมพ์ของคุณ oTranscribe จะช่วยประทับเวลาให้โดยอัตโนมัติเมื่อคุณกด Pause

        7. บันทึกงาน: ข้อความจะถูกบันทึกอัตโนมัติในเบราว์เซอร์ของคุณทุกวินาที เมื่อเสร็จสิ้น คุณสามารถ Export งานออกมาเป็นไฟล์ข้อความ (Plain Text) หรือไฟล์ SubRip (SRT) ที่มีไทม์ไลน์ได้

    • ข้อจำกัด: ไม่ใช่การถอดเสียงอัตโนมัติ ต้องพิมพ์ด้วยตนเอง แต่เป็นวิธีฟรีและทำงานออฟไลน์ได้จริงโดยไม่มีข้อจำกัดด้านเวลา และไฟล์ข้อมูลของคุณจะอยู่บนเครื่องเท่านั้น (เน้นความเป็นส่วนตัว)

    • มีค่าบริการหรือไม่: ฟรีและเป็น Open Source

  2. การใช้ AI Transcription Models (สำหรับผู้มีทักษะทางเทคนิค)

    • มันคืออะไร: การดาวน์โหลดโมเดลปัญญาประดิษฐ์สำหรับการถอดเสียง เช่น Whisper ของ OpenAI มาติดตั้งและรันบนเครื่องของคุณเอง

    • สำหรับใคร: ผู้ที่มีความรู้ด้านคอมพิวเตอร์และเขียนโปรแกรมได้ (เช่น Python) หรือยินดีที่จะเรียนรู้การติดตั้งและใช้งาน

    • จะใช้งานได้อย่างไร:

      • ติดตั้ง Python: ดาวน์โหลด Python เวอร์ชันล่าสุด

      • ติดตั้งไลบรารี Whisper: เปิด Command Prompt (Windows) หรือ Terminal (Mac/Linux) แล้วพิมพ์คำสั่ง:

        Bash
        pip install transformers torch openai-whisper
        

        (อาจต้องติดตั้ง ffmpeg เพิ่มเติมสำหรับการประมวลผลไฟล์มีเดีย: FFmpeg Website)

      • ดาวน์โหลดโมเดล Whisper: โมเดลจะถูกดาวน์โหลดโดยอัตโนมัติเมื่อคุณรันโค้ด Python ครั้งแรก (ต้องมีอินเทอร์เน็ตในการดาวน์โหลดครั้งแรกเท่านั้น) เลือกขนาดโมเดลที่ต้องการ เช่น "base", "medium", "large" (ขนาดใหญ่แม่นยำกว่า แต่ใช้ทรัพยากรเครื่องมากกว่า)

      • เขียนและรันโค้ด Python:

        โค้ด Python:

        
        import whisper
        
        # โหลดโมเดล (การโหลดครั้งแรกต้องใช้อินเทอร์เน็ต)
        # ตัวอย่าง: "base", "medium", "large"
        model = whisper.load_model("base") 
        
        # ระบุ path ของไฟล์วิดีโอ/เสียงของคุณ
        video_path = "C:/Users/YourUser/Videos/my_lecture.mp4" # แก้ไข Path ตามไฟล์ของคุณ
        
        # ทำการถอดเสียง (อาจใช้เวลานานขึ้นอยู่กับความยาวไฟล์และสเปกคอมพิวเตอร์)
        print("กำลังถอดเสียง... โปรดรอสักครู่")
        result = model.transcribe(video_path, word_timestamps=True) # word_timestamps=True เพื่อให้ได้ไทม์ไลน์
        
        # แสดงผลลัพธ์พร้อมไทม์ไลน์
        print("\nข้อความที่ถอดพร้อมไทม์ไลน์:")
        for segment in result["segments"]:
            start_time = segment["start"]
            end_time = segment["end"]
            text = segment["text"]
            print(f"[{start_time:.2f}-{end_time:.2f}] {text}")
        
        # ตัวอย่างการบันทึกเป็นไฟล์ SRT (คำบรรยาย)
        # ต้องติดตั้งไลบรารี srt: pip install srt
        try:
            import srt
            subs = []
            for segment in result["segments"]:
                subs.append(srt.Subtitle(index=len(subs)+1, 
                                        start=srt.timedelta(seconds=segment['start']), 
                                        end=srt.timedelta(seconds=segment['end']), 
                                        content=segment['text'].strip()))
            
            output_srt_path = video_path.replace(".mp4", ".srt").replace(".mov", ".srt") # เปลี่ยนนามสกุลไฟล์
            with open(output_srt_path, "w", encoding="utf-8") as f:
                f.write(srt.compose(subs))
            print(f"\nบันทึกไฟล์ SRT ที่: {output_srt_path}")
        except ImportError:
            print("\nไม่สามารถบันทึกเป็นไฟล์ SRT ได้: ติดตั้ง 'srt' library ก่อน (pip install srt)")
            

        อธิบายโค้ด:

        • import whisper: นำเข้าไลบรารี Whisper

        • model = whisper.load_model("base"): โหลดโมเดล AI "base" (ขนาดเล็กแต่ใช้งานได้ดี) เพื่อใช้ในการถอดเสียง การโหลดครั้งแรกจะดาวน์โหลดโมเดลมาเก็บไว้ในเครื่องคุณ และหลังจากนั้นสามารถใช้งานแบบออฟไลน์ได้

        • video_path = "...": เปลี่ยน Path นี้เป็นที่อยู่ของไฟล์วิดีโอของคุณ

        • model.transcribe(video_path, word_timestamps=True): คำสั่งนี้จะเรียกใช้โมเดล Whisper เพื่อถอดเสียงจากไฟล์วิดีโอที่ระบุ โดย word_timestamps=True จะสั่งให้โมเดลสร้างข้อมูลช่วงเวลาของแต่ละคำหรือประโยคที่ถอดออกมา

        • ส่วนของ for segment in result["segments"]: จะวนลูปเพื่อแสดงผลลัพธ์การถอดเสียง ซึ่งจะแบ่งเป็นช่วงเวลา พร้อมเวลาเริ่มต้นและสิ้นสุดของแต่ละข้อความ

        • ส่วนท้ายเป็นโค้ดเพิ่มเติมสำหรับการบันทึกผลลัพธ์เป็นไฟล์ SRT ซึ่งเป็นรูปแบบไฟล์คำบรรยายมาตรฐาน (ถ้าต้องการใช้ ต้องติดตั้งไลบรารี srt เพิ่มเติม)

    • ข้อจำกัด:

      • ต้องใช้ทักษะทางเทคนิค: ไม่ใช่โปรแกรมสำเร็จรูปทั่วไป ต้องมีการติดตั้งและตั้งค่าด้วยตนเอง

      • ใช้ทรัพยากรเครื่องสูง: โดยเฉพาะโมเดลขนาดใหญ่ อาจต้องใช้ GPU เพื่อการประมวลผลที่รวดเร็ว หากใช้ CPU อาจใช้เวลานานมากสำหรับไฟล์ยาวๆ (เช่น วิดีโอ 30 นาทีขึ้นไป)

      • การดาวน์โหลดโมเดลครั้งแรกต้องออนไลน์: แต่หลังจากนั้นสามารถรันแบบออฟไลน์ได้


สรุปและคำแนะนำเพิ่มเติม:

หากคุณต้องการ "ฟรี + ติดตั้งบนเครื่อง + ออฟไลน์ + ไม่จำกัดเวลา" ตัวเลือกที่ตรงที่สุดคือการ ใช้ VLC Media Player คู่กับ oTranscribe และถอดเสียงด้วยตนเอง ซึ่งให้ความเป็นส่วนตัวสูงสุดและไม่มีข้อจำกัดด้านเวลา แต่ต้องใช้แรงงานคนในการพิมพ์

สำหรับผู้ที่พร้อมจะลงทุนด้านเวลาและความรู้ทางเทคนิคเล็กน้อย Whisper ของ OpenAI เป็นโซลูชัน AI ถอดเสียงแบบออฟไลน์ที่ฟรีและมีคุณภาพสูงมาก แต่ต้องใช้ทรัพยากรเครื่องพอสมควรและมีการตั้งค่าเริ่มต้นที่ต้องทำผ่านโค้ด

หวังว่าบทความนี้จะเป็นประโยชน์และช่วยให้คุณสามารถถอดเสียงจากวิดีโอได้อย่างที่ต้องการนะครับ!

***********************************************************************************
ปัญหาโค้ดยาวทะลุจอ เนื่องจากธีมที่ใช้อยู่ ไม่ได้ปรับแต่ง Code Container ใว้
ทำให้ไม่สามารถสร้างกรอป ครอบโค้ดได้ แล้วโค้ดที่นำมาจาก Gemini จะมี Syntax Highlighting อยู่ด้วย
การที่จะให้แสดงผลได้เช่นเดียวกัน ผมจำต้องปรับปรุงบล็อกนี้หลายอย่าง เนื่องจากไม่ชำนาน และอาจต้องแก้ไขรูปแบบบทความทั้งหมด จึงขอแสดงผมในรูปแบบนี้ ซึ่งสะดวกต่อผมเองมากกว่าครับแล้วมันก็ยังแสดงผลได้ครบถ้วนเช่นเดิม


ไม่มีความคิดเห็น:

แสดงความคิดเห็น