GPT-4o, AI ที่ใกล้เป็นมนุษย์ยิ่งขึ้น
Input-Output ข้อความ เสียง ภาพ
GenAI ที่ก้าวล้ำมากที่สุดในปัจจุบัน
สุทธิชัย ทักษนันต์
โมเดล Generative AI ใหม่ล่าสุดจาก OpenAI คือ GPT-4o (ไม่เรียกว่า GPT-5 อย่างที่คาด) โดย “o” มาจากคำว่า “omni” เป็นโมเดลรุ่นเรือธงที่มีประสิทธิภาพที่สุด และจะให้คนทั่วไปใช้ฟรี
โมเดลเดิมที่ใช้กันอยู่ในปัจจุบัน คือ GPT-3.5, GPT-4
ตัวอย่างของประสิทธิภาพที่ดีขึ้นเมื่อเทียบกับโมเดลรุ่นก่อนๆ
– Input และ Output ได้หลากหลายมิติพร้อมกัน คือ ข้อความ เสียง รูปภาพ วิดีโอ (ยกเว้น Output เฉพาะวิดีโอ)
– ความเร็วที่สามารถโต้ตอบกับ Input อยู่ที่ 232 Millisecond (232/1,000 วินาที) โดยมีค่าเฉลี่ยอยู่ที่ 320 Millisecond ซึ่งอยู่ในระดับเดียวกับการพูดโต้ตอบของมนุษย์
– การทำงานกับข้อความภาษาอังกฤษและการโค้ดดีเท่ากับโมเดล GPT-4 Turbo แต่ทำงานเร็วกว่าอย่างชัดเจน
– ค่าธรรมเนียมการติดตั้ง API โมเดล GPT-4o ต่ำกว่าเดิม 50%
– มีความสามารถเหนือกว่าโมเดลอื่นในเรื่องความเข้าใจ การมอง การฟังเสียง
– มี Latency หรือความหน่วงด้านเสียงเพียง 2.8 วินาที
– สามารถ Output เสียงที่มีอารมณ์ความรู้สึก สูงต่ำ ช้าหรือเร็ว พูดเสียดสีประชดประชันได้ ร้องเพลงได้ มันจะหยุดพูดเมื่อมีการแทรกพูดจากคน
ประสิทธิภาพใหม่ของ GPT-4o เริ่มใกล้ความเป็นมนุษย์มากขึ้น ทำได้ดีกว่าโมเดลอื่นของ OpenAI และเหนือกว่าคู่แข่งที่อยู่ในตลาด
ตัวอย่างที่มีการสาธิตการใช้งาน เช่น
- เป็นเพื่อนที่มองเห็นคุณ ได้ยินเสียงคุณ รู้ว่าคุณกำลังทำอะไร สามารถโต้ตอบได้ไม่ต่างจากเพื่อนคนหนึ่ง
- AI คุยกับ AI ด้วยกันเองได้
- GPT-4o เข้าใจภาพและเสียงที่เกิดขึ้นรอบข้าง
- คอยตรวจจับสภาพแวดล้อมในขณะที่คุณกำลังทำงานอย่างอื่น เป็นตาหลังของคุณ
- มันเห็นหน้าหรือได้ยินเสียงแล้วรู้ว่าเป็นอะไร จับความรู้สึกได้ ขอความเห็นเรื่องหน้าตา ทรงผม การแต่งตัว จากมันได้
- แต่งและเล่าเรื่องต่างๆได้ ใช้เสียงที่แสดงความรู้สึก
- ทำหน้าที่เป็นครูหรือติวเตอร์ส่วนตัว
- ฟังเรื่องตลกของคนแล้วหัวเราะได้
- ทำหน้าที่เป็นตาให้กับคนตาบอด
- เป็นผู้ดำเนินการประชุม เรียบเรียง สรุป แปลภาษา
- แปลงคำพูดภาษาต่างๆได้แบบเรียลไทม์
สำหรับนักพัฒนา จะได้เห็นการติดตั้ง API เพื่อเอาไปเพิ่มประสิทธิภาพในการทำงานของแอพต่างๆ รวมถึงมีแอพใหม่ที่จะตามมาอีกมาก เช่น
- วิเคราะห์ข้อมูลแบบเรียลไทม์สำหรับข้อมูลหลายหลายมิติ คือ ภาพ เสียง วิดีโอ ข้อมูล
- เพิ่มประสิทธิภาพฝ่ายสนับสนุนลูกค้า มีระบบอัตโนมัติที่ดีขึ้น
- การศึกษาเรียนรู้ที่โต้ตอบสองทาง
- การสร้างเนื้อหาที่มีความคิดสร้างสรรค์มากขึ้น
- แปลง Text เป็น Audio ได้อย่างรวดเร็ว
- ช่วยงานด้านการแพทย์ ทำหน้าที่วินิจฉัยโรคได้
- เชื่อมต่อกับระบบ Smart Home
- ช่วยบริหารจัดการด้านการเงิน
- ไกด์ทัวร์ที่โต้ตอบได้ การท่องเที่ยวแบบเสมือนจริง
- แต่งเพลง ช่วยแต่งเพลง
- สร้างเกมที่น่าสนใจ
- Tracking สุขภาพและการออกกำลังกาย
- สรุปรวบรวมข่าว
- ทำงานด้านการรักษาความปลอดภัย ตีความภาพและเสียงที่เห็นจากวงจรปิดต่างๆ
- คอยดูเด็กเล็กแทนผู้ปกครอง
- ตรวจสอบคุณภาพสินค้า ตั้งแต่บนสายพานการผลิต หรือก่อนการส่งมอบให้ลูกค้า
มีแอพพลิเคชั่น AI หลายแอพที่มีการสร้างขึ้นมาสำหรับกิจกรรมเฉพาะอย่าง แต่วันนี้สามารถใช้ GPT-4o ของ OpenAI ทดแทนได้
GPT-4o มีไมค์เป็นหู มีลำโพงเป็นปาก มีกล้องเป็นตา
ถ้ามันดมกลิ่นได้ รู้ร้อนรู้หนาวด้วย ก็คงไม่ต่างอะไรจากคน….
Social Links