GPT-4o, AI ที่ใกล้เป็นมนุษย์ยิ่งขึ้น Input-Output ข้อความ เสียง ภาพ GenAI ที่ก้าวล้ำมากที่สุดในปัจจุบัน

GPT-4o, AI ที่ใกล้เป็นมนุษย์ยิ่งขึ้น Input-Output ข้อความ เสียง ภาพ GenAI ที่ก้าวล้ำมากที่สุดในปัจจุบัน

GPT-4o, AI ที่ใกล้เป็นมนุษย์ยิ่งขึ้น

Input-Output ข้อความ เสียง ภาพ

GenAI ที่ก้าวล้ำมากที่สุดในปัจจุบัน

สุทธิชัย ทักษนันต์

โมเดล Generative AI ใหม่ล่าสุดจาก OpenAI คือ GPT-4o (ไม่เรียกว่า GPT-5 อย่างที่คาด) โดย “o” มาจากคำว่า “omni” เป็นโมเดลรุ่นเรือธงที่มีประสิทธิภาพที่สุด และจะให้คนทั่วไปใช้ฟรี

โมเดลเดิมที่ใช้กันอยู่ในปัจจุบัน คือ GPT-3.5, GPT-4

ตัวอย่างของประสิทธิภาพที่ดีขึ้นเมื่อเทียบกับโมเดลรุ่นก่อนๆ

– Input และ Output ได้หลากหลายมิติพร้อมกัน คือ ข้อความ เสียง รูปภาพ วิดีโอ (ยกเว้น Output เฉพาะวิดีโอ)

– ความเร็วที่สามารถโต้ตอบกับ Input อยู่ที่ 232 Millisecond (232/1,000 วินาที) โดยมีค่าเฉลี่ยอยู่ที่ 320 Millisecond ซึ่งอยู่ในระดับเดียวกับการพูดโต้ตอบของมนุษย์

– การทำงานกับข้อความภาษาอังกฤษและการโค้ดดีเท่ากับโมเดล GPT-4 Turbo แต่ทำงานเร็วกว่าอย่างชัดเจน

– ค่าธรรมเนียมการติดตั้ง API โมเดล GPT-4o ต่ำกว่าเดิม 50%

– มีความสามารถเหนือกว่าโมเดลอื่นในเรื่องความเข้าใจ การมอง การฟังเสียง

– มี Latency หรือความหน่วงด้านเสียงเพียง 2.8 วินาที

– สามารถ Output เสียงที่มีอารมณ์ความรู้สึก สูงต่ำ ช้าหรือเร็ว พูดเสียดสีประชดประชันได้ ร้องเพลงได้ มันจะหยุดพูดเมื่อมีการแทรกพูดจากคน

ประสิทธิภาพใหม่ของ GPT-4o เริ่มใกล้ความเป็นมนุษย์มากขึ้น ทำได้ดีกว่าโมเดลอื่นของ OpenAI และเหนือกว่าคู่แข่งที่อยู่ในตลาด

ตัวอย่างที่มีการสาธิตการใช้งาน เช่น

  • เป็นเพื่อนที่มองเห็นคุณ ได้ยินเสียงคุณ รู้ว่าคุณกำลังทำอะไร สามารถโต้ตอบได้ไม่ต่างจากเพื่อนคนหนึ่ง
  • AI คุยกับ AI ด้วยกันเองได้
  • GPT-4o เข้าใจภาพและเสียงที่เกิดขึ้นรอบข้าง
  • คอยตรวจจับสภาพแวดล้อมในขณะที่คุณกำลังทำงานอย่างอื่น เป็นตาหลังของคุณ
  • มันเห็นหน้าหรือได้ยินเสียงแล้วรู้ว่าเป็นอะไร จับความรู้สึกได้ ขอความเห็นเรื่องหน้าตา ทรงผม การแต่งตัว จากมันได้
  • แต่งและเล่าเรื่องต่างๆได้ ใช้เสียงที่แสดงความรู้สึก
  • ทำหน้าที่เป็นครูหรือติวเตอร์ส่วนตัว
  • ฟังเรื่องตลกของคนแล้วหัวเราะได้
  • ทำหน้าที่เป็นตาให้กับคนตาบอด
  • เป็นผู้ดำเนินการประชุม เรียบเรียง สรุป แปลภาษา
  • แปลงคำพูดภาษาต่างๆได้แบบเรียลไทม์

สำหรับนักพัฒนา จะได้เห็นการติดตั้ง API เพื่อเอาไปเพิ่มประสิทธิภาพในการทำงานของแอพต่างๆ รวมถึงมีแอพใหม่ที่จะตามมาอีกมาก เช่น

  • วิเคราะห์ข้อมูลแบบเรียลไทม์สำหรับข้อมูลหลายหลายมิติ คือ ภาพ เสียง วิดีโอ ข้อมูล
  • เพิ่มประสิทธิภาพฝ่ายสนับสนุนลูกค้า มีระบบอัตโนมัติที่ดีขึ้น
  • การศึกษาเรียนรู้ที่โต้ตอบสองทาง
  • การสร้างเนื้อหาที่มีความคิดสร้างสรรค์มากขึ้น
  • แปลง Text เป็น Audio ได้อย่างรวดเร็ว
  • ช่วยงานด้านการแพทย์ ทำหน้าที่วินิจฉัยโรคได้
  • เชื่อมต่อกับระบบ Smart Home
  • ช่วยบริหารจัดการด้านการเงิน
  • ไกด์ทัวร์ที่โต้ตอบได้ การท่องเที่ยวแบบเสมือนจริง
  • แต่งเพลง ช่วยแต่งเพลง
  • สร้างเกมที่น่าสนใจ
  • Tracking สุขภาพและการออกกำลังกาย
  • สรุปรวบรวมข่าว
  • ทำงานด้านการรักษาความปลอดภัย ตีความภาพและเสียงที่เห็นจากวงจรปิดต่างๆ
  • คอยดูเด็กเล็กแทนผู้ปกครอง
  • ตรวจสอบคุณภาพสินค้า ตั้งแต่บนสายพานการผลิต หรือก่อนการส่งมอบให้ลูกค้า

มีแอพพลิเคชั่น AI หลายแอพที่มีการสร้างขึ้นมาสำหรับกิจกรรมเฉพาะอย่าง แต่วันนี้สามารถใช้ GPT-4o ของ OpenAI ทดแทนได้

GPT-4o มีไมค์เป็นหู มีลำโพงเป็นปาก มีกล้องเป็นตา

ถ้ามันดมกลิ่นได้ รู้ร้อนรู้หนาวด้วย ก็คงไม่ต่างอะไรจากคน….

 

You may also like

คปภ. สร้างเกราะป้องกัน “Risk Culture” สำหรับผู้บริหารระดับสูงธุรกิจประกันภัย ปรับตัวได้เร็วรับความเสี่ยง-ความเปลี่ยนแปลง

คปภ. สร้