简体中文

繁體中文

English

Tiếng Việt

한국어

日本語

ภาษาไทย

Türkçe

คลอด โอปุส 4.7 ในชุดการทดสอบ: คู่ควรกับรุ่นที่แข็งแกร่งที่สุดหรือไม่?

อ่านบทความนี้ใน 62 นาที

Opus 4.7 เป็นการเผยแพร่ที่มีการตัดสินใจเป็น{รุนแรงแบบโบทัย}

เรื่องหลัก: "Opus 4.7 ไม่มีต้องการเป็น 'โมเดลที่เทพสุด' เลย: สมองลำบากของทุกคนกับความเร็วของ Claude ไม่สามารถตามปัสสาวะต่อสู้ของ Anthropic"

แหล่งข่าว: SiliconPro

บน 16 เมษายน 2026, Anthropic ปล่อยตัวอย่าง Claude Opus 4.7, ห่างจาก Opus 4.6 รุ่นก่อนหน้าเพียงเพียงสองเดือนเท่านั้น

หลังจากการอัพเดตผลิตภัณฑ์และโมเดลอย่างหนาแน่น เอื้อเฟื้อของ Anthropic ในการเอ่ยโมเดลใหม่ตื้บให้ความรู้สึกว่าขยายขนาด คุณต้องเคยเห็นรายงานการสรุปโมเดลที่ดีที่สุดในขณะเดียวกันว่า Opus 4.7 เป็น "โมเดลที่เทพสุด" ที่หนังสือโซเชียล

แต่ก็ควรมองดู Its development highlights a exceptional, currently not tolerable

Anthropic ได้เขียนโดยตรงอยู่แล้วในประกาศ ว่า ความสามารถของ Opus 4.7 ไม่มีเทียบเท่ากับ Claude Mythos Preview—ในขณะที่ Mythos เปิดให้ Apple, Google, Microsoft, Nvidia และพันธมิตรอื่นๆ เลือกใช้เท่านั้น นักพัฒนาและผู้ใช้ทั่วไปจึงไม่สามารถใช้งานได้

ทว่าแม้กระทั่งว่าจะเป็นข้อความเช่นนี้, สิ่งที่น่าสนใจมากกว่าคือ ข้อความนั้น ไม่ได้เท่าสิ่งที่ Mythos ความยังที่มันอ่อนลง จริงๆแล้วมีว่า ว้อดี้ช้าต่อการเปิด แม้เพียงเพียงชัดเจน

Opus 4.7 สมัยนี้อยู่บนตารางคะแนนะอยู่ดีเดี่ยวลม้สคริป็:

รักษาเนื้อเรื่องกาชาวิไม่สองเวณ MRCR v2 @1M มีจาก Opus 4.6 ร้อน 78.3% พุ่ม่ลงไปที่ 32.2%, 46.3%

น่าจะไม่มีโมเดลของธงที่จะมีการปรับปรุงจริงส้งนี่หรือล

นั่นแล้ว นี้ para หลอกตัวก็ไกลปรับปรุงพบปัญหาล้างรถ

Opus 4.7 เป็นการปล่อยออหง่ายแต่ได้ ไม่เอา意ธ่ในการเป็นประจำสูู้หรัณนี่ เขาประจะ หวะด็แต่ณี่ลิโซณรรำเอียง่าวราชิเปนทในัดส้รหห้งคืวดั่ลดุวบอนี าเมาเงาห์ดเวโดปทงีราดะทา หหันอนใาหวแไ่เบ็ดส่ลิเคตดีลปล้ยเดเฉล้อมสเกรภงบากิน้น เปนชคี่ขรปตสั่งแบะต่ใดนเงนินรั่นฉอะอล้ากองก้งโจำบากบะหชบเฉะงิสาซบียลปัปรปัปะ.

น่าจะเป็นจุดสำคัญที่แท้จริงของ 4.7 นี้

1. ความสามารถในการเขียนโปรแกรม: การปรับปรุงจริงๆ ที่อยู่ข้างหลังตัวเลข

เพื่อให้เข้าใจการเปลี่ยนแปลงเหล่านี้ได้ดียิ่งขึ้น วิธีที่ดีที่สุดคงหาได้ในการดูอย่างละเอียดว่าครั้งนี้มีอะไรถูกปล่อยออกมาจริงๆ

นี่คือข้อมูลที่สรุปเหล่าน้ำดีที่ได้ปล่อยออกมาในการเผยแพร่ Opus 4.7 ครั้งนี้ — การปรับปรุงมาจากไหน มาจากไหนอ่อนโยน ข้อเสนอแนะจากนักพัฒนาในส่วนใหญ่ โอกาสในการย้ายไหนไม่ควรพลาด

ประกาศอย่างเป็นทางการ: https://www.anthropic.com/news/claude-opus-4-7

ผลงานของ Opus 4.7 ในการเขียนโปรแกรมคือเส้นใจของครั้งปล่อยออกครั้งนี้

SWE-bench Verified (500 ปัญหาจาก GitHub ที่แท้จริง โมเดลต้องเขียนพินัชที่สามารถผ่านการทดสอบ) ขึ้นจาก 80.8% ของ Opus 4.6 ไปยัง 87.6% เข้าใกล้ 7 เปอร์เซ็นต์จุด อันดับ 1 ในโมเดลที่เปิดเผยไปด้านนอก อันต่างออกจาก Gemini 3.1 Pro ที่มี 80.6% ชัดเจน

SWE-bench Pro เป็นรุ่นที่ยากขึ้น ที่ครอบคลุมกระแสการเขียนโปรแกรมตั้งแต่ภาษาการเขียนและลงทุนเต็มรูปแบบ Opus 4.7 ขึ้นจาก 53.4% ไปยัง 64.3% การกระโดดไปอีก 11 จุด เทียบกับ GPT-5.4 มี 57.7% และ Gemini 3.1 Pro มี 54.2% Opus 4.7 น่าจะนำอยู่ในด้านนี้

CursorBench ทำมาจาก Cursor ทดลองใช้ที่ฝึกทักษะของโมเดลในสภาพแวดล้อม IDE ความเป็นซทั้งการเขียนโปรแกรม Opus 4.6 มี 58% Opus 4.7 กระโดดขึ้นไปอยู่ที่ 70% การปรับปรุงไปขึ้น 12 จุด ผู้ร่วมก่อตั้งของ Cursor Michael Truell กล่าวไว้ในประกาศทางการว่า "นี้คือการกระโดดที่มีความหมายทางความสามารถ สมองออกจะมีชุดความคิดสร้างสรรค์ที่หรือกว่ากันในการแก้ปัญหา"

ข้อมูลการทดสอบโดยพาร์ทเนอร์:

· ราคูเท็น: โอปัส 4.7 ได้แก้ไขงานในการผลิตมากถึง 3 เท่าของ Opus 4.6 คุณภาพของโค้ดและคุณภาพของทดสอบได้ได้คะแนนมากขึ้นสองตำแหน่ง

· โรงงาน (Factory): ความสำเร็จในการทำงานเพิ่มขึ้น 10-15% และลดลงของโมเดลกลางทางอย่างมีนัยทัศน์

· การรู้ความ (Cognition) (บริษัทที่อยู่เบื้องหลังของ Devin): โมเดล "สามารถทำงานต่อเนื่องหลายชั่วโมงโดยไม่ต้องตัดการเชื่อม"

· CodeRabbit: ความสามารถในการดึงข้อมูลยกระดับเพิ่มขึ้นกว่า 10% โดย "เร็วกว่าโมด GPT-5.4 xhigh นิดหน่อย"

· โบลท (Bolt): ในงานสร้างแอปที่ยาวนานขึ้น Opus 4.7 บน Opus 4.6 มี "การเพิ่มขึ้นถึง 10% ในเหตุการณ์ที่ดีที่สุด และไม่มีปัญหาที่เกิดขึ้นก่อนหน้า"

· Terminal-Bench 2.0: Opus 4.7 แก้ไขปัญหาที่ 3 ที่ไม่เคยมีโมเดล Claude (หรือคู่แข่ง) รองรับได้, อันหนึ่งคือการแข่งขันในการแก้ไขเงื่อนไขการแข่งขันข้ามไฟล์ที่ซับซ้อนที่ต้องการการอวยพรหมู่เพื่อปรับแก้

ข้อมูลเหล่านี้ชี้ให้เห็นทิศทางเดียวกัน: Opus 4.7 มีการปรับปรุงที่ชัดเจนในงานเขียนโปรแกรมซับซ้อนที่เป็นระยะเวลายาว, การวิเคราะห์ข้ามไฟล์, และความต้องการในการรักษาความสอดคล้องของบริบท ซึ่งเป็นปัญหาที่ผู้ใช้ Opus 4.6 ทุกคนร้องเรียนตั้งแต่สองเดือนที่ผ่านมา—การเลิกทำงานกลางคันกับมีบัคหลายไฟล์

2. ความสามารถด้านสายตา: การปรับปรุงที่เคร่งครัดที่สุดในการปล่อยนี้

มาตรฐานความถูกต้องของการมองเห็น XBOW กระโดดจากร้อยถึง 98.5% นี่ไม่ใช่การปรับปรุงแบบค่อยๆ น่าสนใจ, แต่เป็นการกระโดดข้ามระดับ

การเปลี่ยนแปลงของสเปกต์ที่เฉพาะเจาะจง:

· ความละเอียดของรูปภาพสูงสุดเพิ่มขึ้นจากประมาณ 1.15 ล้านพิกเซล (ขอบยาว 1,568 พิกเซล) ไปยังประมาณ 3.75 ล้านพิกเซล (ขอบยาว 2,576 พิกเซล), เป็น 3 เท่าของรุ่นก่อน

· พิกเซลของโมเดลและพิกเซลจริง 1:1 สอดคล้อง, งานที่ใช้คอมพิวเตอร์ก่อนหน้าต้องการการคำนวณหาค่าสเกลปรับขนาดด้วยมือ, แต่ขั้นตอนนี้หายไป

· CharXiv ขั้นเริ่มต้นของการทำความเข้าใจสื่อสารทางสายตา: ไม่มีเครื่องมือ 82.1% พร้อมเครื่องมือ 91.0%

ส่งผลต่อสถานการณ์ใดบ้าง?

สำหรับทีมผลิตภัณฑ์ที่ใช้กับคอมพิวเตอร์ อัพเกรดครั้งนี้อาจมีความสำคัญมากกว่าที่คิด.Opus 4.6 ที่ computer use อยู่ในสถานะ "สามารถทำการสาธิต แต่ไม่กล้าใช้งานจริง" — ความคลาดเคลื่อนสูงเกินไป ทำให้ลำดับคาดเดาลำบากมาก แม่นยำในทางสายตาที่ร้อนแสง 98.5% หมายความว่าคุณลักษณะนี้นั้นครั้งแรกครั้งที่เป็นที่ถูกต้องจนทำได้ไปที่จุดที่ทำให้ติดตั้งได้ประจำ หลายเว็บบล็อกเทคโนโลยีรีวิวตรงๆระบุไว้: ถ้าคุณยกเลิกแผนการผลิตสินค้า computer use เพราะอัตราการตกตะกอน Opus 4.6 ได้เตอร์มาก 4.7 ก็ช่วยอุปรติกวางอุปทานอุปรปาถนนของอุปทานเพื่ออตัง

คำตอบที่ได้รับจาก Reddit (r/ClaudeAI): ผู้ใช้บางท่านกล่าวถึงว่า "การปรับทักษะด้านสื่อสารทางสายตาคือประเด้นสำคัญ ฉันเคยทำการตกขอบแขนมาก่อน ลองให้โมเดลทำการแสดงการวิเคราะห์ในรอบการกลับรอบแจ้งขึ้นอยู่กับสื่อสารทางสายตา ผลการปรับปรุงเอามาเข้าประกอบได้อย่างสับสน หวังว่า 4.7 จะช่วยแก้ปัญหานี้อย่างไร"

นอกจาก computer use บริเวณอื่น ๆ ที่ได้รับประโยชน์รวมถึง: การวิเคราะห์เอกสารสแกน (สามารถอ่านตัวอักษรขนาดเล็กมาก ๆ ซึ่งสามารถแยกแยะรายละเอียดกราฟฉันไบสซ้ายการเสียงของภาพ) การเข้าใช้งานหน้าแผงควบคุม แอปพลิเคชัน แอปพลิเคชันสําธัาการปฏีบัติ

ประเด็นค่าใช้จ่ายที่ต้องใช้ความสนใจ: รูปภาพที่มีความละเอียดสูงกว่าจะทำให้สูญเสีย token เพิ่มขึ้น หากไม่จำเป็นจะต้องอ ากใช้ความละเอียดในรูปภาพแนะนําว่าควรลดรีกลัดก่อนที่จะเข้ามา

สาม. การถอยหลังที่ใหญ่ที่สุด: การเสริมทอดยาวสื่อสารสถานการณ์

MRCR v2 @1M (การทดสอบความทรงจำสื่อสารสถานการณ์ระยะยาวล้านข้อความ)

· 4.6: 78.3%

· 4.7: 32.2%

ลดลง 46 คะแนน เนื่องจากเข้าใกล้ 80% ลดลงเล็กน้อย

การลดลงนี้เป็นแรงกระชับในตราดร์จิตกรรมอ่อนโยนเกี่ยวกับการเข้าใช้ระยะสถานการณ์สำรวจไม่มีผลมากร้อย มติ

การทดสอบความทรงจำสื่อสารสถานการณ์ระยะยาว MRCR v2

ทำไมเป็นอย่างนี้หรอ? Tokenizer เปลี่ยนไปแล้ว

Opus 4.7 ใช้ tokenizer ใหม่ โดยข้อความนำเข้าเดียวกันจะสร้างจำนวน token ประมาณ 1.0-1.35 เท่า ของการนับ token โดยละเอียดจะขึ้นอยู่กับประเภทของเนื้อหา

ผลกระทบโดยตรงคือ

· ข้อกำหนดขอบเขตของ 200K/1M นั้นยังคงอยู่ แต่ปริมาณข้อความที่เหมาะสมน้อยลง

· การบริการตัวแทนงานของงานที่ยาวนาน ข้อบรรยาย token จริงเพิ่มขึ้นประมาณ 35%

· ราคาไม่เปลี่ยนแปลง (ข้อความที่รับเข้า $5, ข้อความที่ผลักออก $25 ต่อล้าน token) แต่ต้นทุนการใช้งานจริงเพิ่มสูงขึ้น

คำแถลงทางการในของ Anthropic คือ tokenizer ใหม่" ได้ทำให้ประสิทธิภาพการประมวลผลข้อความดีขึ้น" แต่ข้อมูลทดสอบแสดงให้เห็นว่าในสถานการณ์ข้อความที่ยาวนานมีการถดถอยอย่างชัดเจน

ความสามารถในการค้นหาก็ถดถอยไปด้วย:

· BrowseComp (การค้นหาข้อมูลความเข้มแข็งภายในเครือข่าย) : จาก Opus 4.6 จาก %83.7 → ไป Opus 4.7 %79.3

· GPT-5.4 Pro ได้คะแนนในส่วนนี้ที่ 89.3% Gemini 3.1 Pro ได้ 85.9% ณ ขณะนี้ Opus 4.7 อยู่ในลำดับสุดท้ายของโมเดลการแข่งขันชั้นนำ

การค้นหาและข้อความที่ยาว ก็คือสถานการณ์ที่ความพอใจมากของลูกค้าธุรกิจหลายๆ คน

ข้อความตอบโจทย์จากนักพัฒนาบน Hacker News (โพสต์ 275 ถูกใจ 215 ความคิดเห็น แหล่งที่มา: การสนทนา HN):

"ปิด adaptive thinking, ย้าย effort ไปยังระดับสูงสุดให้คม ก็ทำให้การปฏิบัติของฉันกลับมาสู่พื้นฐาน 'คำโบราณและแบรนด์เราแสดงถึงดูดี' ลักษณะการพูดแบบนี้ไม่เพียงพอต่อการรับรู้หลายๆ คน" "4.7 ค่าเริ่มต้นไม่ได้รวมถึงข้อความสรุปความคิดที่เป็นมนุษย์ภายในผลลัพธ์แล้ว จะต้องเพิ่ม display: summarized ในคำขอ API เพื่อให้แสดงค่ากลับมา"

เหล่านี้เป็นปัญหาที่ผู้ใช้แจ้งถึงจริงๆ แต่นี่ก็เป็นการเลือกที่ Anthropic ทำขึ้นเอง

4. ลักษณะพฤติกรรมใหม่: การตรวจสอบตนเองและคำสั่งที่ติดตามตรงประสงค์มากขึ้น

ในประกาศอย่างเป็นทางการ Opus 4.7 มีประโยคหนึ่งที่น่าจะถูกยกย่องขึ้นเป็นข้อความที่แยกออกมา: โมเดลจะตรวจสอบผลลัพธ์ของตนเองก่อนรายงาน

ทีมที่ดูแลเทคโนโลยีของ Hex ให้ตัวอย่างที่ชัดเจนในการทดสอบ: เมื่อข้อมูลขาดหาย Opus 4.7 จะรายงานตามความเป็นจริงว่า "ไม่มีข้อมูล" แทนที่จะให้คำตอบที่ดูเหมือนจะเป็นไปได้แต่ตอแหล ซึ่ง Opus 4.6 ก็เคยตกอยู่ในพื้นที่นี้ แพลทฟอร์ม FinTech ชื่อ Block ควีนนี้ว่า: "โมเดลสามารถค้นพบความผิดพลาดโลจิกของตนเองในขั้นตอนการวางแผน ซึ่งช่วยเร่งความเร็วของการดำเนินการมากขึ้น และมันเหนือกว่าโมเดล Claude ไปมาก"

อย่างไรก็ตามการตรวจสอบตนเองนำมาซึ่งการเปลี่ยนแปลงพฤติกรรมรอง โดย Opus 4.7 มีการแปลคำสั่งโดยตรงมากขึ้น

นี่คือความเสี่ยงในการย้าย หากคุณได้ปรับปรุงคำสั่งอย่างดีสำหรับ Opus 4.6 แล้ว 4.7 อาจจะไม่"อ่านระหว่างบรรทัด" เหมือน 4.6 แต่กลับปฏิบัติตามความหมายตามตัวอักษรที่คุณเขียน ทาง Anthropic ได้กล่าวถึงจุดนี้โดยชัดเจนในคู่มือย้ายที่อยู่ในเว็บไซต์ แนะนำให้ทดสอบกลับด้วยคำสั่งหลักก่อนเปิด Opus 4.7

ตัวเลขที่ดีที่สุดสามารถอ้างอิงได้มาจาก CTO ของ Hex: การทำงานที่ลดความห่วงใยของ Opus 4.7 เทียบเท่ากับด่านทำงานระดับกลางของ Opus 4.6

5. กลไกควบคุมการอุปนิสิการ: xhigh งบประมาณงานและ /ultrareview

Opus 4.6 มีเหตุการณ์หนึ่งที่ส่งผลกระทบต่อความเชื่อมั่นของผู้ใช้: วันที่ 9 กุมภาพันธ์ สลับไปยังโหมดความคิดที่ปรับตัวเองเองเป็นค่าเริ่มต้น วันที่ 3 มีนาคม ทางอย่างเป็นทางการก็ได้ปรับระดับความคิดของโค้ด Claude จากสูงสุดไปสู่กลาง ๆ โดยมีเหตุผลว่า "สมดุลระหว่างความฉลาด ความล่าช้า และค่าใช้จ่าย" เหตุการณ์นี้รับการจับตามว่า "ประตูการคิดลดลง" หมายเหตุผ่าน GitHub จากผู้อำนวยการซอฟต์แวร์ฝ่ายสูงของ AMD และได้รับการกระจายทั่วไป

การตอบกลับจาก Opus 4.7 คือ การให้สิทธิ์ควบคุมความคิดอย่างชัดเจนขึ้น

ด่านการทำงานระดับมากสุด: ระดับความคิดที่เพิ่มขึ้น ที่ตั้งอยู่ระหว่างระดับความคิด high และ max รหัส Claude ได้ทำการปรับตั้งค่าเริ่มต้นของแผนการที่ทั้งหมดเป็น xhigh แล้ว

แต่ชุมชนนักพัฒนามีคำถามโดยตรงเกี่ยวกับ xhigh ดังนี้ ในคำถามของผู้ใช้ Reddit: "Opus 4.6 ค่าเริ่มต้นคือ medium, ส่วน Opus 4.7 ค่าเริ่มต้นคือ xhigh ฉันสงสัยว่ามีคำตัดสินอยู่ข้างหลังการตัดสินนี้ โดยเหตุผลที่พัดพันชัดเจนคือการดัน effort สูงขึ้นจะเป็นการบริโภค token มากขึ้น"

กล่าวอีกอย่างว่า: ผู้ใช้เห็นการแก้ไข "ส่งควบคุมกลับไปยังผู้ใช้" โดยตัวเริ่มต้นที่สูงขึ้น ซึ่งหมายความว่างานเดียวกันต้องเผา token มากขึ้น ร่วมกับการเปลี่ยนแปลงการ tokenizer เป็นการเพิ่มค่าสองเท่าของค่าใช้จ่าย

งบงานของงาน (อยู่ในช่วงทดสอบสาธารณะ): กลไกควบคุมงบงานของงานยาว. นักพัฒนาตั้งค่างบงานทั้งหมด (อย่างน้อย 20K) และโมเดลสามารถเห็นยอดเงินที่เหลือในขณะทำงาน ซึ่งจะแบ่งทรัพยากรตามนั้นเพื่อป้องกันการหยุดกลางคันเพราะ token ใช้เกิน และป้องกันการสูญเสียการคำนวณที่ไม่จำเป็น

การเพิ่มคำวิจารณ์ Claude Code /ultrareview: การเฉพาะสำหรับการเข้าทรัพยากรการวิจารณ์โค้ด รันการวิจารณ์ลึกลงสำหรับการตรวจหาข้อผิดพลาดและปัญหาของการออกแบบ ผู้ใช้ Pro และ Max จะได้รับ 3 ครั้งการใช้งานฟรีต่อเดือน

โหมดอัตโนมัติเปิดให้ผู้ใช้ Max: ก่อนหน้านี้จะมีในแผนธุรกิจ Enterprise เท่านั้น แต่ตอนนี้ผู้ใช้ Max สามารถใช้ได้ Claude ในโหมดอัตโนมัติที่สามารถตัดสินใจเองและลดจำนวนครั้งที่ต้องถามผู้ใช้กลางคัน Claude Code หัวหน้าทีม Boris Cherny กล่าวว่า: "ให้ Claude งาน ให้มันวิ่ง และกลับมาดูผลลัพธ์ที่ผ่านการตรวจสอบ"

สิบหก การวิเคราะห์แบบ Comprehensive: คำไหนชนะ คำไหนแพ้

ด้านล่างคือข้อมูลเทียบเท่าหลักสำคัญที่เผยแพร่ในปัจจุบัน (แหล่งที่มา: บัตรระบบอย่างเป็นทางการของ Anthropic และการประเมินจากพันธมิตร)

Automatic และ Engineering Category (Opus 4.7 นำหน้า)

การมองเห็นและการหลายรูปแบบ (Opus 4.7 นำที ความสำเร็จอย่างมาก)

งานที่เกี่ยวกับความรู้ (Opus 4.7 นำหน้า)

การประเมินรวม (Opus 4.7 ขึ้นชั้นชัดเจน)

การคิดเชิงทั่วไป (พื้นที่สามคอมโพเนนต์)

มาตรฐานนี้ได้เข้าสู่ขั้วของประสิทธิภาพแล้ว ไม่ได้เป็นหัวน้ำแข็งของการแข่งขันอีกต่อไป

งานวิจัย (GPT-5.4 นำหน้า, Opus 4.7 ถอยหลัง)

บทบาทของข้อความที่ยาว (Opus 4.7 ถอยหลังอย่างมาก)

การสรุปและตรรกะการเลือก: งานเขียนโปรแกรม, ตัวแทนวิศวกรรม, การมองด้วยสายตา, ความรู้ทางกฎหมายทางการเงิน โมเดล Opus 4.7 มีความเหนือชัดเจน; งานที่มีการวิจัยอย่างหนาแน่นและการค้นหาบนเครือข่ายแบบเปิด GPT-5.4 มีความแข็งแกรงกว่า; ในสถานการณ์ข้อความที่ยาว Opus 4.7 แย่ลงมากจากพระองค์ ตรงนี้คือจุดที่สำคัญที่สุดที่ควรทำการตรวจสอบอย่างใกล้ชิด

เจ็ด. รั้วความปลอดภัย: เส้นทางของ Mythos

ส่วนนี้บางครั้งอาจถูกข้ามเป็นส่วนของคำอธิบายความปลอดภัยในการเผยแพร่ แต่มันเป็นประการสำคัญในการเข้าใจยุทธศาสตร์ปัจจุบันของ Anthropic

ในวันที่ 7 เมษายน Anthropic ประกาศ Project Glasswing: เปิดตัว Claude Mythos Preview ให้กับ Apple, Google, Microsoft, Nvidia, Amazon, Cisco, CrowdStrike, JPMorgan Chase และ Broadcom ซึ่งเป็นพันธมิตร 9 บริษัท โดยเฉพาะเพื่อฉายาของฉายาทางด้านการป้องกันความปลอดภัยในเคสนี้

Mythos เป็นโมเดลที่มีความสามารถมากที่สุดของ Anthropic ตามรายงานข่าวของ The Hacker News มันสามารถค้นพบช่องโหว่ Zero-day ด้วยตนเอง และค้นพบหลายพันช่องโหว่ที่ไม่เคยรู้จักมาก่อนในระบบปฏิบัติการหลักและบราวเซอร์ แต่เนื่องจากความสามารถนี้ มันยังถูกขึ้นว่ามีความเสี่ยงในการนำไปใช้อย่างไมธรย

Opus 4.7 ในเส้นนี้เป็นตัวอย่างทดสอบแรก Anthropic ในขั้วสร้างรูปแบบ ลดความสามารถในการโจมตีความปลอดภัยของโมเดลโดยตั้งใจ (พยายามรักษาความสามารถในการป้องกัน) และเปิดให้บริการมาตรการกักบริเวณแบบ Real-time สำหรับตรวจจับและป้องกันคำขอความปลอดภัยที่มีความเสี่ยง อย่างแท้จริง ประกาศอ้างว่า "เราจะได้รับบทเรียนจากการใช้งาน Opus 4.7 จริง ๆ เพื่อตรวจสอบว่ามาตรการนี้มีประสิทธิภาพหรือไม่ ก่อนที่จะตัดสินใจว่าจะขยายให้มีขั้วในโดเมนของโมเดลชนิด Mythos หรือไม่"

กล่าวอีกอย่างว่า นักพัฒนาทุกคนที่ใช้ Opus 4.7 กำลังช่วย Anthropic ปรับขอบเขตของรั้วความปลอดภัย

รีวิวจาก Gizmodo: การเปิดตัวครั้งนี้ใช้ "กลยุทธการตลก ๆ — ที่มีการตลาดเป็นจักรวาลของตนเองว่า 'สมรรถนะทั่วไปไม่เท่ากับทางเลือกอื่น'" ซึ่งเป็นเรื่องหาได้ยากในการเปิดตัวรุ่นท็อป

นักวิจัยด้านความปลอดภัยที่ต้องการใช้ Opus 4.7 สำหรับงานทดสอบการเจาะรบกวนที่ถูกต้อง การวิจัยช่องโหว่หรืองานทดสอบทีมแดง ต้องยื่นขอเข้าร่วมโปรแกรมการยืนยันความปลอดภัยไซเบอร์

แปด ราคาและโอนย้าย: มีตัวตนคงที่แต่เงินจริงเพิ่มขึ้น

ราคา: ราคาเข้า $5/ล้านโทเคน ราคาออก $25/ล้านโทเคน เหมือนกับ Opus 4.6 รุ่นก่อนหน้า API รหัสตัวแบบคือ claude-opus-4-7 พื้นแพล็ตที่ใช้ได้รวมถึง Claude API Amazon Bedrock Google Cloud Vertex AI และ Microsoft Foundry รวมอยู่ที่นี่ และ GitHub Copilot ก็ได้เข้าสู่ระบบเช่นกัน

แต่ก็ตามที่กล่าวไปแล้วการเปลี่ยน tokenizer ทำให้ราคาเทียบเท่ารับรองได้รหัสเงิน โดยประมาณเพิ่มขึ้นประมาณ 1.0-1.35 เท่าของจำนวนโทเคน สำหรับการคิด token ถึงพกพาซองทำให้ต้นทุนแท้ของงานเป็นไปได้ว่าสูงขึ้นได้ 2-3 เท่าของการตั้งค่าที่เทียบเท่ากับ Opus 4.6

Anthropic ยังมีการยุติ TTL ของ Claude Code จากหนึ่งชั่วโมงลดลงเหลือห้านาทีนั่นหมายความว่าหากคุณออกจากระบบ (logout) เกินห้านาที แล้วกลับมาคุณจะต้องโหลดข้อความยกมาใหม่เนื่องจากแคชของเนื้อหาหมดอายุ การใช้งานโทเคนจึงจะเร็วขึ้น Reddit มีผู้ใช้ไม่ใช่น้อยบ่งบอกว่า "โทเคนไหลเร็วกว่าทางน้ำตก"

รายการการเปลี่ยนแปลงที่ทำลายสำหรับผู้ใช้ Opus 4.6 ที่มีอยู่:

1. พารามิเตอร์ Extended Thinking Budgets ถูกลบออก การส่งเข้าจะคืนค่าข้อผิดพลาด 400 ต้องใช้โหมดการคิดเฉพาะเหตุการณ์แทน

2. พารามิเตอร์การสุ่มเช่น อุณหภูมิ (temperature) top_p top_k มีการลบออก ต้องใช้การตัดบางเพื่อควบคุมพฤติกรรมในการแสดงผลแทน

3. การปฏิบัติตามคำสั่งตามตัวอักษรอย่างเข้มข้นมากขึ้น——ต้องทดสอบ prompt ที่ปรับให้เหมาะกับ Opus 4.6 ใหม่อีกครั้ง ก่อนที่จะสามารถเปลี่ยน Model ID และเปิดใช้งาน

4. การเปลี่ยนแปลง tokenizer ทำให้จำนวน token เปลี่ยนแปลง แนะนำให้รันตัวอย่างในเสมือนจริงก่อน ก่อนที่จะทำการย้ายข้อมูลทั้งหมด

5. การเอาออกแสดงผลเริ่มต้นไม่รวมสรุป token อีกต่อไป จำเป็นต้องตั้งค่า display: summarized อย่างชัดเจนเพื่อกลับมาใช้

คำแนะนำ: Anthropic คำแนะนำการย้ายข้อมูลอย่างเป็นทางการแนะนำให้ทดสอบ Opus 4.7 ด้วยการไหลของการผลิตที่แท้จริงก่อนที่จะเปลี่ยน รีวิวผลการใช้ token และคุณภาพงานก่อนตัดสินใจ

คุณสมบัติที่อันแสนคมเข้ม:

· การยืนยัน SWE-bench ที่ได้ 87.6% การยืนยัน SWE-bench Pro ที่ได้ 64.3% การยืนยัน CursorBench ที่ได้ 70% การที่ Rakuten เพิ่มประสิทธิภาพในการทำงานทางการผลิต 3 เท่า

· การสร้างซ้อนซ้อนใหม่ (XBOW 54.5% → 98.5% เพิ่มความละเอียด 3 เท่า พิกเซลที่ตรงสัดส่วนเพิ่มขึ้นทีละ 1) ทำให้คอมพิวเตอร์สามารถใช้งานจริงได้อย่างเชื่อถือได้เป็นครั้งแรก

· ช่วง xhigh กระทำ งบประมาณงาน / วิสัยบรรณ เป็นการตอบสนองต่อ "ประตูลดความหลังสาร"

· BigLaw 90.9% Finance Agent 64.4% นำหน้าอย่างชัดเจนในงานที่ใช้ความรู้เฉพาะวิชาในด้านกฎหมายทางการเงิน

ด้านที่ถูกละทิ้ง:

· MRCR v2 @1M ลดลงจาก 78.3% ลดลงเหลือ 32.2% ความสามารถในรูปแบบบทความยาวเพิ่มขึ้นเกือบครึ่ง

· BrowseComp จาก 83.7% ถึง 79.3% ความสามารถในการค้นหาถูกอัพเกรดโดย GPT-5.4 และ Gemini 3.1 Pro พร้อมกัน

· tokenizer เปลี่ยนแปลง + default effort เพิ่มขึ้น + ระยะเวลาเก็บข้อมูลในแคชสั้นลง = การเพิ่มราคาอย่างลับละทึก

· Mythos ยืนยันการควบคุมต่ออาทิตย์หนึ่ง แปลกแต่ Anthropic ยังควบคุมได้อีกแค่อย่างแต่ไม่ออก

การเผยแพร่ครั้งนี้เป็นจริงที่สุด ไม่ใช่ "โมเดลที่เข้มแข็งที่สุด" และไม่ใช่ "โมเดลเปิดอย่างสุดท้าย" แต่คือ: การวิวัฒนาที่มีความชัดเจน.

ข่าวล่าสุดคือ Claude Code มียอดรายได้ประมาณ 25 พันล้านเหรียญสหรัฐในกำลังปีกุลจะมาถึงชินบทใหม่ 4.7 ต่อไป

การเขียนโปรแกรมและการมองเห็นเสริมกัน คอนเท็กซ์ที่ยาวและการค้นหาเป็นตัวคูณ ราคาเดิมคงเดิมแต่บิลอาจเพิ่มขึ้น Anthropic กำลังทดลองยังการวางสมดเสนอกันอย่างหนักหน่วง - ไม่เพียงแต่จะแก้ไขความเสียหายในความไว้วางใจที่สืบเนื่องจากชุดรหัสออกมา 4.6, และการฝึกฝนในการใช้เหลืออย่างปลอดภัยสำหรับโมเดลระดับ Mythos ในอนาคต อย่างระวังสำคัญ, มันจะใช้ทรัพยากรที่มีอยู่ในวันนี้ให้สุดคุ้มที่สุด การสนใจของผู้ใช้แทนสินค้า แปลงเป็นคุณสมบัติที่ไม่อุทิศมาจนกระทั้ง SEC และสร้างความหลากหลายที่มีค่าสำหรับอุตสาหกรรมและความเจ็บจนของลูกเบี้ยแช่ในกลิ่นแหม่ม

ลิงก์ของเอกสารต้นฉบับ

ยินดีต้อนรับสู่ชุมชนทางการของ BlockBeats:

กลุ่ม Telegram สมัครสมาชิก: https://t.me/theblockbeats

กลุ่ม Telegram พูดคุย: https://t.me/BlockBeats_App

บัญชี Twitter ทางการ: https://twitter.com/BlockBeatsAsia

#Claude #Anthropic #AI #โอปุส 4.7 #AI

แก้ไข/รายงาน