Claude 3.5 Sonnet 彈指升級，測試成績從33.4% 勝利至49%，更具推理能力

隨著生成式AI技術持續發展，編碼、內容生成、圖像辨識等應用已全面進入企業及個人市場，其中以Claude 3.5 Sonnet為例，這款由AI模型開發商Anthropic推出的先進人工智能，最近又經過升級，性能再上層樓。Claude 3.5 Sonnet的升級，讓其在SWE-bench Verified測試中獲得優異成績，從舊版的33.4%顯著提升至49%，展現出超越其他AI模型如chatGPT的強大實力。

值得一提的是，最新的Claude 3.5 Sonnet，在推理和解難上都得到強化，能更為準確地理解用戶的指示，並產生創意解決方案，對於複雜數據的分析也變得更加高效。外國AI專家Matthew Berman對這款升級版本進行了多項實測，展現其在編碼、邏輯推理等多個領域的卓越能力。

在編碼方面，Berman測試了Claude 3.5 Sonnet生成經典遊戲的程式碼，像是「貪食蛇」和「俄羅斯方塊」，雖然後者初版存在一些錯誤，但Claude重新檢視後能夠完美生成正確程式碼，顯示其編碼能力的提升。在文字處理上，Claude同樣能準確計算生成文字的字數，並根據提示撰寫以「蘋果」為主題的句子，顯示出其更為出色的內容生成能力。

Claude 3.5 Sonnet在邏輯推理方面也有顯著進步，能正確回答以往難題，並對問題中的含糊之處提供分析和解釋。Berman以「室內有多少殺手」的例子來檢測Claude的理解能力，Claude不僅能逐步分析這個問題的邏輯，還能提出多方面的見解，展現出其超越傳統大型語言模型的推理深度。

此外，Claude在圖片處理的能力也相當驚人，能分辨和描述圖像中的動物及名人，甚至能詳細描述智慧型手機的儲存狀況。儘管目前仍無法解構QR Code或處理複雜圖像，但其圖片描述的能力仍然相當優秀。

綜上所述，Matthew Berman對Claude 3.5 Sonnet的測試結果表明，這款升級後的AI在編碼、邏輯推理和解難方面都展現出色的表現。另外，Anthropic的另一款模組Claude 3.5 Haiku也進行了更新，性能與以往頂尖AI模組Claude 3 Opus不相上下。在Amazon Bedrock上，使用者即可即時體驗Claude 3.5 Sonnet及Claude 3.5 Haiku的強大功能，如欲了解更多詳情，請參見相關網站。

Search

Claude 3.5 Sonnet 彈指升級，測試成績從33.4% 勝利至49%，更具推理能力

Polaroid 推出全新即影即有相機系列，Now Generation 3 和 Now+ Generation 3，配備升級雙鏡頭自動對焦及 40% 回收物料設計

Longines品牌歷史講座來港，瑞士總部歷史主管Daniel Hug帶你細看飛行時計珍藏

精選15款適合2026馬年佩戴腕錶，新春開運之選！

精選10款 For Him 男友2026情人節禮物 | 型格實用設計，送他貼心驚喜

Bangkok Design Week 2026 | 城市的空間語言：在曼谷設計週中建構未來與記憶

Search

Claude 3.5 Sonnet 彈指升級，測試成績從33.4% 勝利至49%，更具推理能力

Related Posts

Polaroid 推出全新即影即有相機系列，Now Generation 3 和 Now+ Generation 3，配備升級雙鏡頭自動對焦及 40% 回收物料設計

Longines品牌歷史講座來港，瑞士總部歷史主管Daniel Hug帶你細看飛行時計珍藏

精選15款適合2026馬年佩戴腕錶，新春開運之選！

精選10款 For Him 男友2026情人節禮物 | 型格實用設計，送他貼心驚喜

Bangkok Design Week 2026 | 城市的空間語言：在曼谷設計週中建構未來與記憶