近期由 OpenAI 進行的研究指出,儘管人工智能技術在軟件開發的運用上已有顯著突破,但完全取代人類程序員仍然是不切實際的。這項研究透過 SWE-Lancer 基準測試評估了大型語言模型在自由工作平台 Upwork 的表現,涉及了超過 100 萬美元的軟件開發任務。研究中考察了 OpenAI 的 GPT-4o、GPT-1 以及 Anthropic 的 Claude-3.5 Sonnet 三款模型,分析了 AI 在軟件開發中的優勢和局限性。
結果顯示,表現最佳的 Claude 3.5 Sonnet 模型雖然完成了 26.2% 的個人貢獻任務,帶來的收益為 208,050 美元,卻仍然無法在複雜的軟件開發過程中完全取代人類的角色。研究強調了 AI 在軟件開發中能快速定位問題及關鍵字檢索的高效性,使其在處理簡單任務上展現不錯的效果。在技術評估等管理任務中,AI 亦能表現亮眼,尤其是在技術理解的環節。
然而,面對複雜問題時,AI 依然顯示出不少缺陷。模型在理解跨多個組件或文件的問題上遇到困難,往往無法深挖根本原因,進而導致解決方案的全面性不足或出現缺陷。這種”見樹不見林”的現象讓 AI 難以應對需要深層系統思維的挑戰。
隨著 AI 技術的進步,企業應重新思考 AI 在軟件開發中的定位。AI 的角色應被視為增強工具,而非人類工程師的替代品,以提升工程師的工作效率。企業在組建技術團隊時,應以人機協作為重點,促使 AI 負責基礎性任務如快速檢索和初步診斷,讓具有深厚系統思維的工程師處理更高階的工作。
同時,企業也應加大對工程師持續發展的投入。雖然 AI 可在某些領域發揮作用,但其不能取代人類在尋根究底和洞察問題方面的能力。特別是對於初級工程師,AI 目前無法贏得從多元視角看待問題的能力。這是人類獨有的優勢。
這項研究明確指出,目前 AI 還無法完全取代軟件工程師,但隨著技術發展的迅速,企業必須不斷調整策略,隨時更新對 AI 的應用框架。將人機協作的最大效能發揮出來,結合 AI 的優勢和人類的智慧,才能推動技術創新和業務發展。
最後,成功的關鍵不在於過度依賴 AI 或完全排斥 AI,而是如何讓兩者協同共存,達成優勢互補。