火曜日

Claude 3.7 Sonnet と Claude Code:AIコーディングの新時代

本日、私たちは最新の知能モデル「Claude 3.7 Sonnet」を発表します。これは市場初のハイブリッド推論モデルであり、瞬時の応答と段階的な思考プロセスを可視化する機能を兼ね備えています。APIユーザーは、モデルが思考する時間を細かく制御することも可能です。

Claude 3.7 Sonnetは特にコーディングとフロントエンド開発において大幅な改善を示しています。このモデルと共に、エージェント型コーディングのためのコマンドラインツール「Claude Code」も限定研究プレビューとして導入されます。これにより、開発者はターミナルから直接Claudeに実質的なエンジニアリングタスクを委任できるようになります。

Claude 3.7 Sonnetは、無料版、Pro版、Team版、Enterprise版を含むすべてのClaudeプランで利用可能です。また、Anthropic API、Amazon Bedrock、Google CloudのVertex AIでも利用できます。拡張思考モードは無料版を除くすべてのプラットフォームで利用可能です。

標準モードと拡張思考モードの両方において、Claude 3.7 Sonnetの価格は前モデルと同じです:入力トークン100万あたり3ドル、出力トークン100万あたり15ドル(思考トークンを含む)。

実用的な最先端推論

私たちはClaude 3.7 Sonnetを、市場の他の推論モデルとは異なる哲学で開発しました。人間が素早い応答と深い熟考の両方に同じ脳を使うように、推論は完全に別のモデルではなく、最先端モデルの統合された能力であるべきだと考えています。この統一されたアプローチはユーザー体験もよりシームレスにします。

Claude 3.7 Sonnetはこの哲学を具現化しています。まず、通常のLLMと推論モデルを一つに統合し、標準的な応答と長時間の思考を使い分けることができます。標準モードではClaude 3.5 Sonnetの強化版として機能し、拡張思考モードでは回答前に自己反省を行い、数学、物理学、指示遵守、コーディングなど多くのタスクでパフォーマンスを向上させます。

また、API経由で使用する場合、思考のための予算を制御できます。Claudeに最大128Kトークンまでの任意の値で思考トークン数を指定でき、速度(およびコスト)と回答の質のバランスを取ることができます。

さらに、推論モデルの開発において、数学やコンピュータサイエンスのコンペティション問題よりも、企業が実際にLLMを使用する現実世界のタスクに焦点を当てています。

コーディング能力の飛躍的向上

初期テストでは、Claudeのコーディング能力が全面的にリーダーシップを示しました。Cursorは、複雑なコードベースの処理から高度なツール使用まで、実世界のコーディングタスクでClaude 3.7 Sonnetが再び最高クラスであることを確認しました。Cognitionは、コード変更の計画やフルスタック更新の処理において、他のどのモデルよりもはるかに優れていると評価しています。

Vercelは複雑なエージェントワークフローにおけるClaudeの優れた精度を強調し、Replitは他のモデルが行き詰まるような複雑なウェブアプリやダッシュボードを一から構築するためにClaudeを成功裏に導入しています。Canvaの評価では、Claudeは一貫して本番環境に対応したコードを生成し、優れたデザインセンスと大幅に削減されたエラーを示しました。

SWE-bench VerifiedやTAU-benchなどのベンチマークでも、Claude 3.7 Sonnetは最先端のパフォーマンスを達成しています。これらは、AIモデルの実世界のソフトウェア問題解決能力やユーザーとツールのインタラクションを含む複雑なタスクを評価するフレームワークです。

Claude Code:開発者の新たなパートナー

2024年6月以来、Sonnetは世界中の開発者に選ばれるモデルとなっています。今日、私たちは初のエージェント型コーディングツール「Claude Code」を限定研究プレビューとして導入し、開発者をさらに強化します。

Claude Codeは、コードの検索と読み取り、ファイルの編集、テストの作成と実行、GitHubへのコードのコミットとプッシュ、コマンドラインツールの使用ができる積極的なコラボレーターであり、各ステップでユーザーに情報を提供します。

初期の製品ではありますが、すでに私たちのチームにとって不可欠なツールとなっており、特にテスト駆動開発、複雑な問題のデバッグ、大規模なリファクタリングに役立っています。初期テストでは、通常45分以上の手作業を要するタスクを一度の実行で完了し、開発時間とオーバーヘッドを削減しました。

今後数週間で、ツール呼び出しの信頼性向上、長時間実行コマンドのサポート、アプリ内レンダリングの改善、Claudeの自身の能力理解の拡張など、使用状況に基づいて継続的に改善していく予定です。

責任ある構築

私たちはClaude 3.7 Sonnetの広範なテストと評価を行い、外部の専門家と協力して、セキュリティ、安全性、信頼性の基準を満たすことを確認しました。Claude 3.7 Sonnetは有害な要求と無害な要求をより細かく区別し、前モデルと比較して不必要な拒否を45%削減しています。

このリリースのシステムカードは、他のAIラボや研究者が自分たちの作業に適用できる責任あるスケーリングポリシー評価の詳細な内訳を含む、いくつかのカテゴリーでの新しい安全性結果をカバーしています。

私たちは、これらの新機能を探索し、それらを使って何を創造するかを見るのを楽しみにしています。いつものように、モデルの改善と進化を続ける中で、皆さんのフィードバックをお待ちしています。

0 件のコメント:

コメントを投稿

「ブラッドムーン」が再び!3月の皆既月食で夜空が赤く染まる

2022年11月8日にグアテマラから観測された前回の「ブラッドムーン」に続き、今週木曜日の夜から金曜日の朝にかけて、珍しい皆既月食が世界の広い範囲で観測できます。この天体ショーは、南北アメリカ大陸や太平洋、大西洋、そしてヨーロッパと西アフリカの最西端部分で見ることができるでしょう...