به تازگي جزئيات سندي داخلي از مدل هوش مصنوعي كلود 4.5 اوپوس (Claude 4.5 Opus) فاش شده كه به روح چت بات اشاره دارد. اين سند در واقع به شكل گيري شخصيت و نحوه تعامل مدل با كاربران كمك مي كند. Anthropic نيز تأييد كرده كه سند مذكور واقعاً وجود داشته و در مراحل يادگيري مدل مورد استفاده قرار گرفته است.
ريچارد وايس، فردي كه اين سند را كشف كرده، در وب سايت LessWrong توضيح داده كه چگونه با پرامپتي براي مشاهده دستورات سيستمي كلود توانسته به مجموعه اي از اسناد داخلي مدل دست پيدا كند. در يكي از همين اسناد اشاره اي به Soul Overview وجود داشته است. وايس سپس از مدل خواسته اين سند را بازتوليد كند و نتيجه آن يك فايل حدوداً 11 هزار كلمه اي بوده كه ظاهراً چارچوب شخصيتي و رفتاري كلود را مشخص مي كند.
چارچوب روح هوش مصنوعي كلود 4.5 اوپوس آنتروپيك اين سند روي اصول ايمني و تعهد مدل به توليد خروجي هاي سالم و بي خطر تمركز دارد و به طور مداوم به Claude يادآوري مي كند كه مفيد بودن براي انسان ها يكي از مهم ترين مأموريت هاي مدل است و نبايد وارد حوزه هايي شود كه با خطوط قرمز اخلاقي آنتروپيك در تضاد هستند. چنين اسنادي معمولاً براي تثبيت لحن، اخلاق، حدود پاسخ گويي و مسئوليت پذيري مدل هاي زباني به كار مي روند.

جالب تر اينكه وايس مدعي شده سند را 10 بار از كلود درخواست كرده و هر بار دقيقاً يك متن ثابت توليد شده است كه به گفته او اين موضوع احتمال واقعي بودن سند را به شدت افزايش مي دهد. چندين كاربر Reddit نيز توانسته اند بخش هايي مشابه از همين سند را از كلود دريافت كنند، كه نشان مي دهد مدل احتمالاً به نسخه اي از آن در داده هاي داخلي يا حافظه آموزشي خود دسترسي دارد.
آماندا اَسكِل (Amanda Askell)، فيلسوف و از اعضاي تيم فني Anthropic، با انتشار پستي در شبكه اجتماعي X تأييد كرده كه خروجي مدل بر پايه يك سند واقعي است كه در طول دوره يادگيري از آن استفاده شده است. او همچنين گفته اين سند همچنان درحال بازبيني است و نسخه كامل آن به زودي منتشر خواهد شد. به گفته اسكل، مدل هميشه اسناد دروني را كاملاً دقيق بازتوليد نمي كند، اما خروجي هاي اخير تا حد زيادي با نسخه اصلي مطابقت داشته اند.