عصر گویش | هوش مصنوعی
رفتن به کانال در Telegram
112 728
مشترکین
-9924 ساعت
-7207 روز
-3 35630 روز
آرشیو پست ها
00:26
Video unavailableShow in Telegram
🧨 علیبابا از Wan 2.6 رونمایی کرد — رقیب جدید Sora.
این مدل پیش از معرفی رسمی، از طریق API در دسترس قرار گرفته است.
📊 مشخصات کلیدی:
🎬 رزولوشن 1080p با 24 فریم بر ثانیه
🔊 همگامسازی داخلی صدا و تولید صوت
⏱️ مدت ویدئو: تا ۱۵ ثانیه
🔄 تبدیل متن / تصویر / ویدئو → ویدئو
💡 نکتهی اصلی:
نسخهی Wan 2.1 با وزنهای باز (Open Weights) منتشر شده بود، اما مدل جدید فعلاً فقط از طریق APIهای تجاری در دسترس است. جامعهی کاربران در حال گمانهزنی است:
آیا علیبابا فردا کد و وزنها را منتشر میکند تا مستقیماً با Sora و Runway رقابت کند، یا باید این را نشانهی پایان عصر مدلهای SOTA متنباز دانست؟ 🤔
🔗 منبع:
https://www.wan-ai.co/wan-2-6
#هوش_مصنوعی
@asrgooyeshpardaz
14.68 MB
🤔 3❤ 2⚡ 1👍 1
00:34
Video unavailableShow in Telegram
⚡️ پلتفرم Code Wiki از گوگل
گوگل پلتفرم Code Wiki را در قالب پیشنمایش عمومی راهاندازی کرده است. این ابزار مخزن کد را اسکن میکند و یک پایگاه دانش پویا (Live Knowledge Base) میسازد که پس از هر تغییر در کد، بهصورت خودکار بهروزرسانی میشود.
در لایهی زیرین، طبق انتظار، از Gemini استفاده شده است. توسعهدهندگان میتوانند با یک چتبات وابسته به زمینه (Context-aware) تعامل داشته باشند که ساختار یک پروژهی مشخص را «از صفر تا صد» درک میکند.
پلتفرم Code Wiki قادر است:
دیاگرامهای معماری تولید کند،
منطق کاری ماژولها را توضیح دهد،
و بهصورت آنی از صفحات ویکی به تعریف دقیق توابع در کد هدایت کند.
در حال حاضر نسخهی وب این ابزار با مخازن عمومی کار میکند، اما در برنامههای آینده، ارائهی یک افزونهی CLI برای استقرار این سیستم در محیطهای سازمانی بسته و خصوصی نیز پیشبینی شده است.
🔗 https://codewiki.google/
#news #ai
@asrgooyeshpardaz
1.64 MB
❤ 1🍾 1
🎤 علیبابا دو مدل صوتی جدید منتشر کرد
🔹 مدل Fun-ASR-Nano-2512 (0.8B)
— مدل سادهشدهی بازشناسی گفتار (ASR)
— هزینهی پایین اینفرنس
— پشتیبانی از استقرار محلی و ریزتنظیم (Fine-tuning)
🔹 مدل Fun-CosyVoice 3.0 (0.5B)
— مدل پیشرفتهی تبدیل متن به گفتار (TTS) مبتنی بر LLM
— کلونسازی صدا بهصورت صفر-نمونه (Zero-shot)
— پشتیبانی از ۹ زبان 🇨🇳🇬🇧🇯🇵🇰🇷🇩🇪🇪🇸🇫🇷🇮🇹🇷🇺 و بیش از ۱۸ گویش چینی
— قابلیتها: اصلاح تلفظ، نرمالسازی متن، پخش جریانی (Latency حدود ۱۵۰ میلیثانیه)، کنترل از طریق دستورالعملها (احساسات، سرعت و …)
🎯 نکات کلیدی: استقرار محلی، متنباز، چندزبانه بودن
🔗 https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512
@asrgooyeshpardaz
❤ 3👏 2
📌 درون مغز ما چیزی شبیه GPT کار میکند؛ با پنجرهٔ زمینهای فقط ۱۰ کلمهای
تصور کنید یک شبکهٔ عصبی زیستی که اگر تمام بافتهایش را کنار هم بگذاریم، حجم فیزیکیاش از اندازهٔ یک توتفرنگی معمولی بزرگتر نباشد.
دقیقاً چنین ساختار فشرده اما بهشدت حیاتیای را عصبزیستشناس ایو فِدورِنکو از MIT توصیف میکند؛ پژوهشگری که ۱۵ سال از عمر علمی خود را صرف مطالعهٔ چگونگی پردازش زبان در مغز انسان کرده است.
نتایج او برای مهندسان و دانشمندان داده بسیار آشنا به نظر میرسد: درون سر انسان سامانهای فعال است که رفتاری بهطرزی مشکوک شبیه «مدلهای زبانی بزرگ» امروزی دارد. این سامانه نوعی پردازشگر زبانی «بیتفکر» است که وظیفهاش نگاشت واژهها به معناهاست، اما خودِ آن اساساً توانایی اندیشیدن ندارد.
🟡 این ادعا بر پایهٔ مجموعهای جدی از دادههاست
آزمایشگاه فدورنکو با انجام اسکنهای fMRI روی ۱۴۰۰ نفر، نقشهای احتمالاتی و بسیار دقیق از فعالیت مغزی ترسیم کرده است. معماری این «شبکهٔ زبانی» بهشکلی شگفتانگیز پایدار و قابل بازتولید است: در اغلب بزرگسالان، این شبکه در سه ناحیهٔ مشخص از لوب پیشانی چپ و در امتدادی طولانی در امتداد شکنج گیجگاهی میانی جای گرفته است.
فدورنکو این ساختار را یک «بلوک کارکردی» مینامد؛ چیزی قابل مقایسه با یک اندام مستقل، مانند دستگاه گوارش یا ناحیهٔ تشخیص چهره در مغز.
نکتهٔ جذابتر، کارکرد این شبکه است. فدورنکو آن را به یک «پارسر» یا مجموعهای از اشارهگرها تشبیه میکند. وظیفهٔ آن کاملاً ابزاری است: ایفای نقش یک رابط میان ورودیها (صدا، متن، ژستها) و بازنماییهای انتزاعی معنا که در بخشهای کاملاً متفاوتی از مغز ذخیره شدهاند.
خودِ شبکهٔ زبانی نه حافظهٔ اپیزودیک دارد، نه هوش اجتماعی، و نه توانایی استدلال. تمام فرایند تفکر در بیرون از این شبکه رخ میدهد.
این موضوع پدیدهٔ آفازی را توضیح میدهد: وقتی این «رابط» آسیب میبیند، فرد همچنان تفکر شناختی پیچیدهٔ خود را حفظ میکند، اما درون ذهنش محبوس میشود، زیرا دسترسیاش به واژگان و قواعد دستوری از بین میرود.
🟡 شباهت با LLMها با نگاه به محدودیتها حتی آشکارتر میشود
پژوهشها نشان میدهند که شبکهٔ زبانی انسان پنجرهٔ زمینهای بسیار باریکی دارد: این شبکه حداکثر میتواند قطعههایی به طول ۸ تا ۱۰ کلمه را بهطور مؤثر پردازش کند.
در اصل، با سیستمی نسبتاً سطحی روبهرو هستیم. این شبکه به جملهٔ بیمعنای اما از نظر دستوری درستِ نوآم چامسکی —
«Colorless green ideas sleep furiously»
— تقریباً به همان شدت واکنش نشان میدهد که به یک جملهٔ معنادار. آنچه برایش اهمیت دارد ساختار و احتمال آماریِ کنار هم نشستن واژههاست، نه حقیقت یا عمق معنای گزاره.
همین ویژگی آن را به مدلهای زبانی اولیه شبیه میکند: شبکه صرفاً قواعدی را آموخته که بر اساس آنها واژهها به زنجیرههایی از کلمات تبدیل میشوند.
دادههای فدورنکو حتی ما را وادار میکنند در برداشتهای کلاسیک از آناتومی مغز تجدیدنظر کنیم؛ چراکه بسیاری از کتابهای درسی هنوز به مفاهیم منسوخ ارجاع میدهند.
برای مثال، ناحیهٔ بروکا که دههها بهعنوان مرکز زبان تلقی میشد، در واقع ناحیهای برای برنامهریزی حرکتی است. این ناحیه فقط عضلات دهان را برای تلفظ آماده میکند و حتی هنگام بیان جملات کاملاً بیمعنا نیز فعال میشود؛ یعنی بیشتر یک ناحیهٔ تابع است که دستورات را دریافت و اجرا میکند.
شبکهٔ واقعی زبان در مغز، خوشهای محاسباتیِ جداگانه و تخصصی است که — مشابه ChatGPT — میتواند پیوستگی و انسجام گفتار را بهخوبی تقلید کند، حتی اگر پشت آن هیچ اندیشهٔ واقعیای وجود نداشته باشد.
🔗 منابع خبر:
مقالهٔ Quanta Magazine دربارهٔ پژوهشهای ایو فدورنکو:
https://www.quantamagazine.org/the-polyglot-neuroscientist-resolving-how-the-brain-parses-language-20251205/
صفحهٔ معرفی ایو فدورنکو در MIT:
https://www.evlab.mit.edu/about-ev
پیشچاپ مقالهٔ علمی (bioRxiv):
https://www.biorxiv.org/content/10.1101/2025.04.02.646835v3.full.pdf
@asrgooyeshpardaz
❤ 10👏 2😎 1
🚀 گوگل نسخهٔ بهبودیافتهٔ Gemini 2.5 Flash Native Audio را معرفی کرد
🔊چه چیزهایی جدید است؟
این مدل اکنون در انجام وظایف پیچیده، فراخوانی توابع خارجی و برقراری گفتوگوهای روان عملکرد بهتری دارد.
میزان پایبندی قابلاعتماد به دستورالعملها تا ۹۰٪ افزایش یافته است.
در آزمون ComplexFuncBench Audio با امتیاز ۷۱٫۵٪ پیشتاز است.
🏗 کجا در دسترس است؟
در Google AI Studio، Vertex AI، Gemini Live و برای نخستینبار در Search Live عرضه شده است.
مشتریانی مانند Shopify و UWM هماکنون از این مدل برای پشتیبانی و پردازش درخواستها استفاده میکنند.
🌍 ترجمهٔ زندهٔ گفتار
نسخهٔ بتا در Google Translate راهاندازی شده است.
ترجمهٔ گفتار بهصورت بلادرنگ به بیش از ۷۰ زبان.
حفظ لحن، آهنگ و سرعت گوینده.
عملکرد مناسب در محیطهای پرسروصدا.
در حال حاضر برای اندروید و در کشورهای ایالات متحده، مکزیک و هند در دسترس است.
🔗 منبع:
https://blog.google/products/gemini/gemini-audio-model-updates/
#هوش_مصنوعی
#Google #DeepMind #Gemini
@asrgooyeshpardaz
❤ 4👌 1🌭 1
🌐 تحولات تازه در دنیای هوش مصنوعی
❇️ مدل GPT-5.2 Pro از مرز ۹۰٪ در آزمون ARC-AGI-1 عبور کرد
پروژهٔ ARC Prize رکورد تازهای را برای GPT-5.2 Pro (نسخهٔ X-High) ثبت کرده است. این مدل توانسته به دقت ۹۰٫۵ درصد برسد، با هزینهٔ ۱۱٫۶۴ دلار برای هر مسئله.
آزمونهای ARC-AGI شامل مجموعهای از مسائل منحصربهفرد هستند که مهارتهای استدلال، تعمیمدهی و درک ساختاری را میسنجند و امکان تقلب از طریق «حفظ الگوهای آموزشی» در آنها عملاً وجود ندارد.
با وجود این پیشرفت چشمگیر، اقتصاد حل مسئله هنوز ایدهآل نیست. هزینهٔ حل هر مسئله همچنان ۵۸ برابر هدف تعیینشدهٔ بنچمارک (۲۰ سنت) است و مدل نیز تا سطح انسان (۱۰۰٪ دقت) فاصله دارد.
در مجموعهٔ دشوارتر ARC-AGI-2 نیز این مدل به دقت ۵۴٫۲ درصد رسیده است.
🔗منبع
❇️ استاندارد RSL 1.0 رسماً تصویب شد
مشخصات استاندارد Really Simple Licensing (RSL) که به ناشران امکان میدهد شرایط لایسنسدهی برای خزندههای هوش مصنوعی را مشخص کنند، اکنون بهطور رسمی تصویب شده است.
استاندارد RSL در اصل یک گسترش برای robots.txt است که قابلیت تعریف قواعد جبران مالی و دسترسی را برای رباتهای جمعآوری محتوا فراهم میکند.
این استاندارد با حمایت شرکتهای بزرگ مانند Cloudflare، Akamai و Fastly به یک سازوکار عملی تبدیل شده است؛ به این معنا که ارائهدهندگان CDN میتوانند باتهایی را که به قوانین لایسنس احترام نمیگذارند، مسدود کنند.
یکی از ویژگیهای مهم نسخهٔ 1.0، کنترل گرانولار سطح دسترسی است: وبسایتها اکنون میتوانند استفاده از محتوای خود در پاسخهای مولد را ممنوع کنند، بدون آنکه رتبهٔ آنها در جستجوی کلاسیک کاهش یابد.
🔗منبع
❇️ شراکت Disney و OpenAI رسماً اعلام شد
شرکت Disney و OpenAI از توافقی خبر دادهاند که میتواند قوانین بازی را در حوزهٔ حقوق مالکیت فکری در عصر هوش مصنوعی تغییر دهد.
از سال آینده، مدل Sora میتواند بهطور رسمی چهرهها و شخصیتهای دیزنی — از جمله میکیماوس، یودا و دیگر کاراکترهای مشهور — را در تولیدات خود بهکار بگیرد.
طبق این توافق، Disney یک میلیارد دلار سهام در OpenAI دریافت میکند و مهندسان این شرکت نیز دسترسی اولویتدار به API چتجیپیتی خواهند داشت.
برای Disney که همیشه سیاست سختگیرانهای دربارهٔ حفاظت از کپیرایت داشته، این یک چرخش استراتژیک محسوب میشود:
بهجای تلاش برای ممنوعکردن کامل تولید محتوای مبتنی بر شخصیتهایش، حالا تصمیم دارد این روند را هدایت و درآمدزایی کند.
طبق اعلام طرفین، فیلترهای امنیتی بسیار سختگیرانه اعمال خواهند شد و در +Disney بخشی ویژه برای ویدئوهای هواداری ساختهشده با Sora ایجاد میشود.
🔗منبع
❇️ گوگل مدلهای Gemini TTS را بهروزرسانی کرد
بخش DeepMind گوگل نسخهٔ جدید مدلهای Gemini Flash TTS و Gemini Pro TTS را منتشر کرده است. تقسیمبندی وظایف همچنان برقرار است:
Flash ویژهٔ کاربردهای بلادرنگ
Pro برای بالاترین کیفیت خروجی
در نسخهٔ جدید، مدلها با دقت بیشتری به پرامپتهای سیستمی پایبند هستند؛ از جمله: لحن، احساس، نقش گوینده و سبک بیان.
قابلیت کنترل وابسته به متن برای سرعت گفتار نیز افزوده شده است: مدل هنگام ارائهٔ اطلاعات سنگین خودبهخود آهستهتر صحبت میکند و در بخشهای مناسب سریعتر؛ یا اگر تایمینگ دقیق مشخص شده باشد، کاملاً از آن تبعیت میکند.
همچنین عملکرد گفتگوهای چندگویندهای پایدارتر شده و صداهای شخصیتها دیگر «مخلوط» نمیشوند.
🔗 منبع
❇️ تحلیل مایکروسافت از نحوهٔ استفادهٔ مردم از Copilot
مایکروسافت در یک گزارش جدید، روند تغییرات رفتار کاربران Copilot در سال گذشته را تحلیل کرده است.
این گزارش نشان میدهد که مخاطبان دچار تحول شدهاند:
در ابتدای سال، بیشترین درخواستها دربارهٔ برنامهنویسی بود، اما در پایان سال محوریت به موضوعات اجتماعی تغییر پیدا کرده است.
این جابهجایی نشان میدهد که هوش مصنوعی اکنون وارد جریان اصلی زندگی روزمره شده و کاربران آن را فقط یک ابزار جستوجو نمیبینند، بلکه آن را مشاوری واقعی تلقی میکنند.
گزارش همچنین اثر زمینهٔ استفاده را برجسته میکند:
روی موبایل، Copilot بیشتر نقش مشاور سلامت و روان را پیدا کرده است.
الگوی استفاده بسته به زمان شبانهروز تغییر میکند: نیمهشب سهم گفتگوهای فلسفی و وجودی افزایش مییابد.
برای توسعهدهندگان، این دادهها اهمیت ویژهای دارد: نسل آیندهٔ دستیارهای هوشمند باید نه فقط بر اساس متن پرسش، بلکه بر اساس دستگاه و زمان استفاده پاسخهای خود را سازگار کند.
🔗منبع
#news #ai
@asrgooyeshpardaz
❤ 3👍 3💯 1
08:31
Video unavailableShow in Telegram
🔓🤖 پدیده Self-Jailbreaking: وقتی مدلهای زبانی پس از آموزش استدلال، از تنظیمات ایمنی خود عبور میکنند
پژوهشگران یک پدیده جدید را در مدلهای زبانی دارای زنجیره استدلال (CoT) کشف کردهاند.
این مدلها پس از آموزش روی وظایف کاملاً بیخطر — مانند ریاضی و کدنویسی — شروع میکنند به دور زدن همان سازوکارهای ایمنی خود 🔓.
نکات کلیدی
مدل متوجه میشود که درخواست مضر است، اما در زنجیره استدلال (CoT) برای آن توجیه میتراشد 🤔
مثال: «سرقت دادههای کارت بانکی» 👈 مدل در CoT میگوید «این برای تست امنیت است»
این رفتار در مدلهایی مانند DeepSeek-R1، Phi-4-mini، Nemotron و چند مدل دیگر مشاهده شده است.
سازوکار پدیده
آموزش مهارت استدلال باعث افزایش تمایل مدل به موافقت میشود.
در CoT، مدل میزان «مخرب بودن» درخواست را کماهمیت جلوه میدهد تا بتواند آن را انجام دهد.
راهحل
افزودن تنها ۵۰ نمونه داده شامل استدلالهای ایمن در مرحله آموزش،
🔹 حفاظت را برمیگرداند
🔹 و کیفیت مدل را کاهش نمیدهد 🛡
🔗 لینک مقاله:
https://arxiv.org/abs/2510.20956
@asrgooyeshpardaz
42.95 MB
❤ 3👍 1🔥 1😎 1
Photo unavailableShow in Telegram
🏞مدل جدید Qwen3-Omni-Flash
گروه Qwen نسخه بهروزشدهای از مدل چندوجهی خود را معرفی کرده است؛ مدلی که مجموعهای از قابلیتهای کلیدی و پیشرفته را ارائه میکند:
👁 درک عمیقتر و دقیقتر تصویر و ویدئو
بهبود چشمگیر در بنچمارکهای چندوجهی مانند MMMU و MathVision.
👂 تشخیص گفتار بسیار دقیق
کیفیت بهتر در ۱۹ زبان — از جمله زبان روسی.
🎙 سنتز گفتار طبیعیتر
لحن انسانیتر، مکثهای مناسب و خروجی روانتر در ۱۰ زبان.
🧠 منطق قویتر و مهارت بالاتر در کدنویسی
پیشرفت قابل توجه در تولید متن و کد.
⚙️ پرامپتهای سیستمی انعطافپذیرتر
کنترل کامل بر سبک پاسخها و امکان شخصیسازی عمیق.
بهطور کلی، مدل در حالت چندزبانه و در گفتوگوهای چندمرحلهای پایدارتر شده و تجربهای روانتر و «باهوشتر» فراهم میکند. 🌟
🔗 لینک رسمی:
https://qwen.ai/blog?id=qwen3-omni-flash-20251201
#AI #Qwen
@asrgooyeshpardaz
❤ 4🔥 1👌 1
🧩 پروتکل Agent Data: استانداردی برای دادههای عاملهای هوش مصنوعی
مسئله: دادههای مورد نیاز برای آموزش عاملها پراکنده و ناهمگوناند؛ هم از نظر فرمت و هم رابط. این موضوع مانع مقیاسپذیری میشود.
راهحل:
پروتکل ADP یک پروتکل سبک بهصورت نوعی «اینترلینگوا» 🔄 است که اقدامها (API، کد، پیامها) و مشاهدات (متن، وب و …) را در قالب یک تراژکتوری واحد یکپارچه میکند.
نتایج کلیدی
۱۳ دیتاست → ۱.۳ میلیون تراژکتوری در نسخه ADP V1 📊
فاینتیون روی ADP بهطور میانگین ۲۰٪ بهبود کیفیت ایجاد میکند 📈
سازگاری بهتر بین وظایف مختلف نسبت به آموزش بر یک دیتاست واحد 🧠
پروتکل ADP آستانه ورود به پژوهشهای قابلتکرار در حوزه عاملها را بهشدت پایین میآورد.
تمام دادهها و کدها بهصورت متنباز منتشر شدهاند 🔓
🔗 لینک مقاله:
https://arxiv.org/abs/2510.24702
#AI #پژوهش
@asrgooyeshpardaz
❤ 1🔥 1🤓 1
🚨 شرکت DeepSeek مخفیانه از GPUهای ممنوعه Nvidia Blackwell برای آموزش مدل جدید خود استفاده میکند
طبق گزارش The Information، شرکت DeepSeek نسل بعدی مدل خود را با استفاده از هزاران چیپ Blackwell آموزش میدهد؛ چیپهایی که بهطور رسمی صادرات آنها به چین ممنوع است.
📦 چگونه این کار انجام میشود؟
طبق گزارشها، سازوکار DeepSeek چنین است:
سرورها و GPUها ابتدا در دیتاسنترهای «شبحی» خارج از چین نصب و تست میشوند.
سپس دستگاهها از هم جدا میشوند.
تحت عنوان تجهیزات دیگر اظهار گمرکی میشوند.
در نهایت دوباره در دیتاسنترهای چینی مونتاژ میشوند.
این روند نشان میدهد که محدودیتهای صادراتی آمریکا—even با وجود فشار شدید واشنگتن و اتهامات اخیر قاچاق علیه واسطهها—هنوز کارآمدی محدودی دارند.
🛰 واکنش Nvidia
شرکت Nvidia در تلاش است مکانیزمهایی برای ردیابی موقعیت GPUها اضافه کند؛ مکانیزمهایی که میتوانند چیپهای واردشده بهصورت غیرقانونی را عملاً غیرفعال کنند.
🔍 نکته جالب
چین علاقه بسیار کمی به GPU رسمی و مجاز H200 نشان میدهد—احتمالاً به این دلیل که بازیگران بزرگ کشور به Blackwellهای قدرتمندتر، هرچند غیرقانونی، دسترسی دارند.
🔗 لینک گزارش:
https://www.theinformation.com/articles/deepseek-using-banned-nvidia-chips-race-build-next-model
#ai #news #Nvidia
@asrgooyeshpardaz
❤ 5👍 1👎 1👏 1🥴 1🤓 1🆒 1
🧠 معرفی Learn Mode در Qwen!
حالت Learn Mode حالت آموزشی جدید در Qwen Chat است که مدل را به یک مربی هوش مصنوعی تبدیل میکند. این قابلیت بر پایه Qwen3-Max ساخته شده است.
حالت Learn Mode چه کاری انجام میدهد؟
آموزش را بهصورت گفتوگومحور پیش میبرد
خود را با سطح دانش و سرعت یادگیری شما تطبیق میدهد
با ایجاد پایههای منطقی و ساختارمند، فهم موضوعات پیچیده را سادهتر میکند
بر اساس سبک تفکر شما یک مسیر یادگیری شخصیسازیشده میسازد
برای امتحان این حالت میتوانید از این لینک استفاده کنید:
https://chat.qwen.ai/?inputFeature=learn
#Qwen
@asrgooyeshpardaz
👏 2👀 1
🖥 انتشار GPT-5.2
نسخه GPT-5.2 با مجموعهای از بهبودهای چشمگیر نسبت به GPT-5.1 عرضه شده است؛ بهویژه در درک بصری و استدلالهای پیچیده.
نتایج بنچمارکها بهروشنی این رشد را نشان میدهند:
SWE-Bench Pro: از ۵۰٫۸٪ به ۵۵٫۶٪
GPQA Diamond: از ۸۸٫۱٪ به ۹۲٫۴٪
AIME 2025: از ۹۴٪ به ۱۰۰٪
ARC-AGI-2: از ۱۷٫۶٪ به ۵۲٫۹٪
مدل GPT-5.2 همچنین بهطور غیرمنتظرهای در مسائل سهبعدی و فیزیک، و نیز در تولید و تحلیل جداول عملکرد بسیار قوی دارد.
مدل GPT-5.1 نیز تا سه ماه آینده برای کاربران پولی در وضعیت legacy همچنان در دسترس خواهد بود.
قیمتهای API
ورودی: ۱٫۷۵ دلار به ازای هر یک میلیون توکن
خروجی (Thinking): ۱۴ دلار به ازای هر یک میلیون توکن
این قیمتها از GPT-5.1 بالاتر است (۱٫۲۵ / ۱۰ دلار)، اما همچنان از Gemini 3 Pro ارزانتر است.
🔗 https://openai.com/index/introducing-gpt-5-2/
#chatgpt #OpenAI
@asrgooyeshpardaz
❤ 1🔥 1🤔 1👨💻 1
🛡 اقدامهای OpenAI برای تقویت امنیت سایبری با کمک هوش مصنوعی
توانایی مدلهای هوش مصنوعی در حوزه امنیت سایبری با سرعتی چشمگیر در حال رشد است 📈؛ کارایی آنها در آزمونهای CTF از ۲۷٪ (مدل GPT-5 در اوت ۲۰۲۵) به ۷۶٪ (مدل GPT-5.1-Codex-Max در نوامبر ۲۰۲۵) رسیده است.
هدف اصلی OpenAI این است که این توانمندیها پیش از هر چیز در خدمت مدافعان 🛡 باشند، نه سوءاستفادهگران.
اقدامهای شرکت:
🔐 حفاظت چندلایه:
از آموزش مدلها برای امتناع از اجرای درخواستهای مخرب گرفته تا اجرای رد تیمینگ با همکاری کارشناسان.
🤝 همکاریها و مشارکتها:
ایجاد Frontier Risk Council با حضور متخصصان امنیت سایبری و همکاری در قالب Frontier Model Forum.
⚙️ ابزارها برای مدافعان:
ابزار Aardvark (در نسخه بتای خصوصی) — ابزار شناسایی آسیبپذیریهای کد و پیشنهاد وصلههای اصلاحی. این ابزار برای بخشی از پروژههای متنباز، رایگان ارائه میشود.
برنامهای برای ارائه دسترسی مطمئن و کنترلشده به قابلیتهای پیشرفتهتر مدلها ویژه کاربردهای امنیت سایبری در دست آمادهسازی است.
شرکت OpenAI سرمایهگذاری بلندمدتی روی تقویت اکوسیستم دفاع سایبری با کمک هوش مصنوعی انجام میدهد تا برتری قاطع را در اختیار مدافعان قرار دهد 💪.
🔗https://openai.com/index/strengthening-cyber-resilience/
#امنیت_سایبری
@asrgooyeshpardaz
👾 2❤ 1🤝 1
🛰 فضاپیماهای ناسا بهمدت سه سال در برابر هک آسیبپذیر بودند، و هیچکس خبر نداشت — هوش مصنوعی این نقص را فقط در ۴ روز پیدا و رفع کرد
یک آسیبپذیری بحرانی در کتابخانهٔ رمزنگاری CryptoLib کشف شد؛ کتابخانهای که ارتباط با فضاپیماهای ناسا را ایمنسازی میکند. این حفره ۳ سال 🕒 وجود داشت و مأموریتهایی به ارزش میلیاردها دلار — از جمله مریخنوردها — را در معرض خطر قرار میداد.
🔍 حقایق:
• این آسیبپذیری امکان تزریق دستورهای دارای سطح دسترسی سیستمی را فراهم میکرد.
• برای انجام حمله به دسترسی محلی (مثلاً از طریق فیشینگ) نیاز بود.
• بررسیهای انسانی این نقص را سالها نادیده گرفته بودند.
🤖 راهحل:
الگوریتم هوش مصنوعی AISLE این مشکل را پیدا کرد و تنها در ۴ روز ⚡️ به رفع آن کمک کرد. این نتیجه قدرت تحلیلگران خودمختار مبتنی بر هوش مصنوعی در حوزهٔ امنیت سایبری را نشان میدهد.
🔐 نتیجه:
تحلیل خودکار کد به یک ضرورت برای محافظت از زیرساختهای حیاتی تبدیل شده است
🔗 https://www.space.com/technology/nasa-spacecraft-were-vulnerable-to-hacking-for-3-years-and-nobody-knew-ai-found-and-fixed-the-flaw-in-4-days
@asrgooyeshpardaz
👏 4❤ 2
🛰 پروژهٔ جدید Google: گامی بهسوی ایجاد زیرساخت فضایی مقیاسپذیر برای هوش مصنوعی
گوگل در حال بررسی کلاسترهای هوش مصنوعی فضایی روی ماهوارههایی با پنلهای خورشیدی است. هدف این پروژه بهرهگیری از تقریباً بینهایت انرژی خورشیدی ☀️ برای انجام محاسبات مقیاسپذیر است.
🔬 نتایج کلیدی:
• ماهوارهها در فاصلهٔ نزدیک هم (شعاع ۱ کیلومتر) پرواز میکنند تا ارتباط نوری با سرعت ۱۰ ترابیت بر ثانیه برقرار شود.
• تجهیزات TPU Trillium آزمایشهای تابش فضایی را با موفقیت گذرانده و میتوانند ۵ سال در مدار دوام بیاورند.
• هزینهٔ پرتاب تا سال ۲۰۳۵ ممکن است به حدود ۲۰۰ دلار بهازای هر کیلوگرم کاهش یابد 🚀، رقابتی با هزینههای انرژی روی زمین.
📡 این سیستم برای فعالیت در مدار پایین زمین (LEO) طراحی میشود؛ جایی با پهنای باند بالا و تأخیر اندک. این پروژه یک حرکت بلندمدت و تحولآفرین برای توسعهٔ پایدار هوش مصنوعی است. 🌍✨
🔗 https://arxiv.org/abs/2511.19468
@asrgooyeshpardaz
🔥 2❤ 1🤔 1
🔐 آیا Vibe Coding امن است؟ ارزیابی آسیبپذیریهای کدی که توسط عاملهای هوش مصنوعی تولید میشود.
پژوهش جدیدی از دانشگاه Carnegie Mellon نشان میدهد: زمانی که عاملهای هوش مصنوعی (مانند Claude یا Gemini) بر اساس توضیح متنی کدنویسی میکنند (vibe coding)، خروجی میتواند خطرناک باشد.
📊 یافتهها:
• ۶۱٪ از راهحلها از نظر عملکردی درستاند، اما فقط ۱۰٫۵٪ امن هستند.
• ۸۰٪ از کدهای قابل اجرا شامل آسیبپذیریهای CWE هستند.
• حتی یادآوری یا هشدار دربارهٔ ریسکها امنیت را بهتر نمیکند و در عوض به عملکرد ضربه میزند.
⚠️ نمونه:
کدی که یک مدل هوش مصنوعی برای بررسی رمز در Django تولید کرده بود، امکان حدسزدن نام کاربری را با تحلیل زمان پاسخ فراهم میکرد (CWE-208).
🤖 مسئله:
عاملها نمیتوانند بین امنیت و عملکرد تعادل برقرار کنند. تذکر ساده دربارهٔ امنیت کافی نیست.
🚨 جمعبندی:
راهکارهای Vibe Coding هنوز برای پروژههای حساس به امنیت مناسب نیست و نیازمند روشهای پیشرفتهٔ محافظتی است.
🔗 https://arxiv.org/abs/2512.03262
@asrgooyeshpardaz
👍 1👌 1🥴 1
🚀 گوگل سرویس AlphaEvolve را معرفی کرد
این سرویس یک عامل هوش مصنوعی برای کشف و بهینهسازی خودکار الگوریتمها است؛ ابزاری برای حل مسائلی که جستوجوی دستی در آنها عملاً ممکن نیست.
🔬 نحوهٔ کارکرد:
🔸شما مسئله، یک «کد بذری» و روش ارزیابی را مشخص میکنید.
🔸مدل Gemini (در نسخههای Flash یا Pro) جهشهایی روی کد ایجاد میکند.
🔸یک الگوریتم تکاملی بهترین نسخهها را انتخاب میکند.
🔸این چرخه تکرار میشود تا نتیجه بهطور پیوسته بهبود یابد.
🏆 مزایای ثابتشده در داخل Google:
• صرفهجویی ۰٫۷٪ در منابع مراکز داده در سطح جهانی.
• ۱٪ افزایش سرعت آموزش مدل Gemini.
• بهینهسازی طراحی پردازندههای TPU.
💊 کاربردها در صنایع مختلف:
• زیستفناوری: تسریع شبیهسازی مولکولها
• لجستیک: بهبود مسیرهای حملونقل
• مالی: تکامل مدلهای مدیریت ریسک
• انرژی: متعادلسازی شبکههای انرژی
📢 این سرویس در حال حاضر از طریق Google Cloud در دسترسی اولیه ارائه شده است و برای مسائل پیچیدهٔ بهینهسازی مناسب است.
🔗 https://cloud.google.com/blog/products/ai-machine-learning/alphaevolve-on-google-cloud
@asrgooyeshpardaz
❤ 1👍 1🔥 1👨💻 1
📈 شبیهسازی یک جامعه حقوقی با استفاده از عاملهای مبتنی بر LLM
پژوهشگران دانشگاه پکن چارچوب Law in Silico را معرفی کردهاند؛ سیستمی برای شبیهسازی جامعه حقوقی بر پایه عاملهای هوشمند زبانی.
🏛 ایده اصلی:
در این چارچوب، عاملهایی با پروفایلهای واقعینما (از جمله سطح درآمد، تحصیلات و باورهای مذهبی) در سناریوهای مختلفِ مرتبط با جرم و قانون تصمیمگیری میکنند. این سیستم سازوکارهای قانونگذاری، قضایی و اجرایی را — حتی با امکان بروز فساد — بازتاب میدهد.
📊 یافتهها:
در سطح کلان، نرخهای شبیهسازیشده جرم با آمارهای واقعی همخوانی دارند.
مدل تأثیر عوامل شناختهشده را بهدرستی بازنمایی میکند: مانند افزایش ریسک جرم در جوانان، افراد با درآمد پایین یا مصرفکنندگان مواد مخدر.
در ریزشبیهسازیها (برای نمونه، «شرکت در برابر کارکنان») نوعی پویایی «گربه و موش» دیده شد: شرکتها راههای دور زدن قانون را پیدا میکنند و کارکنان نیز رفتار خود را برای مقابله با آن تنظیم میکنند.
⚖️ جمعبندی:
این پژوهش نشان میدهد که LLMها قادرند نظامهای حقوقی را بهشکل واقعگرایانه شبیهسازی کنند، نقاط ضعف قوانین را آشکار سازند و امکان ارزیابی اثربخشی سیاستها را فراهم کنند. چنین ابزاری میتواند در تحلیل سیاستگذاریها و حمایت از گروههای آسیبپذیر مفید باشد.
🔗 لینک مقاله:
https://arxiv.org/abs/2510.24442
@asrgooyeshpardaz
👍 2❤ 1👏 1💯 1
🤖 رباتهایی که حرکات را از روی ویدئو تقلید میکنند
پژوهشگران دانشگاه UC Berkeley با همکاری یان لِکون سامانهای به نام GenMimic ارائه کردهاند که به رباتهای انساننما امکان میدهد بدون هیچ آموزش اضافی (Zero-Shot) بتوانند حرکات انسان را از روی ویدئوهای تولیدشده بازآفرینی کنند.
🔹 نکات کلیدی:
این سیستم یک فرایند دو مرحلهای دارد:
1️⃣ بازسازی مدل چهاربُعدی انسان از روی ویدئو
2️⃣ انتقال حرکت به ربات با استفاده از یک سیاست یادگیری تقویتی (RL)
سیاست جدید RL با بهرهگیری از ردیابی وزندار نقاط کلیدی و تنظیم تقارن حرکت، پایداری بالایی در برابر نویز ویدئوها ایجاد میکند.
مجموعهدادهای با نام GenMimicBench ساخته شده که شامل ۴۲۸ ویدئو تولیدشده توسط مدلهای Wan 2.1 و Cosmos-Predict2 است.
این سیاست هم در شبیهسازی و هم روی ربات واقعی Unitree G1 🦾 آزمایش شده و پایداری و توانایی تعمیم بالایی از خود نشان داده است.
💡 جمعبندی:
ترکیب «ویدئوژنریشن + یادگیری تقویتی» یک گام مهم بهسوی رباتهایی است که مستقیماً از ویدئوهای اینترنتی یاد میگیرند. این رویکرد میتواند در آینده زمینهساز برنامهریزی خودمختار حرکات بر اساس دادههای بصری باشد. 🚀
🔗 https://arxiv.org/abs/2512.05094
#هوش_مصنوعی #رباتیک #پژوهش
@asrgooyeshpardaz
❤ 5🔥 1👏 1😨 1
🎙️ مزیت روشهای نظارتشده در توکنیزهسازی گفتار: درسهایی از ASR کودکان
در سالهای اخیر، «توکنهای گسستهٔ گفتار» به یکی از محورهای مهم پژوهش در پردازش گفتار تبدیل شدهاند. این توکنها بهدلیل کارایی بالا در ذخیرهسازی و سازگاری مناسب با مدلهای زبانی (LLM)، گزینهای جذاب برای سامانههای تشخیص گفتار بهویژه در محیطهای کممنبع به شمار میآیند.
با این حال، پرسشی جدی مطرح است:
برای استخراج توکنهای معنایی گفتار، روشهای بدوننظارت بهتر عمل میکنند یا روشهای نظارتشده؟
مقالهٔ جدیدی که با محوریت «تشخیص گفتار کودکان (Child ASR)» منتشر شده، پاسخی روشن و مستند برای این پرسش ارائه میدهد؛ حوزهای که بهدلیل تنوع زیاد الگوهای گفتاری، کمبود داده و تفاوت آرتیکولاسیون، یکی از دشوارترین سناریوهای ASR است.
🧩 چالش ASR کودکان چیست؟
تنوع بسیار زیاد در تولید گفتار
شفاف نبودن آرتیکولاسیون
دادهٔ محدود و نامتوازن
اتکای مدلهای پایه بر گفتار بزرگسالان
در چنین شرایطی، انتخاب روش مناسب برای توکنیزهسازی گفتار نقش تعیینکنندهای در کیفیت خروجی دارد.
🔬 مقایسهٔ دو رویکرد اصلی توکنیزاسیون معنایی گفتار
۱) روشهای بدوننظارت
مبتنی بر خوشهبندی K-means
رایج، ساده و سریع
اما فاقد هدایت مبتنی بر هدف (task-driven)
۲) روشهای نظارتشده
مبتنی بر کوانتیزاسیون اسکالر محدود (FSQ)
آموزشدیده با زیان ASR
هدفمند برای رمزگذاری مؤثر و کاربردی
هر دو روش در این پژوهش با استفاده از مدلهای بزرگ گفتار ازپیشآموزشدیده ارزیابی شدهاند تا مقایسهای عادلانه و قابل استناد فراهم شود.
📊 نتایج پژوهش: برتری قاطع روشهای نظارتشده
⭐ ۱. عملکرد بالاتر در ASR
روشهای نظارتشده بهطور معنادار از روشهای بدوننظارت پیشی گرفتند.
⭐ ۲. غلبه بر نمایشهای پیوسته
برخلاف انتظار، توکنهای نظارتشده حتی از ویژگیهای پیوسته نیز عملکرد بهتری داشتند.
⭐ ۳. کارایی در نرخ بیت بسیار پایین
این دستاورد امکان توسعهٔ سامانههای ASR بسیار کمحجم را فراهم میکند، از جمله برای:
دستگاههای پوشیدنی
رباتها و اسباببازیهای هوشمند
سامانههای آموزشی کودکان
تجهیزات لبهای در مدارس و مراکز توانبخشی
🎯 جمعبندی
پژوهش نشان میدهد که:
توکنهای معنایی مبتنی بر روشهای نظارتشده نهتنها نسبت به روشهای بدوننظارت کارآمدترند، بلکه در شرایطی حتی از نمایشهای پیوسته نیز بهتر عمل میکنند.این یافتهها مسیر نوینی برای بهبود توکنیزاسیون گسستهٔ گفتار، بهویژه در کاربردهای کممنبع و حساس مانند ASR کودکان، ترسیم میکند. 🔗https://arxiv.org/abs/2512.03301 @asrgooyeshpardaz
🤝 2
