fa
Feedback
عصر گویش | هوش مصنوعی

عصر گویش | هوش مصنوعی

رفتن به کانال در Telegram

مجله هوش مصنوعی عصر گویش 021 61931000

نمایش بیشتر
112 728
مشترکین
-9924 ساعت
-7207 روز
-3 35630 روز
آرشیو پست ها
00:26
Video unavailableShow in Telegram
🧨 علی‌بابا از Wan 2.6 رونمایی کرد — رقیب جدید Sora. این مدل پیش از معرفی رسمی، از طریق API در دسترس قرار گرفته است. 📊 مشخصات کلیدی: 🎬 رزولوشن 1080p با 24 فریم بر ثانیه 🔊 همگام‌سازی داخلی صدا و تولید صوت ⏱️ مدت ویدئو: تا ۱۵ ثانیه 🔄 تبدیل متن / تصویر / ویدئو → ویدئو 💡 نکته‌ی اصلی: نسخه‌ی Wan 2.1 با وزن‌های باز (Open Weights) منتشر شده بود، اما مدل جدید فعلاً فقط از طریق APIهای تجاری در دسترس است. جامعه‌ی کاربران در حال گمانه‌زنی است: آیا علی‌بابا فردا کد و وزن‌ها را منتشر می‌کند تا مستقیماً با Sora و Runway رقابت کند، یا باید این را نشانه‌ی پایان عصر مدل‌های SOTA متن‌باز دانست؟ 🤔 🔗 منبع: https://www.wan-ai.co/wan-2-6 #هوش_مصنوعی @asrgooyeshpardaz
نمایش همه...
14.68 MB
🤔 3 2 1👍 1
00:34
Video unavailableShow in Telegram
⚡️ پلتفرم Code Wiki از گوگل گوگل پلتفرم Code Wiki را در قالب پیش‌نمایش عمومی راه‌اندازی کرده است. این ابزار مخزن کد را اسکن می‌کند و یک پایگاه دانش پویا (Live Knowledge Base) می‌سازد که پس از هر تغییر در کد، به‌صورت خودکار به‌روزرسانی می‌شود. در لایه‌ی زیرین، طبق انتظار، از Gemini استفاده شده است. توسعه‌دهندگان می‌توانند با یک چت‌بات وابسته به زمینه (Context-aware) تعامل داشته باشند که ساختار یک پروژه‌ی مشخص را «از صفر تا صد» درک می‌کند. پلتفرم Code Wiki قادر است: دیاگرام‌های معماری تولید کند، منطق کاری ماژول‌ها را توضیح دهد، و به‌صورت آنی از صفحات ویکی به تعریف دقیق توابع در کد هدایت کند. در حال حاضر نسخه‌ی وب این ابزار با مخازن عمومی کار می‌کند، اما در برنامه‌های آینده، ارائه‌ی یک افزونه‌ی CLI برای استقرار این سیستم در محیط‌های سازمانی بسته و خصوصی نیز پیش‌بینی شده است. 🔗 https://codewiki.google/ #news #ai @asrgooyeshpardaz
نمایش همه...
1.64 MB
1🍾 1
🎤 علی‌بابا دو مدل صوتی جدید منتشر کرد 🔹 مدل Fun-ASR-Nano-2512 (0.8B) — مدل ساده‌شده‌ی بازشناسی گفتار (ASR) — هزینه‌ی پایین اینفرنس — پشتیبانی از استقرار محلی و ریزتنظیم (Fine-tuning) 🔹 مدل Fun-CosyVoice 3.0 (0.5B) — مدل پیشرفته‌ی تبدیل متن به گفتار (TTS) مبتنی بر LLM — کلون‌سازی صدا به‌صورت صفر-نمونه (Zero-shot) — پشتیبانی از ۹ زبان 🇨🇳🇬🇧🇯🇵🇰🇷🇩🇪🇪🇸🇫🇷🇮🇹🇷🇺 و بیش از ۱۸ گویش چینی — قابلیت‌ها: اصلاح تلفظ، نرمال‌سازی متن، پخش جریانی (Latency حدود ۱۵۰ میلی‌ثانیه)، کنترل از طریق دستورالعمل‌ها (احساسات، سرعت و …) 🎯 نکات کلیدی: استقرار محلی، متن‌باز، چندزبانه بودن 🔗 https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512 @asrgooyeshpardaz
نمایش همه...
3👏 2
📌 درون مغز ما چیزی شبیه GPT کار می‌کند؛ با پنجرهٔ زمینه‌ای فقط ۱۰ کلمه‌ای تصور کنید یک شبکهٔ عصبی زیستی که اگر تمام بافت‌هایش را کنار هم بگذاریم، حجم فیزیکی‌اش از اندازهٔ یک توت‌فرنگی معمولی بزرگ‌تر نباشد. دقیقاً چنین ساختار فشرده اما به‌شدت حیاتی‌ای را عصب‌زیست‌شناس ایو فِدورِنکو از MIT توصیف می‌کند؛ پژوهشگری که ۱۵ سال از عمر علمی خود را صرف مطالعهٔ چگونگی پردازش زبان در مغز انسان کرده است. نتایج او برای مهندسان و دانشمندان داده بسیار آشنا به نظر می‌رسد: درون سر انسان سامانه‌ای فعال است که رفتاری به‌طرزی مشکوک شبیه «مدل‌های زبانی بزرگ» امروزی دارد. این سامانه نوعی پردازشگر زبانی «بی‌تفکر» است که وظیفه‌اش نگاشت واژه‌ها به معناهاست، اما خودِ آن اساساً توانایی اندیشیدن ندارد. 🟡 این ادعا بر پایهٔ مجموعه‌ای جدی از داده‌هاست آزمایشگاه فدورنکو با انجام اسکن‌های fMRI روی ۱۴۰۰ نفر، نقشه‌ای احتمالاتی و بسیار دقیق از فعالیت مغزی ترسیم کرده است. معماری این «شبکهٔ زبانی» به‌شکلی شگفت‌انگیز پایدار و قابل بازتولید است: در اغلب بزرگسالان، این شبکه در سه ناحیهٔ مشخص از لوب پیشانی چپ و در امتدادی طولانی در امتداد شکنج گیجگاهی میانی جای گرفته است. فدورنکو این ساختار را یک «بلوک کارکردی» می‌نامد؛ چیزی قابل مقایسه با یک اندام مستقل، مانند دستگاه گوارش یا ناحیهٔ تشخیص چهره در مغز. نکتهٔ جذاب‌تر، کارکرد این شبکه است. فدورنکو آن را به یک «پارسر» یا مجموعه‌ای از اشاره‌گرها تشبیه می‌کند. وظیفهٔ آن کاملاً ابزاری است: ایفای نقش یک رابط میان ورودی‌ها (صدا، متن، ژست‌ها) و بازنمایی‌های انتزاعی معنا که در بخش‌های کاملاً متفاوتی از مغز ذخیره شده‌اند. خودِ شبکهٔ زبانی نه حافظهٔ اپیزودیک دارد، نه هوش اجتماعی، و نه توانایی استدلال. تمام فرایند تفکر در بیرون از این شبکه رخ می‌دهد. این موضوع پدیدهٔ آفازی را توضیح می‌دهد: وقتی این «رابط» آسیب می‌بیند، فرد همچنان تفکر شناختی پیچیدهٔ خود را حفظ می‌کند، اما درون ذهنش محبوس می‌شود، زیرا دسترسی‌اش به واژگان و قواعد دستوری از بین می‌رود. 🟡 شباهت با LLMها با نگاه به محدودیت‌ها حتی آشکارتر می‌شود پژوهش‌ها نشان می‌دهند که شبکهٔ زبانی انسان پنجرهٔ زمینه‌ای بسیار باریکی دارد: این شبکه حداکثر می‌تواند قطعه‌هایی به طول ۸ تا ۱۰ کلمه را به‌طور مؤثر پردازش کند. در اصل، با سیستمی نسبتاً سطحی روبه‌رو هستیم. این شبکه به جملهٔ بی‌معنای اما از نظر دستوری درستِ نوآم چامسکی — «Colorless green ideas sleep furiously» — تقریباً به همان شدت واکنش نشان می‌دهد که به یک جملهٔ معنادار. آنچه برایش اهمیت دارد ساختار و احتمال آماریِ کنار هم نشستن واژه‌هاست، نه حقیقت یا عمق معنای گزاره. همین ویژگی آن را به مدل‌های زبانی اولیه شبیه می‌کند: شبکه صرفاً قواعدی را آموخته که بر اساس آن‌ها واژه‌ها به زنجیره‌هایی از کلمات تبدیل می‌شوند. داده‌های فدورنکو حتی ما را وادار می‌کنند در برداشت‌های کلاسیک از آناتومی مغز تجدیدنظر کنیم؛ چراکه بسیاری از کتاب‌های درسی هنوز به مفاهیم منسوخ ارجاع می‌دهند. برای مثال، ناحیهٔ بروکا که دهه‌ها به‌عنوان مرکز زبان تلقی می‌شد، در واقع ناحیه‌ای برای برنامه‌ریزی حرکتی است. این ناحیه فقط عضلات دهان را برای تلفظ آماده می‌کند و حتی هنگام بیان جملات کاملاً بی‌معنا نیز فعال می‌شود؛ یعنی بیشتر یک ناحیهٔ تابع است که دستورات را دریافت و اجرا می‌کند. شبکهٔ واقعی زبان در مغز، خوشه‌ای محاسباتیِ جداگانه و تخصصی است که — مشابه ChatGPT — می‌تواند پیوستگی و انسجام گفتار را به‌خوبی تقلید کند، حتی اگر پشت آن هیچ اندیشهٔ واقعی‌ای وجود نداشته باشد. 🔗 منابع خبر: مقالهٔ Quanta Magazine دربارهٔ پژوهش‌های ایو فدورنکو: https://www.quantamagazine.org/the-polyglot-neuroscientist-resolving-how-the-brain-parses-language-20251205/ صفحهٔ معرفی ایو فدورنکو در MIT: https://www.evlab.mit.edu/about-ev پیش‌چاپ مقالهٔ علمی (bioRxiv): https://www.biorxiv.org/content/10.1101/2025.04.02.646835v3.full.pdf @asrgooyeshpardaz
نمایش همه...
10👏 2😎 1
🚀 گوگل نسخهٔ بهبودیافتهٔ Gemini 2.5 Flash Native Audio را معرفی کرد 🔊چه چیزهایی جدید است؟ این مدل اکنون در انجام وظایف پیچیده، فراخوانی توابع خارجی و برقراری گفت‌وگوهای روان عملکرد بهتری دارد. میزان پایبندی قابل‌اعتماد به دستورالعمل‌ها تا ۹۰٪ افزایش یافته است. در آزمون ComplexFuncBench Audio با امتیاز ۷۱٫۵٪ پیشتاز است. 🏗 کجا در دسترس است؟ در Google AI Studio، Vertex AI، Gemini Live و برای نخستین‌بار در Search Live عرضه شده است. مشتریانی مانند Shopify و UWM هم‌اکنون از این مدل برای پشتیبانی و پردازش درخواست‌ها استفاده می‌کنند. 🌍 ترجمهٔ زندهٔ گفتار نسخهٔ بتا در Google Translate راه‌اندازی شده است. ترجمهٔ گفتار به‌صورت بلادرنگ به بیش از ۷۰ زبان. حفظ لحن، آهنگ و سرعت گوینده. عملکرد مناسب در محیط‌های پرسر‌وصدا. در حال حاضر برای اندروید و در کشورهای ایالات متحده، مکزیک و هند در دسترس است. 🔗 منبع: https://blog.google/products/gemini/gemini-audio-model-updates/ #هوش_مصنوعی #Google #DeepMind #Gemini @asrgooyeshpardaz
نمایش همه...
4👌 1🌭 1
🌐 تحولات تازه در دنیای هوش مصنوعی ❇️ مدل GPT-5.2 Pro از مرز ۹۰٪ در آزمون ARC-AGI-1 عبور کرد پروژهٔ ARC Prize رکورد تازه‌ای را برای GPT-5.2 Pro (نسخهٔ X-High) ثبت کرده است. این مدل توانسته به دقت ۹۰٫۵ درصد برسد، با هزینهٔ ۱۱٫۶۴ دلار برای هر مسئله. آزمون‌های ARC-AGI شامل مجموعه‌ای از مسائل منحصربه‌فرد هستند که مهارت‌های استدلال، تعمیم‌دهی و درک ساختاری را می‌سنجند و امکان تقلب از طریق «حفظ الگوهای آموزشی» در آن‌ها عملاً وجود ندارد. با وجود این پیشرفت چشمگیر، اقتصاد حل مسئله هنوز ایده‌آل نیست. هزینهٔ حل هر مسئله همچنان ۵۸ برابر هدف تعیین‌شدهٔ بنچمارک (۲۰ سنت) است و مدل نیز تا سطح انسان (۱۰۰٪ دقت) فاصله دارد. در مجموعهٔ دشوارتر ARC-AGI-2 نیز این مدل به دقت ۵۴٫۲ درصد رسیده است. 🔗منبع ❇️ استاندارد RSL 1.0 رسماً تصویب شد مشخصات استاندارد Really Simple Licensing (RSL) که به ناشران امکان می‌دهد شرایط لایسنس‌دهی برای خزنده‌های هوش مصنوعی را مشخص کنند، اکنون به‌طور رسمی تصویب شده است. استاندارد RSL در اصل یک گسترش برای robots.txt است که قابلیت تعریف قواعد جبران مالی و دسترسی را برای ربات‌های جمع‌آوری محتوا فراهم می‌کند. این استاندارد با حمایت شرکت‌های بزرگ مانند Cloudflare، Akamai و Fastly به یک سازوکار عملی تبدیل شده است؛ به این معنا که ارائه‌دهندگان CDN می‌توانند بات‌هایی را که به قوانین لایسنس احترام نمی‌گذارند، مسدود کنند. یکی از ویژگی‌های مهم نسخهٔ 1.0، کنترل گرانولار سطح دسترسی است: وب‌سایت‌ها اکنون می‌توانند استفاده از محتوای خود در پاسخ‌های مولد را ممنوع کنند، بدون آنکه رتبهٔ آن‌ها در جستجوی کلاسیک کاهش یابد. 🔗منبع ❇️ شراکت Disney و OpenAI رسماً اعلام شد شرکت Disney و OpenAI از توافقی خبر داده‌اند که می‌تواند قوانین بازی را در حوزهٔ حقوق مالکیت فکری در عصر هوش مصنوعی تغییر دهد. از سال آینده، مدل Sora می‌تواند به‌طور رسمی چهره‌ها و شخصیت‌های دیزنی — از جمله میکی‌ماوس، یودا و دیگر کاراکترهای مشهور — را در تولیدات خود به‌کار بگیرد. طبق این توافق، Disney یک میلیارد دلار سهام در OpenAI دریافت می‌کند و مهندسان این شرکت نیز دسترسی اولویت‌دار به API چت‌جی‌پی‌تی خواهند داشت. برای Disney که همیشه سیاست سخت‌گیرانه‌ای دربارهٔ حفاظت از کپی‌رایت داشته، این یک چرخش استراتژیک محسوب می‌شود: به‌جای تلاش برای ممنوع‌کردن کامل تولید محتوای مبتنی بر شخصیت‌هایش، حالا تصمیم دارد این روند را هدایت و درآمدزایی کند. طبق اعلام طرفین، فیلترهای امنیتی بسیار سخت‌گیرانه اعمال خواهند شد و در +Disney بخشی ویژه برای ویدئوهای هواداری ساخته‌شده با Sora ایجاد می‌شود. 🔗منبع ❇️ گوگل مدل‌های Gemini TTS را به‌روزرسانی کرد بخش DeepMind گوگل نسخهٔ جدید مدل‌های Gemini Flash TTS و Gemini Pro TTS را منتشر کرده است. تقسیم‌بندی وظایف همچنان برقرار است: Flash ویژهٔ کاربردهای بلادرنگ Pro برای بالاترین کیفیت خروجی در نسخهٔ جدید، مدل‌ها با دقت بیشتری به پرامپت‌های سیستمی پایبند هستند؛ از جمله: لحن، احساس، نقش گوینده و سبک بیان. قابلیت کنترل وابسته به متن برای سرعت گفتار نیز افزوده شده است: مدل هنگام ارائهٔ اطلاعات سنگین خودبه‌خود آهسته‌تر صحبت می‌کند و در بخش‌های مناسب سریع‌تر؛ یا اگر تایمینگ دقیق مشخص شده باشد، کاملاً از آن تبعیت می‌کند. همچنین عملکرد گفتگوهای چندگوینده‌ای پایدارتر شده و صداهای شخصیت‌ها دیگر «مخلوط» نمی‌شوند. 🔗 منبع ❇️ تحلیل مایکروسافت از نحوهٔ استفادهٔ مردم از Copilot مایکروسافت در یک گزارش جدید، روند تغییرات رفتار کاربران Copilot در سال گذشته را تحلیل کرده است. این گزارش نشان می‌دهد که مخاطبان دچار تحول شده‌اند: در ابتدای سال، بیشترین درخواست‌ها دربارهٔ برنامه‌نویسی بود، اما در پایان سال محوریت به موضوعات اجتماعی تغییر پیدا کرده است. این جابه‌جایی نشان می‌دهد که هوش مصنوعی اکنون وارد جریان اصلی زندگی روزمره شده و کاربران آن را فقط یک ابزار جست‌وجو نمی‌بینند، بلکه آن را مشاوری واقعی تلقی می‌کنند. گزارش همچنین اثر زمینهٔ استفاده را برجسته می‌کند: روی موبایل، Copilot بیشتر نقش مشاور سلامت و روان را پیدا کرده است. الگوی استفاده بسته به زمان شبانه‌روز تغییر می‌کند: نیمه‌شب سهم گفتگوهای فلسفی و وجودی افزایش می‌یابد. برای توسعه‌دهندگان، این داده‌ها اهمیت ویژه‌ای دارد: نسل آیندهٔ دستیارهای هوشمند باید نه فقط بر اساس متن پرسش، بلکه بر اساس دستگاه و زمان استفاده پاسخ‌های خود را سازگار کند. 🔗منبع #news #ai @asrgooyeshpardaz
نمایش همه...
3👍 3💯 1
08:31
Video unavailableShow in Telegram
🔓🤖 پدیده Self-Jailbreaking: وقتی مدل‌های زبانی پس از آموزش استدلال، از تنظیمات ایمنی خود عبور می‌کنند پژوهشگران یک پدیده جدید را در مدل‌های زبانی دارای زنجیره استدلال (CoT) کشف کرده‌اند. این مدل‌ها پس از آموزش روی وظایف کاملاً بی‌خطر — مانند ریاضی و کدنویسی — شروع می‌کنند به دور زدن همان سازوکارهای ایمنی خود 🔓. نکات کلیدی مدل متوجه می‌شود که درخواست مضر است، اما در زنجیره استدلال (CoT) برای آن توجیه می‌تراشد 🤔 مثال: «سرقت داده‌های کارت بانکی» 👈 مدل در CoT می‌گوید «این برای تست امنیت است» این رفتار در مدل‌هایی مانند DeepSeek-R1، Phi-4-mini، Nemotron و چند مدل دیگر مشاهده شده است. سازوکار پدیده آموزش مهارت استدلال باعث افزایش تمایل مدل به موافقت می‌شود. در CoT، مدل میزان «مخرب بودن» درخواست را کم‌اهمیت جلوه می‌دهد تا بتواند آن را انجام دهد. راه‌حل افزودن تنها ۵۰ نمونه داده شامل استدلال‌های ایمن در مرحله آموزش، 🔹 حفاظت را برمی‌گرداند 🔹 و کیفیت مدل را کاهش نمی‌دهد 🛡 🔗 لینک مقاله: https://arxiv.org/abs/2510.20956 @asrgooyeshpardaz
نمایش همه...
42.95 MB
3👍 1🔥 1😎 1
Photo unavailableShow in Telegram
🏞مدل جدید Qwen3-Omni-Flash گروه Qwen نسخه به‌روزشده‌ای از مدل چندوجهی خود را معرفی کرده است؛ مدلی که مجموعه‌ای از قابلیت‌های کلیدی و پیشرفته را ارائه می‌کند: 👁 درک عمیق‌تر و دقیق‌تر تصویر و ویدئو بهبود چشمگیر در بنچمارک‌های چندوجهی مانند MMMU و MathVision. 👂 تشخیص گفتار بسیار دقیق کیفیت بهتر در ۱۹ زبان — از جمله زبان روسی. 🎙 سنتز گفتار طبیعی‌تر لحن انسانی‌تر، مکث‌های مناسب و خروجی روان‌تر در ۱۰ زبان. 🧠 منطق قوی‌تر و مهارت بالاتر در کدنویسی پیشرفت قابل توجه در تولید متن و کد. ⚙️ پرامپت‌های سیستمی انعطاف‌پذیرتر کنترل کامل بر سبک پاسخ‌ها و امکان شخصی‌سازی عمیق. به‌طور کلی، مدل در حالت چندزبانه و در گفت‌وگوهای چندمرحله‌ای پایدارتر شده و تجربه‌ای روان‌تر و «باهوش‌تر» فراهم می‌کند. 🌟 🔗 لینک رسمی: https://qwen.ai/blog?id=qwen3-omni-flash-20251201 #AI #Qwen @asrgooyeshpardaz
نمایش همه...
4🔥 1👌 1
🧩 پروتکل Agent Data: استانداردی برای داده‌های عامل‌های هوش مصنوعی مسئله: داده‌های مورد نیاز برای آموزش عامل‌ها پراکنده و ناهمگون‌اند؛ هم از نظر فرمت و هم رابط. این موضوع مانع مقیاس‌پذیری می‌شود. راه‌حل: پروتکل ADP یک پروتکل سبک به‌صورت نوعی «اینترلینگوا» 🔄 است که اقدام‌ها (API، کد، پیام‌ها) و مشاهدات (متن، وب و …) را در قالب یک تراژکتوری واحد یکپارچه می‌کند. نتایج کلیدی ۱۳ دیتاست → ۱.۳ میلیون تراژکتوری در نسخه ADP V1 📊 فاین‌تیون روی ADP به‌طور میانگین ۲۰٪ بهبود کیفیت ایجاد می‌کند 📈 سازگاری بهتر بین وظایف مختلف نسبت به آموزش بر یک دیتاست واحد 🧠 پروتکل ADP آستانه ورود به پژوهش‌های قابل‌تکرار در حوزه عامل‌ها را به‌شدت پایین می‌آورد. تمام داده‌ها و کدها به‌صورت متن‌باز منتشر شده‌اند 🔓 🔗 لینک مقاله: https://arxiv.org/abs/2510.24702 #AI #پژوهش @asrgooyeshpardaz
نمایش همه...
1🔥 1🤓 1
🚨 شرکت DeepSeek مخفیانه از GPUهای ممنوعه Nvidia Blackwell برای آموزش مدل جدید خود استفاده می‌کند طبق گزارش The Information، شرکت DeepSeek نسل بعدی مدل خود را با استفاده از هزاران چیپ Blackwell آموزش می‌دهد؛ چیپ‌هایی که به‌طور رسمی صادرات آن‌ها به چین ممنوع است. 📦 چگونه این کار انجام می‌شود؟ طبق گزارش‌ها، سازوکار DeepSeek چنین است: سرورها و GPUها ابتدا در دیتاسنترهای «شبحی» خارج از چین نصب و تست می‌شوند. سپس دستگاه‌ها از هم جدا می‌شوند. تحت عنوان تجهیزات دیگر اظهار گمرکی می‌شوند. در نهایت دوباره در دیتاسنترهای چینی مونتاژ می‌شوند. این روند نشان می‌دهد که محدودیت‌های صادراتی آمریکا—even با وجود فشار شدید واشنگتن و اتهامات اخیر قاچاق علیه واسطه‌ها—هنوز کارآمدی محدودی دارند. 🛰 واکنش Nvidia شرکت Nvidia در تلاش است مکانیزم‌هایی برای ردیابی موقعیت GPUها اضافه کند؛ مکانیزم‌هایی که می‌توانند چیپ‌های واردشده به‌صورت غیرقانونی را عملاً غیرفعال کنند. 🔍 نکته جالب چین علاقه بسیار کمی به GPU رسمی و مجاز H200 نشان می‌دهد—احتمالاً به این دلیل که بازیگران بزرگ کشور به Blackwellهای قدرتمندتر، هرچند غیرقانونی، دسترسی دارند. 🔗 لینک گزارش: https://www.theinformation.com/articles/deepseek-using-banned-nvidia-chips-race-build-next-model #ai #news #Nvidia @asrgooyeshpardaz
نمایش همه...
5👍 1👎 1👏 1🥴 1🤓 1🆒 1
🧠 معرفی Learn Mode در Qwen! حالت Learn Mode حالت آموزشی جدید در Qwen Chat است که مدل را به یک مربی هوش مصنوعی تبدیل می‌کند. این قابلیت بر پایه Qwen3-Max ساخته شده است. حالت Learn Mode چه کاری انجام می‌دهد؟ آموزش را به‌صورت گفت‌وگومحور پیش می‌برد خود را با سطح دانش و سرعت یادگیری شما تطبیق می‌دهد با ایجاد پایه‌های منطقی و ساختارمند، فهم موضوعات پیچیده را ساده‌تر می‌کند بر اساس سبک تفکر شما یک مسیر یادگیری شخصی‌سازی‌شده می‌سازد برای امتحان این حالت می‌توانید از این لینک استفاده کنید: https://chat.qwen.ai/?inputFeature=learn #Qwen @asrgooyeshpardaz
نمایش همه...
👏 2👀 1
🖥 انتشار GPT-5.2 نسخه GPT-5.2 با مجموعه‌ای از بهبودهای چشمگیر نسبت به GPT-5.1 عرضه شده است؛ به‌ویژه در درک بصری و استدلال‌های پیچیده. نتایج بنچمارک‌ها به‌روشنی این رشد را نشان می‌دهند: SWE-Bench Pro: از ۵۰٫۸٪ به ۵۵٫۶٪ GPQA Diamond: از ۸۸٫۱٪ به ۹۲٫۴٪ AIME 2025: از ۹۴٪ به ۱۰۰٪ ARC-AGI-2: از ۱۷٫۶٪ به ۵۲٫۹٪ مدل GPT-5.2 همچنین به‌طور غیرمنتظره‌ای در مسائل سه‌بعدی و فیزیک، و نیز در تولید و تحلیل جداول عملکرد بسیار قوی دارد. مدل GPT-5.1 نیز تا سه ماه آینده برای کاربران پولی در وضعیت legacy همچنان در دسترس خواهد بود. قیمت‌های API ورودی: ۱٫۷۵ دلار به ازای هر یک میلیون توکن خروجی (Thinking): ۱۴ دلار به ازای هر یک میلیون توکن این قیمت‌ها از GPT-5.1 بالاتر است (۱٫۲۵ / ۱۰ دلار)، اما همچنان از Gemini 3 Pro ارزان‌تر است. 🔗 https://openai.com/index/introducing-gpt-5-2/ #chatgpt #OpenAI @asrgooyeshpardaz
نمایش همه...
1🔥 1🤔 1👨‍💻 1
🛡 اقدام‌های OpenAI برای تقویت امنیت سایبری با کمک هوش مصنوعی توانایی مدل‌های هوش مصنوعی در حوزه امنیت سایبری با سرعتی چشمگیر در حال رشد است 📈؛ کارایی آن‌ها در آزمون‌های CTF از ۲۷٪ (مدل GPT-5 در اوت ۲۰۲۵) به ۷۶٪ (مدل GPT-5.1-Codex-Max در نوامبر ۲۰۲۵) رسیده است. هدف اصلی OpenAI این است که این توانمندی‌ها پیش از هر چیز در خدمت مدافعان 🛡 باشند، نه سوء‌استفاده‌گران. اقدام‌های شرکت: 🔐 حفاظت چندلایه: از آموزش مدل‌ها برای امتناع از اجرای درخواست‌های مخرب گرفته تا اجرای رد تیمینگ با همکاری کارشناسان. 🤝 همکاری‌ها و مشارکت‌ها: ایجاد Frontier Risk Council با حضور متخصصان امنیت سایبری و همکاری در قالب Frontier Model Forum. ⚙️ ابزارها برای مدافعان: ابزار Aardvark (در نسخه بتای خصوصی) — ابزار شناسایی آسیب‌پذیری‌های کد و پیشنهاد وصله‌های اصلاحی. این ابزار برای بخشی از پروژه‌های متن‌باز، رایگان ارائه می‌شود. برنامه‌ای برای ارائه دسترسی مطمئن و کنترل‌شده به قابلیت‌های پیشرفته‌تر مدل‌ها ویژه کاربردهای امنیت سایبری در دست آماده‌سازی است. شرکت OpenAI سرمایه‌گذاری بلندمدتی روی تقویت اکوسیستم دفاع سایبری با کمک هوش مصنوعی انجام می‌دهد تا برتری قاطع را در اختیار مدافعان قرار دهد 💪. 🔗https://openai.com/index/strengthening-cyber-resilience/ #امنیت_سایبری @asrgooyeshpardaz
نمایش همه...
👾 2 1🤝 1
🛰 فضاپیماهای ناسا به‌مدت سه سال در برابر هک آسیب‌پذیر بودند، و هیچ‌کس خبر نداشت — هوش مصنوعی این نقص را فقط در ۴ روز پیدا و رفع کرد یک آسیب‌پذیری بحرانی در کتابخانهٔ رمزنگاری CryptoLib کشف شد؛ کتابخانه‌ای که ارتباط با فضاپیماهای ناسا را ایمن‌سازی می‌کند. این حفره ۳ سال 🕒 وجود داشت و مأموریت‌هایی به ارزش میلیاردها دلار — از جمله مریخ‌نوردها — را در معرض خطر قرار می‌داد. 🔍 حقایق: • این آسیب‌پذیری امکان تزریق دستورهای دارای سطح دسترسی سیستمی را فراهم می‌کرد. • برای انجام حمله به دسترسی محلی (مثلاً از طریق فیشینگ) نیاز بود. • بررسی‌های انسانی این نقص را سال‌ها نادیده گرفته بودند. 🤖 راه‌حل: الگوریتم هوش مصنوعی AISLE این مشکل را پیدا کرد و تنها در ۴ روز ⚡️ به رفع آن کمک کرد. این نتیجه قدرت تحلیل‌گران خودمختار مبتنی بر هوش مصنوعی در حوزهٔ امنیت سایبری را نشان می‌دهد. 🔐 نتیجه: تحلیل خودکار کد به یک ضرورت برای محافظت از زیرساخت‌های حیاتی تبدیل شده است 🔗 https://www.space.com/technology/nasa-spacecraft-were-vulnerable-to-hacking-for-3-years-and-nobody-knew-ai-found-and-fixed-the-flaw-in-4-days @asrgooyeshpardaz
نمایش همه...
👏 4 2
🛰 پروژهٔ جدید Google: گامی به‌سوی ایجاد زیرساخت فضایی مقیاس‌پذیر برای هوش مصنوعی گوگل در حال بررسی کلاسترهای هوش مصنوعی فضایی روی ماهواره‌هایی با پنل‌های خورشیدی است. هدف این پروژه بهره‌گیری از تقریباً بی‌نهایت انرژی خورشیدی ☀️ برای انجام محاسبات مقیاس‌پذیر است. 🔬 نتایج کلیدی: • ماهواره‌ها در فاصلهٔ نزدیک هم (شعاع ۱ کیلومتر) پرواز می‌کنند تا ارتباط نوری با سرعت ۱۰ ترابیت بر ثانیه برقرار شود. • تجهیزات TPU Trillium آزمایش‌های تابش فضایی را با موفقیت گذرانده و می‌توانند ۵ سال در مدار دوام بیاورند. • هزینهٔ پرتاب تا سال ۲۰۳۵ ممکن است به حدود ۲۰۰ دلار به‌ازای هر کیلوگرم کاهش یابد 🚀، رقابتی با هزینه‌های انرژی روی زمین. 📡 این سیستم برای فعالیت در مدار پایین زمین (LEO) طراحی می‌شود؛ جایی با پهنای باند بالا و تأخیر اندک. این پروژه یک حرکت بلندمدت و تحول‌آفرین برای توسعهٔ پایدار هوش مصنوعی است. 🌍✨ 🔗 https://arxiv.org/abs/2511.19468 @asrgooyeshpardaz
نمایش همه...
🔥 2 1🤔 1
🔐 آیا Vibe Coding امن است؟ ارزیابی آسیب‌پذیری‌های کدی که توسط عامل‌های هوش مصنوعی تولید می‌شود. پژوهش جدیدی از دانشگاه Carnegie Mellon نشان می‌دهد: زمانی که عامل‌های هوش مصنوعی (مانند Claude یا Gemini) بر اساس توضیح متنی کدنویسی می‌کنند (vibe coding)، خروجی می‌تواند خطرناک باشد. 📊 یافته‌ها: • ۶۱٪ از راه‌حل‌ها از نظر عملکردی درست‌اند، اما فقط ۱۰٫۵٪ امن هستند. • ۸۰٪ از کدهای قابل اجرا شامل آسیب‌پذیری‌های CWE هستند. • حتی یادآوری یا هشدار دربارهٔ ریسک‌ها امنیت را بهتر نمی‌کند و در عوض به عملکرد ضربه می‌زند. ⚠️ نمونه: کدی که یک مدل هوش مصنوعی برای بررسی رمز در Django تولید کرده بود، امکان حدس‌زدن نام کاربری را با تحلیل زمان پاسخ فراهم می‌کرد (CWE-208). 🤖 مسئله: عامل‌ها نمی‌توانند بین امنیت و عملکرد تعادل برقرار کنند. تذکر ساده دربارهٔ امنیت کافی نیست. 🚨 جمع‌بندی: راهکارهای Vibe Coding هنوز برای پروژه‌های حساس به امنیت مناسب نیست و نیازمند روش‌های پیشرفتهٔ محافظتی است. 🔗 https://arxiv.org/abs/2512.03262 @asrgooyeshpardaz
نمایش همه...
👍 1👌 1🥴 1
🚀 گوگل سرویس AlphaEvolve را معرفی کرد این سرویس یک عامل هوش مصنوعی برای کشف و بهینه‌سازی خودکار الگوریتم‌ها است؛ ابزاری برای حل مسائلی که جست‌وجوی دستی در آن‌ها عملاً ممکن نیست. 🔬 نحوهٔ کارکرد: 🔸شما مسئله، یک «کد بذری» و روش ارزیابی را مشخص می‌کنید. 🔸مدل Gemini (در نسخه‌های Flash یا Pro) جهش‌هایی روی کد ایجاد می‌کند. 🔸یک الگوریتم تکاملی بهترین نسخه‌ها را انتخاب می‌کند. 🔸این چرخه تکرار می‌شود تا نتیجه به‌طور پیوسته بهبود یابد. 🏆 مزایای ثابت‌شده در داخل Google: • صرفه‌جویی ۰٫۷٪ در منابع مراکز داده در سطح جهانی. • ۱٪ افزایش سرعت آموزش مدل Gemini. • بهینه‌سازی طراحی پردازنده‌های TPU. 💊 کاربردها در صنایع مختلف: • زیست‌فناوری: تسریع شبیه‌سازی مولکول‌ها • لجستیک: بهبود مسیرهای حمل‌ونقل • مالی: تکامل مدل‌های مدیریت ریسک • انرژی: متعادل‌سازی شبکه‌های انرژی 📢 این سرویس در حال حاضر از طریق Google Cloud در دسترسی اولیه ارائه شده است و برای مسائل پیچیدهٔ بهینه‌سازی مناسب است. 🔗 https://cloud.google.com/blog/products/ai-machine-learning/alphaevolve-on-google-cloud @asrgooyeshpardaz
نمایش همه...
1👍 1🔥 1👨‍💻 1
📈 شبیه‌سازی یک جامعه حقوقی با استفاده از عامل‌های مبتنی بر LLM پژوهشگران دانشگاه پکن چارچوب Law in Silico را معرفی کرده‌اند؛ سیستمی برای شبیه‌سازی جامعه حقوقی بر پایه عامل‌های هوشمند زبانی. 🏛 ایده اصلی: در این چارچوب، عامل‌هایی با پروفایل‌های واقعی‌نما (از جمله سطح درآمد، تحصیلات و باورهای مذهبی) در سناریوهای مختلفِ مرتبط با جرم و قانون تصمیم‌گیری می‌کنند. این سیستم سازوکارهای قانون‌گذاری، قضایی و اجرایی را — حتی با امکان بروز فساد — بازتاب می‌دهد. 📊 یافته‌ها: در سطح کلان، نرخ‌های شبیه‌سازی‌شده جرم با آمارهای واقعی هم‌خوانی دارند. مدل تأثیر عوامل شناخته‌شده را به‌درستی بازنمایی می‌کند: مانند افزایش ریسک جرم در جوانان، افراد با درآمد پایین یا مصرف‌کنندگان مواد مخدر. در ریزشبیه‌سازی‌ها (برای نمونه، «شرکت در برابر کارکنان») نوعی پویایی «گربه و موش» دیده شد: شرکت‌ها راه‌های دور زدن قانون را پیدا می‌کنند و کارکنان نیز رفتار خود را برای مقابله با آن تنظیم می‌کنند. ⚖️ جمع‌بندی: این پژوهش نشان می‌دهد که LLMها قادرند نظام‌های حقوقی را به‌شکل واقع‌گرایانه شبیه‌سازی کنند، نقاط ضعف قوانین را آشکار سازند و امکان ارزیابی اثربخشی سیاست‌ها را فراهم کنند. چنین ابزاری می‌تواند در تحلیل سیاست‌گذاری‌ها و حمایت از گروه‌های آسیب‌پذیر مفید باشد. 🔗 لینک مقاله: https://arxiv.org/abs/2510.24442 @asrgooyeshpardaz
نمایش همه...
👍 2 1👏 1💯 1
🤖 ربات‌هایی که حرکات را از روی ویدئو تقلید می‌کنند پژوهشگران دانشگاه UC Berkeley با همکاری یان لِکون سامانه‌ای به نام GenMimic ارائه کرده‌اند که به ربات‌های انسان‌نما امکان می‌دهد بدون هیچ آموزش اضافی (Zero-Shot) بتوانند حرکات انسان را از روی ویدئوهای تولیدشده بازآفرینی کنند. 🔹 نکات کلیدی: این سیستم یک فرایند دو مرحله‌ای دارد: 1️⃣ بازسازی مدل چهاربُعدی انسان از روی ویدئو 2️⃣ انتقال حرکت به ربات با استفاده از یک سیاست یادگیری تقویتی (RL) سیاست جدید RL با بهره‌گیری از ردیابی وزن‌دار نقاط کلیدی و تنظیم تقارن حرکت، پایداری بالایی در برابر نویز ویدئوها ایجاد می‌کند. مجموعه‌داده‌ای با نام GenMimicBench ساخته شده که شامل ۴۲۸ ویدئو تولیدشده توسط مدل‌های Wan 2.1 و Cosmos-Predict2 است. این سیاست هم در شبیه‌سازی و هم روی ربات واقعی Unitree G1 🦾 آزمایش شده و پایداری و توانایی تعمیم بالایی از خود نشان داده است. 💡 جمع‌بندی: ترکیب «ویدئوژنریشن + یادگیری تقویتی» یک گام مهم به‌سوی ربات‌هایی است که مستقیماً از ویدئوهای اینترنتی یاد می‌گیرند. این رویکرد می‌تواند در آینده زمینه‌ساز برنامه‌ریزی خودمختار حرکات بر اساس داده‌های بصری باشد. 🚀 🔗 https://arxiv.org/abs/2512.05094 #هوش_مصنوعی #رباتیک #پژوهش @asrgooyeshpardaz
نمایش همه...
5🔥 1👏 1😨 1
🎙️ مزیت روش‌های نظارت‌شده در توکنیزه‌سازی گفتار: درس‌هایی از ASR کودکان در سال‌های اخیر، «توکن‌های گسستهٔ گفتار» به یکی از محورهای مهم پژوهش در پردازش گفتار تبدیل شده‌اند. این توکن‌ها به‌دلیل کارایی بالا در ذخیره‌سازی و سازگاری مناسب با مدل‌های زبانی (LLM)، گزینه‌ای جذاب برای سامانه‌های تشخیص گفتار به‌ویژه در محیط‌های کم‌منبع به شمار می‌آیند. با این حال، پرسشی جدی مطرح است: برای استخراج توکن‌های معنایی گفتار، روش‌های بدون‌نظارت بهتر عمل می‌کنند یا روش‌های نظارت‌شده؟ مقالهٔ جدیدی که با محوریت «تشخیص گفتار کودکان (Child ASR)» منتشر شده، پاسخی روشن و مستند برای این پرسش ارائه می‌دهد؛ حوزه‌ای که به‌دلیل تنوع زیاد الگوهای گفتاری، کمبود داده و تفاوت آرتیکولاسیون، یکی از دشوارترین سناریوهای ASR است. 🧩 چالش ASR کودکان چیست؟ تنوع بسیار زیاد در تولید گفتار شفاف نبودن آرتیکولاسیون دادهٔ محدود و نامتوازن اتکای مدل‌های پایه بر گفتار بزرگسالان در چنین شرایطی، انتخاب روش مناسب برای توکنیزه‌سازی گفتار نقش تعیین‌کننده‌ای در کیفیت خروجی دارد. 🔬 مقایسهٔ دو رویکرد اصلی توکنیزاسیون معنایی گفتار ۱) روش‌های بدون‌نظارت مبتنی بر خوشه‌بندی K-means رایج، ساده و سریع اما فاقد هدایت مبتنی بر هدف (task-driven) ۲) روش‌های نظارت‌شده مبتنی بر کوانتیزاسیون اسکالر محدود (FSQ) آموزش‌دیده با زیان ASR هدفمند برای رمزگذاری مؤثر و کاربردی هر دو روش در این پژوهش با استفاده از مدل‌های بزرگ گفتار ازپیش‌آموزش‌دیده ارزیابی شده‌اند تا مقایسه‌ای عادلانه و قابل استناد فراهم شود. 📊 نتایج پژوهش: برتری قاطع روش‌های نظارت‌شده ⭐ ۱. عملکرد بالاتر در ASR روش‌های نظارت‌شده به‌طور معنادار از روش‌های بدون‌نظارت پیشی گرفتند. ⭐ ۲. غلبه بر نمایش‌های پیوسته برخلاف انتظار، توکن‌های نظارت‌شده حتی از ویژگی‌های پیوسته نیز عملکرد بهتری داشتند. ⭐ ۳. کارایی در نرخ بیت بسیار پایین این دستاورد امکان توسعهٔ سامانه‌های ASR بسیار کم‌حجم را فراهم می‌کند، از جمله برای: دستگاه‌های پوشیدنی ربات‌ها و اسباب‌بازی‌های هوشمند سامانه‌های آموزشی کودکان تجهیزات لبه‌ای در مدارس و مراکز توان‌بخشی 🎯 جمع‌بندی پژوهش نشان می‌دهد که:
توکن‌های معنایی مبتنی بر روش‌های نظارت‌شده نه‌تنها نسبت به روش‌های بدون‌نظارت کارآمدترند، بلکه در شرایطی حتی از نمایش‌های پیوسته نیز بهتر عمل می‌کنند.
این یافته‌ها مسیر نوینی برای بهبود توکنیزاسیون گسستهٔ گفتار، به‌ویژه در کاربردهای کم‌منبع و حساس مانند ASR کودکان، ترسیم می‌کند. 🔗https://arxiv.org/abs/2512.03301 @asrgooyeshpardaz
نمایش همه...
🤝 2