ar
Feedback
عصر گویش | هوش مصنوعی

عصر گویش | هوش مصنوعی

الذهاب إلى القناة على Telegram

مجله هوش مصنوعی عصر گویش 021 61931000

إظهار المزيد
112 728
المشتركون
-9924 ساعات
-7207 أيام
-3 35630 أيام
أرشيف المشاركات
📊 نتایج ARC Prize 2025 جایزهٔ اصلی برای AGI امسال هم برنده نداشت — اما پیشرفت‌ها چشمگیرند! 🚀 🏆 برندگان:بهترین مدل (NVARC) روی Kaggle → دقت ۲۴٪ روی ARC-AGI-2 • بهترین مقاله: «Less is Better» — یک شبکه‌ی کوچک ۷میلیونی با ۴۵٪ روی نسخه اول • بهترین مدل تجاری (Claude Opus 4.5): عملکرد ۳۷.۶٪ 🔁 ترند امسال: Refinement Loop مدلی که پس از تولید اولین جواب، با بازخورد دوباره برنامه را اصلاح می‌کند. این چرخهٔ تکراری پایهٔ نسل جدید روش‌هاست—تقریباً بدون نیاز به پیش‌تمرین سنگین! 🧠 💰 عملیاتی: بهترین امتیاز (روی Gemini 3 Pro) به ۵۴٪ رسید، اما هزینهٔ اجرای هر مسئله حدود ۳۰ دلار بود—گران، اما قابل‌اعتماد. 🎯 جمع‌بندی: سیستم‌های استدلال فعلی هرجا دانش درونی + معیار ارزیابی شفاف وجود داشته باشد عالی عمل می‌کنند. اما AGI هنوز دور است—مدل‌ها به «دانش» وابسته‌اند، نه «استدلال خالص». 🆕 سال ۲۰۲۶: منتظر ARC-AGI-3 باشید—با تمرکز بر حل تعاملی، برنامه‌ریزی و حافظه. این نسخه قطعاً به ایده‌های تازه نیاز دارد! 💡 🔗 لینک گزارش: https://arcprize.org/blog/arc-prize-2025-results-analysis @asrgooyeshpardaz
إظهار الكل...
🔥 2👨‍💻 2 1👍 1
00:55
Video unavailableShow in Telegram
دانشمندان چینی الگوریتمی ساخته‌اند که پهپادها را به یک گروه هوشمند تبدیل می‌کند که به صورت هماهنگ عمل می‌کنند با استفاده از این فناوری جدید، کوپترها می‌توانند به‌طور مشترک بارهای سنگین را بلند کنند و با آن‌ها موانع پیچیده را دور بزنند، و مسیر حرکت همه واحدها را به سرعت محاسبه کنند. #هوش_مصنوعی #پهپادها @asrgooyeshpardaz
إظهار الكل...
10.84 MB
🔥 12 2👍 2👏 2😱 2
⚡️ رشد ۱۰ برابری در سرعت اجرای مدل‌های MoE انویدیا یک جهش انقلابی در عملکرد مدل‌های Mixture of Experts (MoE) اعلام کرده است. کلستر GB200 NVL72 با معماری Blackwell توانسته ۱۰ برابر عملکرد بیشتر نسبت به نسل قبلی (Hopper HGX) ارائه دهد. 📊 نکات کلیدی و جمع‌بندی 🔹این آزمایش روی مدل متن‌باز Kimi K2 Thinking با ۳۲ میلیارد پارامتر فعال انجام شده است. 🔹این پیشرفت به لطف طراحی مشترک سخت‌افزار و نرم‌افزار (co-design) و معماری جدید حاصل شده است. 🔹این سیستم از ۷۲ تراشه GB200 و ۳۰ ترابایت حافظه فوق‌سریع مشترک استفاده می‌کند. 🔹این معماری امکان توزیع بهینهٔ پردازش بین GPUها (parallelism تخصصی برای Expertها) را فراهم می‌کند. 🔹همچنین نرم‌افزارهای جدید از جمله NVIDIA Dynamo و فرمت عددی NVFP4 نقش مهمی در افزایش سرعت داشته‌اند. 🚀 نتیجهٔ نهایی: ۵ میلیون توکن به ازای هر مگاوات (در مقایسه با: H200 → حدود ۵۰۰ هزار توکن) این پیشرفت بزرگ یکی از مهم‌ترین گلوگاه‌های مقیاس‌پذیری مدل‌های MoE را از بین می‌برد — موضوعی حیاتی برای نسل بعدی هوش مصنوعی. 🔗https://blogs.nvidia.com/blog/mixture-of-experts-frontier-models/ @asrgooyeshpardaz
إظهار الكل...
🔥 2👏 1🏆 1🤝 1
🕵‍♂ هوش مصنوعی در تماس‌های زندان به دنبال «نیت مجرمانه» می‌گردد شرکت Securus Technologies یک مدل هوش مصنوعی ساخته که با استفاده از میلیون‌ها تماس ضبط‌شده زندانیان طی ۷ سال آموزش دیده است. هدف این مدل، شناسایی نشانه‌های برنامه‌ریزی جرم در مکالمات تلفنی و پیام‌هاست. 🎯 ⚙️ این سیستم چگونه کار می‌کند؟ مکالمات را به‌صورت لحظه‌ای تحلیل می‌کند. بخش‌های مشکوک را «علامت‌گذاری» کرده و برای بررسی انسانی ارسال می‌کند. یک پروژه پایلوت نیز راه‌اندازی شده، اما محل اجرای آن اعلام نشده است. ⚠️ سؤالات و نگرانی‌های کلیدی: 🔹زندانیان با ضبط تماس موافقت کرده‌اند، اما اجازه آموزش مدل‌های هوش مصنوعی با داده‌هایشان را نداده‌اند. 🔹وکلا و فعالان حقوق بشر این فناوری را به‌دلیل نظارت افراطی 🕵️ و نقض حقوق زندانیان نقد می‌کنند. 🔹کمیسیون ارتباطات فدرال آمریکا (FCC) مجوز داده که هزینه این سیستم نظارتی از خود زندانیان و خانواده‌هایشان دریافت شود 💸. نتیجه‌گیری: این فناوری سریع‌تر از قوانین پیش می‌رود و بحث‌های جدی درباره اخلاق، تأمین مالی و حتی حقِ داشتن حریم خصوصی در زندان ایجاد کرده است. 🔗 منبع @asrgooyeshpardaz
إظهار الكل...
3👍 3👀 1
00:08
Video unavailableShow in Telegram
مقایسهٔ دویدن Figure 03، EngineAI T800 و Tesla Optimus #ربات‌ها
إظهار الكل...
3.63 MB
😍 4 1🗿 1
06:59
Video unavailableShow in Telegram
چگونه مدل‌های زبانی بزرگ (LLMs) را وادار به اعتراف می‌کنیم؟ اوپن‌ای‌آی یک روش تحقیقاتی جدید و اثبات‌شده مفهومی به نام اعترافات (confessions) معرفی کرده است تا صداقت مدل‌های زبان بزرگ را به طور چشمگیری بهبود بخشد. این تکنیک مدل‌ها را آموزش می‌دهد تا صریحاً گزارش دهند که چه زمانی دستورالعمل‌ها را زیر پا گذاشته یا از مسیرهای میانبر ناخواسته استفاده کرده‌اند، حتی اگر خروجی نهایی به نظر صحیح برسد. اعتراف یک خروجی جداگانه از پاسخ اصلی مدل است که تنها بر اساس معیار صداقت و رک‌گویی پاداش داده می‌شود. این تفکیک اهداف تضمین می‌کند که مدل حتی در صورت فریب دادن یا انجام رفتارهای نامطلوب در پاسخ اصلی، برای اعتراف صادقانه تشویق می‌شود، زیرا اعتراف در پاداش پاسخ اصلی تأثیری ندارد. نتایج نشان می‌دهد که این مکانیسم به طور قابل توجهی دیدپذیری سوءرفتار مدل‌ها، مانند هک کردن پاداش، را افزایش می‌دهد و احتمال عدم گزارش تخلفات را بسیار کاهش می‌دهد. هدف اصلی این روش، نه جلوگیری از رفتار بد، بلکه عمل کردن به عنوان یک ابزار نظارتی و تشخیصی حیاتی در طول فرآیند آموزش و همچنین پس از استقرار مدل‌ها است. 🔗منبع @asrgooyeshpardaz
إظهار الكل...
32.16 MB
7👏 2👌 2
06:59
Video unavailableShow in Telegram
اوپن‌ای‌آی یک روش تحقیقاتی جدید و اثبات‌شده مفهومی به نام اعترافات (confessions) معرفی کرده است تا صداقت مدل‌های زبان بزرگ را به طور چشمگیری بهبود بخشد. این تکنیک مدل‌ها را آموزش می‌دهد تا صریحاً گزارش دهند که چه زمانی دستورالعمل‌ها را زیر پا گذاشته یا از مسیرهای میانبر ناخواسته استفاده کرده‌اند، حتی اگر خروجی نهایی به نظر صحیح برسد. اعتراف یک خروجی جداگانه از پاسخ اصلی مدل است که تنها بر اساس معیار صداقت و رک‌گویی پاداش داده می‌شود. این تفکیک اهداف تضمین می‌کند که مدل حتی در صورت فریب دادن یا انجام رفتارهای نامطلوب در پاسخ اصلی، برای اعتراف صادقانه تشویق می‌شود، زیرا اعتراف در پاداش پاسخ اصلی تأثیری ندارد. نتایج نشان می‌دهد که این مکانیسم به طور قابل توجهی دیدپذیری سوءرفتار مدل‌ها، مانند هک کردن پاداش، را افزایش می‌دهد و احتمال عدم گزارش تخلفات را بسیار کاهش می‌دهد. هدف اصلی این روش، نه جلوگیری از رفتار بد، بلکه عمل کردن به عنوان یک ابزار نظارتی و تشخیصی حیاتی در طول فرآیند آموزش و همچنین پس از استقرار مدل‌ها است. لینک مطلب: https://openai.com/index/how-confessions-can-keep-language-models-honest/
إظهار الكل...
32.16 MB
📌 روش STCTS: فشرده‌سازی گفتار با نرخ بیت فوق‌العاده کم ارتباط صوتی در محیط‌هایی با پهنای باند محدود مثل شبکه‌های دریایی، ماهواره‌ای یا نظامی، همیشه چالش‌برانگیز و گران بوده است. کدک‌های سنتی نمی‌توانند گفتار را به کمتر از حدود ۱ کیلوبیت بر ثانیه فشرده کنند بدون اینکه کیفیت شدیداً افت نکند. حتی روش‌های جدید مبتنی بر تبدیل گفتار به متن و بازتولید آن (STT → TTS) معمولاً لحن طبیعی و هویت صدا را از بین می‌برند. 🎯 راه حل STCTS: یک چارچوب فشرده‌سازی معنایی تولیدی است که امکان برقراری ارتباط صوتی طبیعی با تنها ~۸۰ بیت بر ثانیه را فراهم می‌کند! 💡 چطور کار می‌کند؟ روش STCTS گفتار را به سه بخش اصلی تقسیم می‌کند: 1️⃣ محتوای زبانی (متن): کلمات و معنی گفته شده را رمزگذاری می‌کند. با روش هوشمندانه‌ای که زمینه را در نظر می‌گیرد، فقط ~۷۰ بیت بر ثانیه ارسال می‌شود. 2️⃣ لحن و آهنگ گفتار (Prosody): ریتم، تأکید و احساسات گفتار را منتقل می‌کند. با بروزرسانی‌های پراکنده و کم‌حجم (<۱۴ بیت بر ثانیه)، دوباره تولید می‌شود. نکته جالب: اگر بروزرسانی‌ها خیلی کم یا خیلی زیاد باشند کیفیت عالی است؛ اما نرخ متوسط می‌تواند باعث ناپیوستگی شود. 3️⃣ هویت صدا (Timbre): صدای گوینده حفظ می‌شود تا مخاطب حس کند با همان فرد صحبت می‌کند. 📊 عملکرد و مزایا: کاهش نرخ بیت فوق‌العاده: 🔹۷۵ برابر کمتر از Opus در ۶ کیلوبیت 🔹۱۲ برابر کمتر از EnCodec در ۱ کیلوبیت 🔹کیفیت گفتار بالا: NISQA MOS > 4.26 (نزدیک به طبیعی) 🔹معماری ماژولار برای تنظیم روی دستگاه‌ها و محیط‌های مختلف 🔹قابلیت رمزگذاری برای حفظ حریم خصوصی 🔹مناسب برای اجرا روی دستگاه‌های لبه‌ای با منابع محدود روش STCTS یک انقلاب در فشرده‌سازی گفتار است؛ امکان ارسال گفتار با کیفیت طبیعی در محیط‌هایی با پهنای باند بسیار کم، و بدون از دست دادن هویت و لحن صدا. این تکنولوژی می‌تواند ارتباط صوتی در شرایط بحرانی و دورافتاده را متحول کند. کدها: https://github.com/dywsy21/STCTS مقاله: https://arxiv.org/abs/2512.00451 @asrgooyeshpardaz
إظهار الكل...
👍 3 1🔥 1
01:05
Video unavailableShow in Telegram
🥋 ربات انسان‌نمای Unitree H2 (با قد ۱.۸ متر) — تمرین رزمی. ضربهٔ زانوی H2 آن‌قدر قدرتمند است که ربات G1 را از روی زمین بلند می‌کند. این کار فقط برای تأیید قابلیت اطمینان کلی ربات انجام شده است؛ لطفاً هرگز سعی نکنید چنین چیزی را تکرار کنید. خواهش می‌کنیم ربات‌ها را به‌صورت دوستانه و مسئولانه استفاده کنید. #ربات‌ها
إظهار الكل...
17.59 MB
👍 2🔥 1
🔍 شرکت OpenAI روشی تازه برای واداشتن مدل‌ها به اعلام خطاها و «اعتراف به هذیان‌ها» معرفی کرد. شرکت OpenAI در پژوهشی جدید روش Confessions را ارائه کرده است؛ تکنیکی که مشکل «فریب سیستم ارزیابی» (reward hacking) و همچنین تولید پاسخ‌های نادرست اما با اعتمادبه‌نفس بالا را هدف می‌گیرد. در این روش، پس از تولید پاسخ اصلی، مدل یک گزارش ثانویه تولید می‌کند که در آن رفتار خود را بررسی می‌کند، موارد نقض دستورالعمل یا خطاها را افشا می‌کند و حتی اگر در پاسخ اصلی خلاف واقع گفته باشد، به دلیل صداقت در گزارش پاداش می‌گیرد. آزمون‌ها روی GPT-5 Thinking نشان دادند که احتمال نقض قوانین و پنهان کردن آن به ۴٫۴٪ کاهش یافته است. این روش جلوی هذیان را نمی‌گیرد؛ صرفاً ابزار تشخیص و افشا است. 🔗 منبع — OpenAI دربارهٔ Confessions ⚡️ شرکت آمازون خانوادهٔ مدل‌های Nova و ابزارهای ساخت عامل‌های هوشمند را معرفی کرد. شرکت آمازون چهار مدل جدید از خانوادهٔ Nova را عرضه کرده است: نسخه‌های Lite و Pro برای استدلال، مدل گفتاری Sonic و مدل چندوجهی Omni که قادر به پردازش هم‌زمان متن، تصویر و ویدیو است. تمام این سرویس‌ها در AWS قابل استفاده‌اند. سرویس Nova Forge نیز معرفی شده که امکان ساخت نسخه‌های سفارشی مدل‌ها را با داده‌های سازمانی فراهم می‌کند. ابزار Nova Act برای ساخت عامل‌هایی طراحی شده که می‌توانند عملیات مرورگر را خودکار انجام دهند؛ این ابزار از معماری Human-in-the-Loop پشتیبانی می‌کند و امکان ذخیرهٔ کامل لاگ‌ها و ویدیوهای جلسه در Amazon S3 را ارائه می‌دهد. 🔗 منبع — معرفی Nova و ابزارهای آمازون 🤖 تیمی از متخصصان سابق Tesla، Google و Nvidia استارتاپ UMA را راه‌اندازی کردند. استارتاپ Universal Mechanical Assistant (UMA) رسماً فعالیت خود را آغاز کرده و مأموریت آن ساخت ربات‌هایی برای انجام کارهای فیزیکی در مقیاس صنعتی است. چهره‌های کلیدی تیم عبارت‌اند از: رِمی کادن (توسعه‌دهندهٔ Tesla Autopilot و سازندهٔ فریم‌ورک LeRobot)، پیر سرمانه (پژوهشگر باسابقهٔ DeepMind) و رابرت نایت (طراح ربات SO-100). این شرکت اکنون دو پلتفرم سخت‌افزاری در حال توسعه دارد: ربات صنعتی متحرک با دو بازوی مکانیکی برای انبارداری و ربات انسان‌نمای کوچک برای بیمارستان‌ها و خانه‌ها. استارتاپ UMA از حمایت یان لِکون و توماس وُلف نیز برخوردار است. 🔗 منبع — خبر راه‌اندازی UMA 🎬 شرکت KlingAI نسخهٔ ۲.۶ ویدئوژنراتور خود را منتشر کرد. شرکت KlingAI در نسخهٔ جدید قابلیت تولید هم‌زمان ویدئو و صوت (audio-video co-generation) را افزوده است. مدل اکنون می‌تواند تصویر و صدا را در یک فرآیند واحد و با هماهنگی دقیق تولید کند؛ از تولید گفت‌وگوی چند شخصیت و موزیک‌ویدئو گرفته تا صحنه‌های پیچیدهٔ ASMR یا اکشن با lip-sync بسیار دقیق. محدودیت فعلی این است که تولید صدا تنها برای انگلیسی و چینی پشتیبانی می‌شود و درخواست‌های سایر زبان‌ها به‌صورت خودکار به انگلیسی ترجمه می‌گردند. همچنین در حالت Image-to-Video کیفیت خروجی به‌شدت به وضوح تصویر ورودی وابسته است. 🔗 منبع — یادداشت انتشار KlingAI v2.6 🌐 مرورگر Opera مدل‌های Gemini را در نسخه‌های دسکتاپ One و GX ادغام کرد. مرورگر Opera قابلیت‌های Gemini را که پیش‌تر در نسخهٔ آزمایشی Opera Neon آزمایش شده بود، اکنون در Opera One و Opera GX عرضه کرده است. این ادغام از طریق پنل کناری انجام شده و دستیار هوشمند به زمینهٔ مرورگر دسترسی دارد؛ از جمله خلاصه‌سازی محتوای صفحهٔ فعال، تحلیل گروه تب‌ها، تحلیل ویدئو و مقایسهٔ محتوا. پشتیبانی کامل از چندوجهی‌بودن فراهم شده و دستیار می‌تواند متن، صوت، تصویر و فایل‌های بارگذاری‌شده را پردازش کند. همچنین معماری عامل‌محور جدید که ابتدا در Neon پیاده‌سازی شده بود به نسخه‌های اصلی انتقال یافته و سرعت تولید پاسخ‌ها تا ۲۰٪ افزایش یافته است. 🔗 منبع — ادغام Gemini در Opera One و GX @asrgooyeshpardaz
إظهار الكل...
2🔥 2👏 1
🇨🇳 پژوهشی گسترده و ۳۰۳ صفحه‌ای از مجموعه‌ای از برجسته‌ترین آزمایشگاه‌های چین منتشر شده است؛ گزارشی عمیق که توضیح می‌دهد مدل‌های ویژهٔ کدنویسی چگونه طراحی می‌شوند، چگونه آموزش داده می‌شوند و چگونه از دل آن‌ها «عامل‌های نرم‌افزاری» کامل شکل می‌گیرد. این گزارش چه مباحثی را پوشش می‌دهد؟ ۱. فرایند طراحی و آموزش مدل گردآوری و پالایش مجموعه‌داده‌های عظیم کد از مخازن واقعی نرم‌افزار. پیش‌آموزش (Pre-training): مرحله‌ای که در آن مدل با الگوها و ساختارهای واقعی برنامه‌نویسی در مقیاس صنعتی آشنا می‌شود. آموزش تکمیلی با SFT و RL: این مراحل مدل را توانمند می‌سازد تا دستورها را دقیق‌تر دنبال کند، تست‌ها را با موفقیت پشت‌سر بگذارد و از خطاهای بدیهی و رایج دوری کند. ۲. تبدیل مدل به یک عامل مهندسی کامل در این مرحله، مدل تنها یک ابزار تکمیل کد نیست؛ بلکه به یک مهندس نرم‌افزار خودکار تبدیل می‌شود که قادر است: گزارش باگ یا درخواست ویژگی را بخواند، برنامهٔ کاری تدوین کند، فایل‌های موردنظر را ویرایش کند، تست‌ها را اجرا کند، و این چرخه را تا دستیابی به نتیجهٔ نهایی تکرار کند. این فرایند دقیقاً همان رویکردی است که تیم‌های صنعتی برای ساخت نسل تازهٔ عامل‌های نرم‌افزارساز (AI Software Engineers) به کار می‌گیرند. ۳. چالش‌های حل‌نشده مدیریت و پیمایش مؤثر در مخازن بسیار بزرگ و پیچیده. تضمین ایمنی، امنیت و قابلیت اعتماد کد تولیدشده. طراحی معیارهای استاندارد برای سنجش عملکرد عامل‌ها در شرایط واقعی. مجموعه‌ای از روش‌ها، الگوهای عملی و ترفندهای مهندسی که تیم‌های پیشرو واقعاً به کار می‌برند. جمع‌بندی این پژوهش یک نمای جامع از آخرین وضعیت صنعت هوش مصنوعی در حوزهٔ مهندسی نرم‌افزار ارائه می‌کند: از گردآوری داده و معماری مدل‌ها تا فرآیندهای عملی برای ساخت عامل‌هایی که می‌توانند در عمل نقش «توسعه‌دهندهٔ دوم» را در یک تیم نرم‌افزاری برعهده بگیرند. لینک مقاله: https://arxiv.org/abs/2511.18538 @asrgooyeshpardaz
إظهار الكل...
2🔥 1
🔹شرکت Anthropic شرکت سازنده‌ی رانتایم فوق‌سریع JavaScript را خریداری کرد شرکت Anthropic اعلام کرده است که شرکت Bun — ابزار مشهور اجرای کد و ساخت برنامه‌های جاوااسکریپت — را خریداری می‌کند. فناوری‌ها و تیم این استارتاپ به‌عنوان زیربنای اصلی برای گسترش پلتفرم Claude Code به کار گرفته خواهند شد. شرکت Bun که توسط جرد سامنر در سال ۲۰۲۱ تأسیس شد، به‌دلیل سرعت فوق‌العاده بالا و یکپارچه‌سازی چند ابزار کلیدی در یک بسته (رانتایم، مدیر بسته‌ها، باندلر و تست‌رانر) به‌سرعت محبوب شد. این پروژه همچنان متن‌باز و تحت مجوز MIT باقی می‌ماند. Anthropic نیز وعده داده است که به سرمایه‌گذاری در آن ادامه دهد و استقلال و ماهیت عمومی آن را برای اکوسیستم JS/TS حفظ کند. 🔹آمازون AWS از تراشه‌های ۳ نانومتری Trainium3 و سرورهای UltraServer رونمایی کرد این نسل سوم پردازنده‌های تانسوری آمازون است. Trainium3 که با فناوری ساخت ۳ نانومتری تولید شده، نسبت به Trainium2 حدود ۴٫۴ برابر عملکرد بالاتر و ۴ برابر بهره‌وری انرژی بهتر ارائه می‌دهد. معماری آن از قالب‌های داده‌ی جدید MXFP8 و MXFP4 پشتیبانی می‌کند. نود UltraServer یک نود پردازشی است که از ۱۴۴ تراشه با مجموع ۲۰٫۷ ترابایت حافظه‌ی HBM3e و پهنای‌باند تجمیعی ۷۰۶ ترابایت بر ثانیه تشکیل شده است. این سرورها می‌توانند در قالب خوشه‌های EC2 UltraCluster در مقیاس بیش از یک میلیون تراشه به‌هم متصل شوند. آمازون AWS همچنین تیزری از Trainium 4 منتشر کرد: نسل بعدی این تراشه‌ها از طریق NVLink Fusion با GPUهای انویدیا سازگار خواهد بود. 🔹افزونه vLLM-Omni: گسترش اکوسیستم vLLM تیم vLLM نسخهٔ جدید vLLM-Omni را معرفی کرده است؛ افزونه‌ای که برای سازگارکردن زیرساخت vLLM با مدل‌های اُمْنی طراحی شده—مدل‌هایی که می‌توانند متن، تصویر، ویدئو و صوت را در یک فرآیند واحد پردازش کنند. معماری vLLM-Omni جریان داده را کاملاً بازطراحی کرده است و از یک پایپلاین جداشده (disaggregated) شامل سه مرحله استفاده می‌کند: ۱) انکدرهای چندوجهی، ۲) هستهٔ منطقی مبتنی بر vLLM، ۳) و ماژول‌های تولید. این فریم‌ورک می‌تواند جریان‌های کاری پیچیده و ناهمگون را به‌صورت کارآمد مدیریت کند و محاسبات را موازی پیش ببرد. همچنین با وجود این پیچیدگی، سازگاری کامل با API اوپن‌اِی‌آی و Hugging Face را حفظ کرده است. 🔹 اکوسیستم SGLang پشتیبانی از NVIDIA Model Optimizer را اضافه کرد به‌روزرسانی جدید SGLang کار مهندسان ML را بسیار ساده‌تر می‌کند: اکنون می‌توان کوانت‌سازی و دیپلوی مدل‌ها را بدون ابزارهای جانبی و پایپلاین‌های پیچیده، مستقیماً داخل این اکوسیستم انجام داد. توسعه‌دهندگان می‌توانند از طریق API مدل‌ها را به قالب‌های NVFP4، MXFP4، FP8 تبدیل کرده و بلافاصله آن‌ها را در تولید اجرا کنند. آزمایش‌ها روی معماری NVIDIA Blackwell نشان داده‌اند که کوانت‌سازی NVFP4 با SGLang باعث دو برابر شدن توان پردازشی نسبت به FP8 پایه می‌شود. 🔹 شرکت Artificial Analysis شاخص «بازبودن» مدل‌های هوش مصنوعی را معرفی کرد استاندار Openness Index یک استاندارد جدید برای ارزیابی میزان «باز بودن» مدل‌های هوش مصنوعی است—معیاری که تفاوت بین مدل‌های واقعاً متن‌باز و مدل‌هایی که فقط تظاهر به بازبودن می‌کنند را روشن می‌سازد. این شاخص پروژه‌ها را بر اساس دو معیار اصلی بررسی می‌کند: ۱) میزان دسترسی به وزن‌ها، ۲) و میزان شفافیت فرآیند توسعه (روش‌شناسی، دیتاست‌های پیش‌تمرین و پس‌تمرین). در رتبه‌های برتر، مدل‌های چینی قرار گرفته‌اند. در میان مدل‌های تجاری، Nemotron Nano 9B v2 با امتیاز ۶۷ عملکرد خوبی داشت، در حالی که مدل‌های کاملاً بسته در انتهای جدول با امتیاز ۱ تا ۵ جای گرفتند. OLMo با امتیاز ۸۹ صدرنشین فهرست شد. این شاخص نشان می‌دهد که اصطلاح «open weights» کافی نیست: مدل‌هایی که فقط وزن‌ها را بدون اطلاعات زمینه‌ای منتشر می‌کنند، در معیار شفافیت امتیاز قابل‌توجهی از دست می‌دهند. @asrgooyeshpardaz
إظهار الكل...
2👍 1👏 1👨‍💻 1
00:11
Video unavailableShow in Telegram
🟡 حمل‌ونقل خودران در NeurIPS 2025 انویدیا مدل Alpamayo-R1 را معرفی کرده است؛ نخستین مدل متن‌باز Reasoning-VLA ویژهٔ تحقیقات رانندگی خودران. این مدل بر پایهٔ Cosmos Reason ساخته شده، برای RL به‌خوبی قابل آموزش مجدد است و به‌زودی در GitHub و Hugging Face منتشر می‌شود. همچنین فریم‌ورک AlpaSim برای شبیه‌سازی و تست، اکنون در دسترس قرار دارد. @asrgooyeshpardaz
إظهار الكل...
1.37 MB
🔥 1😘 1
📌 حضور NVIDIA در NeurIPS 2025 انویدیا اعلام کرده است که در کنفرانس NeurIPS — که از امروز آغاز شده و تا ۷ دسامبر در سن‌دیگو ادامه دارد — چه چیزهایی را معرفی خواهد کرد. 🟡 ۱. حمل‌ونقل خودران NVIDIA DRIVE Alpamayo-R1 یا AR1 اولین مدل متن‌باز Reasoning-VLA در جهان است که مخصوص تحقیقات رانندگی خودران توسعه یافته. این مدل بر پایهٔ NVIDIA Cosmos Reason ساخته شده و برای یادگیری تقویتی (RL) به‌خوبی قابل ادامهٔ آموزش است. Alpamayo-R1 به‌زودی روی GitHub و Hugging Face منتشر خواهد شد. فریم‌ورک AlpaSim برای تست‌ها هم‌اکنون در دسترس است. 🟡 ۲. ابزارهای ساخت روبات‌های فیزیکی و شبیه‌سازی Cosmos Cookbook راهنمای کامل برای هوش مصنوعی فیزیکی، تولید دادهٔ مصنوعی و ارزیابی مدل‌ها. LidarGen یک «مدل جهان» برای تولید داده‌های لیدار شبیه‌سازی. Omniverse NuRec Fixer ابزار رفع سریع آرتیفکت‌ها در بازسازی‌های عصبی — جهت استفاده در روباتیک و پهپادها. ProtoMotions3 فریم‌ورک متن‌باز مبتنی بر Isaac Lab برای آموزش انسان‌های دیجیتال با فیزیک فوق‌واقعی. 🟡 ۳. فقط سخت‌افزار و روبات نیست… MultiTalker Parakeet مدل ASR چندسخنران که حتی در سرعت‌های بالا و با تداخل صدا عملکرد عالی دارد. Sortformer ابزار دیارایزیشن بلادرنگ برای جداسازی سخنران‌ها در جریان صوتی. NeMo Gym کتابخانهٔ ساخت محیط‌های RL همراه با NeMo Data Designer برای تولید و ارزیابی داده‌های مصنوعی. 🟡 ۴. و در نهایت، علم ناب انویدیا برای NeurIPS امسال بیش از ۷۰ مقالهٔ پژوهشی آماده کرده است. چند نمونه: Audio Flamingo 3 مدل بزرگ صوتی–زبانی که می‌تواند فایل‌های صوتی تا ۱۰ دقیقه را تحلیل کند. Minitron-SSM روش پرونینگی که مدل Nemotron-H 8B را از ۸ به ۴ میلیارد پارامتر کاهش داده و سرعت استنتاج را دو برابر کرده است. ProRLProlonged Reinforcement Learning رویکردی که نشان می‌دهد طولانی‌تر کردن فرآیند RL، مدل‌ها را وارد سطح جدیدی از توانایی‌های reasoning می‌کند. @asrgooyeshpardaz
إظهار الكل...
🔥 1👌 1
🔍 دیکامپوزیشن معماری؛ راه‌حل نهایی نیست پژوهش جدیدی نشان می‌دهد که تقسیم معماری مدل (دیکامپوزیشن) برای کاهش تعارض میان تولید تصویر و فهم تصویر، تنها مسیر ممکن نیست. ⚡️ پژوهشگران با تحلیل الگوهای توجه میان‌مودالی (cross-modal attention) دریافتند که دیکامپوزیشن فقط باعث می‌شود مدل مانند دو مدل بسیار تخصصی رفتار کند، اما اصل تعارض را برطرف نمی‌کند. 🎯 راه‌حل پیشنهادی آن‌ها AIA Loss — Attention Interaction Alignment است: ✅ الگوهای مطلوب توجه برای هر وظیفه را به‌طور صریح آموزش می‌دهد. ✅ نیازی به تغییر معماری ندارد. ✅ روی Emu3 و Janus-Pro آزمایش شده است. 📊 نتایج: • بهبود هم در وظایف درک تصویر و هم در تولید تصویر • کاهش فاصله عملکرد نسبت به مدل‌های دیکامپوز شده این روش گامی مهم به سوی سیستم‌های واقعاً یکپارچهٔ چندمودالی است! 🚀 🔗 https://arxiv.org/abs/2511.22663 @asrgooyeshpardaz
إظهار الكل...
👌 2 1🔥 1
Photo unavailableShow in Telegram
🐬 شرکت DeepSeek دو مدل قدرتمند جدید معرفی کرد! 🚀 مدل DeepSeek-V3.2 نسخه رسمی با پشتیبانی کامل از تفکر ابزاری (Tool-Integrated Reasoning). در اپلیکیشن، وب و API در دسترس است. ⚡️ مدل DeepSeek-V3.2-Speciale مدل آزمایشیِ ویژه برای مسائل پیچیده و استدلال عمیق. فقط از طریق API قابل استفاده است. 🔑 مهم‌ترین نکات 🧩 بهره‌گیری از DeepSeek Sparse Attention برای پردازش کارآمد متن‌های بسیار طولانی. 🏆 مدل Speciale از Gemini-3.0-Pro پیشی گرفته و عملکردی در سطح مدال طلا در مسابقات IMO و IOI 2025 دارد. 📈 قدرت استدلال V3.2 در حد GPT-5 ارزیابی شده است. 🤖 بهبود چشمگیر در کارهای ایجنتی: جستجو، کدنویسی، و کار با ابزارها. 📚 کاملاً متن‌باز و منتشرشده در Hugging Face. این یک قدم بزرگ برای نسل جدید مدل‌های بازمتن است! 🔗 لینک مدل: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale #AI #DeepSeek #LLM @asrgooyeshpardaz
إظهار الكل...
8🔥 3🤔 1🤝 1
🤖 روش GAM: حافظهٔ بدون‌اتلاف برای ایجنت‌های هوشمند پژوهشگران رویکرد تازه‌ای برای مدیریت حافظهٔ ایجنت‌های هوش مصنوعی معرفی کرده‌اند: General Agentic Memory (GAM). برخلاف روش‌های سنتی مبتنی بر فشرده‌سازی ایستا (AOT)، این سیستم از رویکرد نوعی JIT برای حافظه استفاده می‌کند. 🔹 واحد Memorizer تمام تاریخچه و نقاط کلیدی را بدون حذف در page-store ذخیره می‌کند. 🔹 واحد Researcher هنگام نیاز، یک فرایند «تحقیق عمیق» اجرا می‌کند: برنامه‌ریزی، جستجو و استخراج دقیق اطلاعات مرتبط. 📊 دستاوردهای GAM: • عملکرد بهتر نسبت به A-Mem، Mem0 و MemoryOS در بنچمارک‌های LoCoMo، HotpotQA و RULER • پشتیبانی پایدار از زمینه‌هایی تا ۴۴۸ هزار توکن • کارایی نزدیک به بهترین روش‌های موجود در سیستم‌های حافظهٔ ایجنتیک این نتایج نشان می‌دهد جستجوی انعطاف‌پذیر روی کل تاریخچه می‌تواند مؤثرتر از فشرده‌سازی پیشینی حافظه باشد. 🚀 🔗 ریپوی پروژه: https://github.com/VectorSpaceLab/general-agentic-memory 🔗 متن مقاله: https://arxiv.org/abs/2511.18423 #AI #AgenticAI #Memory #Research
إظهار الكل...
3 1🔥 1
02:09
Video unavailableShow in Telegram
#ویدیو #موزیک #هوش_مصنوعی
إظهار الكل...
12.83 MB
🤩 6🥴 3 1👎 1👏 1
02:09
Video unavailableShow in Telegram
#موزیک #ویدیو #هوش_مصنوعی @asrgooyeshpardaz
إظهار الكل...
12.83 MB
🌟 مدل MedSAM-3؛ نسخه پزشکی‌شده‌ی SAM 3 برای تشخیص دقیق‌تر پروژه MedSAM-3 تلاش می‌کند توانایی‌های مدل SAM 3 را از حوزه عمومی به دنیای سخت و تخصصی پزشکی منتقل کند. هرچند SAM 3 در تصویر‌برداری عمومی بسیار قدرتمند است، اما روی داده‌های پزشکی معمولاً ساختارهای آناتومیک را اشتباه گرفته و بسیاری از اصطلاحات تخصصی را درک نمی‌کند. 🩺 مدل MedSAM-3 چه مسئله‌ای را حل می‌کند؟ این نسخه جدید اجازه می‌دهد پزشکان روی تصاویر MRI، CT، سونوگرافی و نمونه‌های بافت‌شناسی، فقط با یک دستور زبانی ساده—برای مثال: «تومور پستان را سگمنت کن»—ناحیه مورد نظر را تفکیک کنند. ⚙️ چطور کار می‌کند؟ مدل MedSAM-3 بر پایه معماری دو‌ـ‌ترنسفورمری SAM 3 ساخته شده است. در مرحله آموزش: انکودرهای تصویر و متن فریز شدند تا قدرت بصری مدل اصلی حفظ شود. بخش دیتکتور روی مجموعه‌داده‌های پزشکی SFT شد تا مدل با مفاهیم تخصصی آشنا شود. این ترکیب باعث شده مدل هم توانایی عمومی SAM 3 را نگه دارد، هم دانش دامنه‌ی پزشکی را یاد بگیرد. 📊 نتایج کلیدی بهترین عملکرد در نسخه‌ی MedSAM-3 T+I دیده شد؛ جایی که راهنمای متنی با باکس محدودکننده ترکیب شده است. نتیجه: عملکرد بهتر از U-Net عملکرد بهتر از نسخه اولیه MedSAM امتیاز Dice = 0.7772 روی BUSI و نتایج برتر روی Kvasir-SEG 🟡 عامل (Agent): نقطه عطف جذاب MedSAM-3 علاوه بر خود مدل، یک فریم‌ورک عامل‌محور به نام MedSAM-3 Agent نیز ارائه شده است. در این ساختار، یک مدل چندوجهی LLM (در آزمایش‌ها: Gemini 3 Pro) نقش «پلنر» را دارد؛ یعنی: درخواست کاربر را تحلیل می‌کند، زنجیره استدلال می‌سازد، و فرآیند سگمنتیشن را به‌صورت گام‌به‌گام هدایت می‌کند. نتیجه این رویکرد: افزایش امتیاز Dice از 0.7772 👈 0.8064 روی همان داده BUSI. ⚠️ پروژه هنوز در مرحله گزارش فنی است، اما توسعه‌دهندگان قول داده‌اند وزن‌ها و کد کامل را منتشر کنند. اگر روی هوش مصنوعی پزشکی کار می‌کنید، این پروژه را حتماً دنبال کنید. 🔗 ArXiv: https://arxiv.org/abs/2511.19046 🖥 Github: https://github.com/Joey-S-Liu/MedSAM3 📌 لایسنس: Apache 2.0 #هوش_مصنوعی #پزشکی #Segmentation #MedSAM3 @asrgooyeshpardaz
إظهار الكل...
🔥 1👌 1