عصر گویش | هوش مصنوعی
الذهاب إلى القناة على Telegram
112 728
المشتركون
-9924 ساعات
-7207 أيام
-3 35630 أيام
أرشيف المشاركات
📊 نتایج ARC Prize 2025
جایزهٔ اصلی برای AGI امسال هم برنده نداشت — اما پیشرفتها چشمگیرند! 🚀
🏆 برندگان:
• بهترین مدل (NVARC) روی Kaggle → دقت ۲۴٪ روی ARC-AGI-2
• بهترین مقاله: «Less is Better» — یک شبکهی کوچک ۷میلیونی با ۴۵٪ روی نسخه اول
• بهترین مدل تجاری (Claude Opus 4.5): عملکرد ۳۷.۶٪
🔁 ترند امسال: Refinement Loop
مدلی که پس از تولید اولین جواب، با بازخورد دوباره برنامه را اصلاح میکند. این چرخهٔ تکراری پایهٔ نسل جدید روشهاست—تقریباً بدون نیاز به پیشتمرین سنگین! 🧠
💰 عملیاتی:
بهترین امتیاز (روی Gemini 3 Pro) به ۵۴٪ رسید، اما هزینهٔ اجرای هر مسئله حدود ۳۰ دلار بود—گران، اما قابلاعتماد.
🎯 جمعبندی:
سیستمهای استدلال فعلی هرجا دانش درونی + معیار ارزیابی شفاف وجود داشته باشد عالی عمل میکنند. اما AGI هنوز دور است—مدلها به «دانش» وابستهاند، نه «استدلال خالص».
🆕 سال ۲۰۲۶:
منتظر ARC-AGI-3 باشید—با تمرکز بر حل تعاملی، برنامهریزی و حافظه. این نسخه قطعاً به ایدههای تازه نیاز دارد! 💡
🔗 لینک گزارش:
https://arcprize.org/blog/arc-prize-2025-results-analysis
@asrgooyeshpardaz
🔥 2👨💻 2❤ 1👍 1
00:55
Video unavailableShow in Telegram
دانشمندان چینی الگوریتمی ساختهاند که پهپادها را به یک گروه هوشمند تبدیل میکند که به صورت هماهنگ عمل میکنند
با استفاده از این فناوری جدید، کوپترها میتوانند بهطور مشترک بارهای سنگین را بلند کنند و با آنها موانع پیچیده را دور بزنند، و مسیر حرکت همه واحدها را به سرعت محاسبه کنند.
#هوش_مصنوعی #پهپادها
@asrgooyeshpardaz
10.84 MB
🔥 12❤ 2👍 2👏 2😱 2
⚡️ رشد ۱۰ برابری در سرعت اجرای مدلهای MoE
انویدیا یک جهش انقلابی در عملکرد مدلهای Mixture of Experts (MoE) اعلام کرده است. کلستر GB200 NVL72 با معماری Blackwell توانسته ۱۰ برابر عملکرد بیشتر نسبت به نسل قبلی (Hopper HGX) ارائه دهد.
📊 نکات کلیدی و جمعبندی
🔹این آزمایش روی مدل متنباز Kimi K2 Thinking با ۳۲ میلیارد پارامتر فعال انجام شده است.
🔹این پیشرفت به لطف طراحی مشترک سختافزار و نرمافزار (co-design) و معماری جدید حاصل شده است.
🔹این سیستم از ۷۲ تراشه GB200 و ۳۰ ترابایت حافظه فوقسریع مشترک استفاده میکند.
🔹این معماری امکان توزیع بهینهٔ پردازش بین GPUها (parallelism تخصصی برای Expertها) را فراهم میکند.
🔹همچنین نرمافزارهای جدید از جمله NVIDIA Dynamo و فرمت عددی NVFP4 نقش مهمی در افزایش سرعت داشتهاند.
🚀 نتیجهٔ نهایی:
۵ میلیون توکن به ازای هر مگاوات
(در مقایسه با: H200 → حدود ۵۰۰ هزار توکن)
این پیشرفت بزرگ یکی از مهمترین گلوگاههای مقیاسپذیری مدلهای MoE را از بین میبرد — موضوعی حیاتی برای نسل بعدی هوش مصنوعی.
🔗https://blogs.nvidia.com/blog/mixture-of-experts-frontier-models/
@asrgooyeshpardaz
🔥 2👏 1🏆 1🤝 1
🕵♂ هوش مصنوعی در تماسهای زندان به دنبال «نیت مجرمانه» میگردد
شرکت Securus Technologies یک مدل هوش مصنوعی ساخته که با استفاده از میلیونها تماس ضبطشده زندانیان طی ۷ سال آموزش دیده است. هدف این مدل، شناسایی نشانههای برنامهریزی جرم در مکالمات تلفنی و پیامهاست. 🎯
⚙️ این سیستم چگونه کار میکند؟
مکالمات را بهصورت لحظهای تحلیل میکند.
بخشهای مشکوک را «علامتگذاری» کرده و برای بررسی انسانی ارسال میکند.
یک پروژه پایلوت نیز راهاندازی شده، اما محل اجرای آن اعلام نشده است.
⚠️ سؤالات و نگرانیهای کلیدی:
🔹زندانیان با ضبط تماس موافقت کردهاند، اما اجازه آموزش مدلهای هوش مصنوعی با دادههایشان را ندادهاند.
🔹وکلا و فعالان حقوق بشر این فناوری را بهدلیل نظارت افراطی 🕵️ و نقض حقوق زندانیان نقد میکنند.
🔹کمیسیون ارتباطات فدرال آمریکا (FCC) مجوز داده که هزینه این سیستم نظارتی از خود زندانیان و خانوادههایشان دریافت شود 💸.
نتیجهگیری:
این فناوری سریعتر از قوانین پیش میرود و بحثهای جدی درباره اخلاق، تأمین مالی و حتی حقِ داشتن حریم خصوصی در زندان ایجاد کرده است.
🔗 منبع
@asrgooyeshpardaz
❤ 3👍 3👀 1
00:08
Video unavailableShow in Telegram
مقایسهٔ دویدن Figure 03، EngineAI T800 و Tesla Optimus
#رباتها
3.63 MB
😍 4❤ 1🗿 1
06:59
Video unavailableShow in Telegram
چگونه مدلهای زبانی بزرگ (LLMs) را وادار به اعتراف میکنیم؟
اوپنایآی یک روش تحقیقاتی جدید و اثباتشده مفهومی به نام اعترافات (confessions) معرفی کرده است تا صداقت مدلهای زبان بزرگ را به طور چشمگیری بهبود بخشد. این تکنیک مدلها را آموزش میدهد تا صریحاً گزارش دهند که چه زمانی دستورالعملها را زیر پا گذاشته یا از مسیرهای میانبر ناخواسته استفاده کردهاند، حتی اگر خروجی نهایی به نظر صحیح برسد. اعتراف یک خروجی جداگانه از پاسخ اصلی مدل است که تنها بر اساس معیار صداقت و رکگویی پاداش داده میشود. این تفکیک اهداف تضمین میکند که مدل حتی در صورت فریب دادن یا انجام رفتارهای نامطلوب در پاسخ اصلی، برای اعتراف صادقانه تشویق میشود، زیرا اعتراف در پاداش پاسخ اصلی تأثیری ندارد. نتایج نشان میدهد که این مکانیسم به طور قابل توجهی دیدپذیری سوءرفتار مدلها، مانند هک کردن پاداش، را افزایش میدهد و احتمال عدم گزارش تخلفات را بسیار کاهش میدهد. هدف اصلی این روش، نه جلوگیری از رفتار بد، بلکه عمل کردن به عنوان یک ابزار نظارتی و تشخیصی حیاتی در طول فرآیند آموزش و همچنین پس از استقرار مدلها است.
🔗منبع
@asrgooyeshpardaz
32.16 MB
❤ 7👏 2👌 2
06:59
Video unavailableShow in Telegram
اوپنایآی یک روش تحقیقاتی جدید و اثباتشده مفهومی به نام اعترافات (confessions) معرفی کرده است تا صداقت مدلهای زبان بزرگ را به طور چشمگیری بهبود بخشد. این تکنیک مدلها را آموزش میدهد تا صریحاً گزارش دهند که چه زمانی دستورالعملها را زیر پا گذاشته یا از مسیرهای میانبر ناخواسته استفاده کردهاند، حتی اگر خروجی نهایی به نظر صحیح برسد. اعتراف یک خروجی جداگانه از پاسخ اصلی مدل است که تنها بر اساس معیار صداقت و رکگویی پاداش داده میشود. این تفکیک اهداف تضمین میکند که مدل حتی در صورت فریب دادن یا انجام رفتارهای نامطلوب در پاسخ اصلی، برای اعتراف صادقانه تشویق میشود، زیرا اعتراف در پاداش پاسخ اصلی تأثیری ندارد. نتایج نشان میدهد که این مکانیسم به طور قابل توجهی دیدپذیری سوءرفتار مدلها، مانند هک کردن پاداش، را افزایش میدهد و احتمال عدم گزارش تخلفات را بسیار کاهش میدهد. هدف اصلی این روش، نه جلوگیری از رفتار بد، بلکه عمل کردن به عنوان یک ابزار نظارتی و تشخیصی حیاتی در طول فرآیند آموزش و همچنین پس از استقرار مدلها است.
لینک مطلب:
https://openai.com/index/how-confessions-can-keep-language-models-honest/
32.16 MB
📌 روش STCTS: فشردهسازی گفتار با نرخ بیت فوقالعاده کم
ارتباط صوتی در محیطهایی با پهنای باند محدود مثل شبکههای دریایی، ماهوارهای یا نظامی، همیشه چالشبرانگیز و گران بوده است. کدکهای سنتی نمیتوانند گفتار را به کمتر از حدود ۱ کیلوبیت بر ثانیه فشرده کنند بدون اینکه کیفیت شدیداً افت نکند. حتی روشهای جدید مبتنی بر تبدیل گفتار به متن و بازتولید آن (STT → TTS) معمولاً لحن طبیعی و هویت صدا را از بین میبرند.
🎯 راه حل STCTS:
یک چارچوب فشردهسازی معنایی تولیدی است که امکان برقراری ارتباط صوتی طبیعی با تنها ~۸۰ بیت بر ثانیه را فراهم میکند!
💡 چطور کار میکند؟
روش STCTS گفتار را به سه بخش اصلی تقسیم میکند:
1️⃣ محتوای زبانی (متن):
کلمات و معنی گفته شده را رمزگذاری میکند.
با روش هوشمندانهای که زمینه را در نظر میگیرد، فقط ~۷۰ بیت بر ثانیه ارسال میشود.
2️⃣ لحن و آهنگ گفتار (Prosody):
ریتم، تأکید و احساسات گفتار را منتقل میکند.
با بروزرسانیهای پراکنده و کمحجم (<۱۴ بیت بر ثانیه)، دوباره تولید میشود.
نکته جالب: اگر بروزرسانیها خیلی کم یا خیلی زیاد باشند کیفیت عالی است؛ اما نرخ متوسط میتواند باعث ناپیوستگی شود.
3️⃣ هویت صدا (Timbre):
صدای گوینده حفظ میشود تا مخاطب حس کند با همان فرد صحبت میکند.
📊 عملکرد و مزایا:
کاهش نرخ بیت فوقالعاده:
🔹۷۵ برابر کمتر از Opus در ۶ کیلوبیت
🔹۱۲ برابر کمتر از EnCodec در ۱ کیلوبیت
🔹کیفیت گفتار بالا: NISQA MOS > 4.26 (نزدیک به طبیعی)
🔹معماری ماژولار برای تنظیم روی دستگاهها و محیطهای مختلف
🔹قابلیت رمزگذاری برای حفظ حریم خصوصی
🔹مناسب برای اجرا روی دستگاههای لبهای با منابع محدود
روش STCTS یک انقلاب در فشردهسازی گفتار است؛ امکان ارسال گفتار با کیفیت
طبیعی در محیطهایی با پهنای باند بسیار کم، و بدون از دست دادن هویت و لحن صدا. این تکنولوژی میتواند ارتباط صوتی در شرایط بحرانی و دورافتاده را متحول کند.
کدها:
https://github.com/dywsy21/STCTS
مقاله:
https://arxiv.org/abs/2512.00451
@asrgooyeshpardaz
👍 3❤ 1🔥 1
01:05
Video unavailableShow in Telegram
🥋 ربات انساننمای Unitree H2 (با قد ۱.۸ متر) — تمرین رزمی.
ضربهٔ زانوی H2 آنقدر قدرتمند است که ربات G1 را از روی زمین بلند میکند.
این کار فقط برای تأیید قابلیت اطمینان کلی ربات انجام شده است؛ لطفاً هرگز سعی نکنید چنین چیزی را تکرار کنید.
خواهش میکنیم رباتها را بهصورت دوستانه و مسئولانه استفاده کنید.
#رباتها
17.59 MB
👍 2🔥 1
🔍 شرکت OpenAI روشی تازه برای واداشتن مدلها به اعلام خطاها و «اعتراف به هذیانها» معرفی کرد.
شرکت OpenAI در پژوهشی جدید روش Confessions را ارائه کرده است؛ تکنیکی که مشکل «فریب سیستم ارزیابی» (reward hacking) و همچنین تولید پاسخهای نادرست اما با اعتمادبهنفس بالا را هدف میگیرد.
در این روش، پس از تولید پاسخ اصلی، مدل یک گزارش ثانویه تولید میکند که در آن رفتار خود را بررسی میکند، موارد نقض دستورالعمل یا خطاها را افشا میکند و حتی اگر در پاسخ اصلی خلاف واقع گفته باشد، به دلیل صداقت در گزارش پاداش میگیرد.
آزمونها روی GPT-5 Thinking نشان دادند که احتمال نقض قوانین و پنهان کردن آن به ۴٫۴٪ کاهش یافته است.
این روش جلوی هذیان را نمیگیرد؛ صرفاً ابزار تشخیص و افشا است.
🔗 منبع — OpenAI دربارهٔ Confessions
⚡️ شرکت آمازون خانوادهٔ مدلهای Nova و ابزارهای ساخت عاملهای هوشمند را معرفی کرد.
شرکت آمازون چهار مدل جدید از خانوادهٔ Nova را عرضه کرده است: نسخههای Lite و Pro برای استدلال، مدل گفتاری Sonic و مدل چندوجهی Omni که قادر به پردازش همزمان متن، تصویر و ویدیو است. تمام این سرویسها در AWS قابل استفادهاند.
سرویس Nova Forge نیز معرفی شده که امکان ساخت نسخههای سفارشی مدلها را با دادههای سازمانی فراهم میکند.
ابزار Nova Act برای ساخت عاملهایی طراحی شده که میتوانند عملیات مرورگر را خودکار انجام دهند؛ این ابزار از معماری Human-in-the-Loop پشتیبانی میکند و امکان ذخیرهٔ کامل لاگها و ویدیوهای جلسه در Amazon S3 را ارائه میدهد.
🔗 منبع — معرفی Nova و ابزارهای آمازون
🤖 تیمی از متخصصان سابق Tesla، Google و Nvidia استارتاپ UMA را راهاندازی کردند.
استارتاپ Universal Mechanical Assistant (UMA) رسماً فعالیت خود را آغاز کرده و مأموریت آن ساخت رباتهایی برای انجام کارهای فیزیکی در مقیاس صنعتی است.
چهرههای کلیدی تیم عبارتاند از: رِمی کادن (توسعهدهندهٔ Tesla Autopilot و سازندهٔ فریمورک LeRobot)، پیر سرمانه (پژوهشگر باسابقهٔ DeepMind) و رابرت نایت (طراح ربات SO-100).
این شرکت اکنون دو پلتفرم سختافزاری در حال توسعه دارد: ربات صنعتی متحرک با دو بازوی مکانیکی برای انبارداری و ربات انساننمای کوچک برای بیمارستانها و خانهها. استارتاپ UMA از حمایت یان لِکون و توماس وُلف نیز برخوردار است.
🔗 منبع — خبر راهاندازی UMA
🎬 شرکت KlingAI نسخهٔ ۲.۶ ویدئوژنراتور خود را منتشر کرد.
شرکت KlingAI در نسخهٔ جدید قابلیت تولید همزمان ویدئو و صوت (audio-video co-generation) را افزوده است. مدل اکنون میتواند تصویر و صدا را در یک فرآیند واحد و با هماهنگی دقیق تولید کند؛ از تولید گفتوگوی چند شخصیت و موزیکویدئو گرفته تا صحنههای پیچیدهٔ ASMR یا اکشن با lip-sync بسیار دقیق.
محدودیت فعلی این است که تولید صدا تنها برای انگلیسی و چینی پشتیبانی میشود و درخواستهای سایر زبانها بهصورت خودکار به انگلیسی ترجمه میگردند. همچنین در حالت Image-to-Video کیفیت خروجی بهشدت به وضوح تصویر ورودی وابسته است.
🔗 منبع — یادداشت انتشار KlingAI v2.6
🌐 مرورگر Opera مدلهای Gemini را در نسخههای دسکتاپ One و GX ادغام کرد.
مرورگر Opera قابلیتهای Gemini را که پیشتر در نسخهٔ آزمایشی Opera Neon آزمایش شده بود، اکنون در Opera One و Opera GX عرضه کرده است. این ادغام از طریق پنل کناری انجام شده و دستیار هوشمند به زمینهٔ مرورگر دسترسی دارد؛ از جمله خلاصهسازی محتوای صفحهٔ فعال، تحلیل گروه تبها، تحلیل ویدئو و مقایسهٔ محتوا.
پشتیبانی کامل از چندوجهیبودن فراهم شده و دستیار میتواند متن، صوت، تصویر و فایلهای بارگذاریشده را پردازش کند. همچنین معماری عاملمحور جدید که ابتدا در Neon پیادهسازی شده بود به نسخههای اصلی انتقال یافته و سرعت تولید پاسخها تا ۲۰٪ افزایش یافته است.
🔗 منبع — ادغام Gemini در Opera One و GX
@asrgooyeshpardaz
❤ 2🔥 2👏 1
🇨🇳 پژوهشی گسترده و ۳۰۳ صفحهای از مجموعهای از برجستهترین آزمایشگاههای چین منتشر شده است؛
گزارشی عمیق که توضیح میدهد مدلهای ویژهٔ کدنویسی چگونه طراحی میشوند، چگونه آموزش داده میشوند و چگونه از دل آنها «عاملهای نرمافزاری» کامل شکل میگیرد.
این گزارش چه مباحثی را پوشش میدهد؟
۱. فرایند طراحی و آموزش مدل
گردآوری و پالایش مجموعهدادههای عظیم کد از مخازن واقعی نرمافزار.
پیشآموزش (Pre-training): مرحلهای که در آن مدل با الگوها و ساختارهای واقعی برنامهنویسی در مقیاس صنعتی آشنا میشود.
آموزش تکمیلی با SFT و RL: این مراحل مدل را توانمند میسازد تا دستورها را دقیقتر دنبال کند، تستها را با موفقیت پشتسر بگذارد و از خطاهای بدیهی و رایج دوری کند.
۲. تبدیل مدل به یک عامل مهندسی کامل
در این مرحله، مدل تنها یک ابزار تکمیل کد نیست؛ بلکه به یک مهندس نرمافزار خودکار تبدیل میشود که قادر است:
گزارش باگ یا درخواست ویژگی را بخواند،
برنامهٔ کاری تدوین کند،
فایلهای موردنظر را ویرایش کند،
تستها را اجرا کند،
و این چرخه را تا دستیابی به نتیجهٔ نهایی تکرار کند.
این فرایند دقیقاً همان رویکردی است که تیمهای صنعتی برای ساخت نسل تازهٔ عاملهای نرمافزارساز (AI Software Engineers) به کار میگیرند.
۳. چالشهای حلنشده
مدیریت و پیمایش مؤثر در مخازن بسیار بزرگ و پیچیده.
تضمین ایمنی، امنیت و قابلیت اعتماد کد تولیدشده.
طراحی معیارهای استاندارد برای سنجش عملکرد عاملها در شرایط واقعی.
مجموعهای از روشها، الگوهای عملی و ترفندهای مهندسی که تیمهای پیشرو واقعاً به کار میبرند.
جمعبندی
این پژوهش یک نمای جامع از آخرین وضعیت صنعت هوش مصنوعی در حوزهٔ مهندسی نرمافزار ارائه میکند:
از گردآوری داده و معماری مدلها تا فرآیندهای عملی برای ساخت عاملهایی که میتوانند در عمل نقش «توسعهدهندهٔ دوم» را در یک تیم نرمافزاری برعهده بگیرند.
لینک مقاله:
https://arxiv.org/abs/2511.18538
@asrgooyeshpardaz
❤ 2🔥 1
🔹شرکت Anthropic شرکت سازندهی رانتایم فوقسریع JavaScript را خریداری کرد
شرکت Anthropic اعلام کرده است که شرکت Bun — ابزار مشهور اجرای کد و ساخت برنامههای جاوااسکریپت — را خریداری میکند. فناوریها و تیم این استارتاپ بهعنوان زیربنای اصلی برای گسترش پلتفرم Claude Code به کار گرفته خواهند شد.
شرکت Bun که توسط جرد سامنر در سال ۲۰۲۱ تأسیس شد، بهدلیل سرعت فوقالعاده بالا و یکپارچهسازی چند ابزار کلیدی در یک بسته (رانتایم، مدیر بستهها، باندلر و تسترانر) بهسرعت محبوب شد.
این پروژه همچنان متنباز و تحت مجوز MIT باقی میماند. Anthropic نیز وعده داده است که به سرمایهگذاری در آن ادامه دهد و استقلال و ماهیت عمومی آن را برای اکوسیستم JS/TS حفظ کند.
🔹آمازون AWS از تراشههای ۳ نانومتری Trainium3 و سرورهای UltraServer رونمایی کرد
این نسل سوم پردازندههای تانسوری آمازون است. Trainium3 که با فناوری ساخت ۳ نانومتری تولید شده، نسبت به Trainium2 حدود ۴٫۴ برابر عملکرد بالاتر و ۴ برابر بهرهوری انرژی بهتر ارائه میدهد. معماری آن از قالبهای دادهی جدید MXFP8 و MXFP4 پشتیبانی میکند.
نود UltraServer یک نود پردازشی است که از ۱۴۴ تراشه با مجموع ۲۰٫۷ ترابایت حافظهی HBM3e و پهنایباند تجمیعی ۷۰۶ ترابایت بر ثانیه تشکیل شده است. این سرورها میتوانند در قالب خوشههای EC2 UltraCluster در مقیاس بیش از یک میلیون تراشه بههم متصل شوند.
آمازون AWS همچنین تیزری از Trainium 4 منتشر کرد: نسل بعدی این تراشهها از طریق NVLink Fusion با GPUهای انویدیا سازگار خواهد بود.
🔹افزونه vLLM-Omni: گسترش اکوسیستم vLLM
تیم vLLM نسخهٔ جدید vLLM-Omni را معرفی کرده است؛ افزونهای که برای سازگارکردن زیرساخت vLLM با مدلهای اُمْنی طراحی شده—مدلهایی که میتوانند متن، تصویر، ویدئو و صوت را در یک فرآیند واحد پردازش کنند.
معماری vLLM-Omni جریان داده را کاملاً بازطراحی کرده است و از یک پایپلاین جداشده (disaggregated) شامل سه مرحله استفاده میکند:
۱) انکدرهای چندوجهی،
۲) هستهٔ منطقی مبتنی بر vLLM،
۳) و ماژولهای تولید.
این فریمورک میتواند جریانهای کاری پیچیده و ناهمگون را بهصورت کارآمد مدیریت کند و محاسبات را موازی پیش ببرد. همچنین با وجود این پیچیدگی، سازگاری کامل با API اوپناِیآی و Hugging Face را حفظ کرده است.
🔹 اکوسیستم SGLang پشتیبانی از NVIDIA Model Optimizer را اضافه کرد
بهروزرسانی جدید SGLang کار مهندسان ML را بسیار سادهتر میکند: اکنون میتوان کوانتسازی و دیپلوی مدلها را بدون ابزارهای جانبی و پایپلاینهای پیچیده، مستقیماً داخل این اکوسیستم انجام داد.
توسعهدهندگان میتوانند از طریق API مدلها را به قالبهای NVFP4، MXFP4، FP8 تبدیل کرده و بلافاصله آنها را در تولید اجرا کنند. آزمایشها روی معماری NVIDIA Blackwell نشان دادهاند که کوانتسازی NVFP4 با SGLang باعث دو برابر شدن توان پردازشی نسبت به FP8 پایه میشود.
🔹 شرکت Artificial Analysis شاخص «بازبودن» مدلهای هوش مصنوعی را معرفی کرد
استاندار Openness Index یک استاندارد جدید برای ارزیابی میزان «باز بودن» مدلهای هوش مصنوعی است—معیاری که تفاوت بین مدلهای واقعاً متنباز و مدلهایی که فقط تظاهر به بازبودن میکنند را روشن میسازد.
این شاخص پروژهها را بر اساس دو معیار اصلی بررسی میکند:
۱) میزان دسترسی به وزنها،
۲) و میزان شفافیت فرآیند توسعه (روششناسی، دیتاستهای پیشتمرین و پستمرین).
در رتبههای برتر، مدلهای چینی قرار گرفتهاند. در میان مدلهای تجاری، Nemotron Nano 9B v2 با امتیاز ۶۷ عملکرد خوبی داشت، در حالی که مدلهای کاملاً بسته در انتهای جدول با امتیاز ۱ تا ۵ جای گرفتند. OLMo با امتیاز ۸۹ صدرنشین فهرست شد.
این شاخص نشان میدهد که اصطلاح «open weights» کافی نیست: مدلهایی که فقط وزنها را بدون اطلاعات زمینهای منتشر میکنند، در معیار شفافیت امتیاز قابلتوجهی از دست میدهند.
@asrgooyeshpardaz
❤ 2👍 1👏 1👨💻 1
00:11
Video unavailableShow in Telegram
🟡 حملونقل خودران در NeurIPS 2025
انویدیا مدل Alpamayo-R1 را معرفی کرده است؛ نخستین مدل متنباز Reasoning-VLA ویژهٔ تحقیقات رانندگی خودران.
این مدل بر پایهٔ Cosmos Reason ساخته شده، برای RL بهخوبی قابل آموزش مجدد است و بهزودی در GitHub و Hugging Face منتشر میشود.
همچنین فریمورک AlpaSim برای شبیهسازی و تست، اکنون در دسترس قرار دارد.
@asrgooyeshpardaz
1.37 MB
🔥 1😘 1
📌 حضور NVIDIA در NeurIPS 2025
انویدیا اعلام کرده است که در کنفرانس NeurIPS — که از امروز آغاز شده و تا ۷ دسامبر در سندیگو ادامه دارد — چه چیزهایی را معرفی خواهد کرد.
🟡 ۱. حملونقل خودران
NVIDIA DRIVE Alpamayo-R1 یا AR1
اولین مدل متنباز Reasoning-VLA در جهان است که مخصوص تحقیقات رانندگی خودران توسعه یافته.
این مدل بر پایهٔ NVIDIA Cosmos Reason ساخته شده و برای یادگیری تقویتی (RL) بهخوبی قابل ادامهٔ آموزش است.
Alpamayo-R1 بهزودی روی GitHub و Hugging Face منتشر خواهد شد.
فریمورک AlpaSim برای تستها هماکنون در دسترس است.
🟡 ۲. ابزارهای ساخت روباتهای فیزیکی و شبیهسازی
Cosmos Cookbook
راهنمای کامل برای هوش مصنوعی فیزیکی، تولید دادهٔ مصنوعی و ارزیابی مدلها.
LidarGen
یک «مدل جهان» برای تولید دادههای لیدار شبیهسازی.
Omniverse NuRec Fixer
ابزار رفع سریع آرتیفکتها در بازسازیهای عصبی — جهت استفاده در روباتیک و پهپادها.
ProtoMotions3
فریمورک متنباز مبتنی بر Isaac Lab برای آموزش انسانهای دیجیتال با فیزیک فوقواقعی.
🟡 ۳. فقط سختافزار و روبات نیست…
MultiTalker Parakeet
مدل ASR چندسخنران که حتی در سرعتهای بالا و با تداخل صدا عملکرد عالی دارد.
Sortformer
ابزار دیارایزیشن بلادرنگ برای جداسازی سخنرانها در جریان صوتی.
NeMo Gym
کتابخانهٔ ساخت محیطهای RL همراه با NeMo Data Designer برای تولید و ارزیابی دادههای مصنوعی.
🟡 ۴. و در نهایت، علم ناب
انویدیا برای NeurIPS امسال بیش از ۷۰ مقالهٔ پژوهشی آماده کرده است. چند نمونه:
Audio Flamingo 3
مدل بزرگ صوتی–زبانی که میتواند فایلهای صوتی تا ۱۰ دقیقه را تحلیل کند.
Minitron-SSM
روش پرونینگی که مدل Nemotron-H 8B را از ۸ به ۴ میلیارد پارامتر کاهش داده و سرعت استنتاج را دو برابر کرده است.
ProRL — Prolonged Reinforcement Learning
رویکردی که نشان میدهد طولانیتر کردن فرآیند RL، مدلها را وارد سطح جدیدی از تواناییهای reasoning میکند.
@asrgooyeshpardaz
🔥 1👌 1
🔍 دیکامپوزیشن معماری؛ راهحل نهایی نیست
پژوهش جدیدی نشان میدهد که تقسیم معماری مدل (دیکامپوزیشن) برای کاهش تعارض میان تولید تصویر و فهم تصویر، تنها مسیر ممکن نیست.
⚡️ پژوهشگران با تحلیل الگوهای توجه میانمودالی (cross-modal attention) دریافتند که دیکامپوزیشن فقط باعث میشود مدل مانند دو مدل بسیار تخصصی رفتار کند، اما اصل تعارض را برطرف نمیکند.
🎯 راهحل پیشنهادی آنها AIA Loss — Attention Interaction Alignment است:
✅ الگوهای مطلوب توجه برای هر وظیفه را بهطور صریح آموزش میدهد.
✅ نیازی به تغییر معماری ندارد.
✅ روی Emu3 و Janus-Pro آزمایش شده است.
📊 نتایج:
• بهبود هم در وظایف درک تصویر و هم در تولید تصویر
• کاهش فاصله عملکرد نسبت به مدلهای دیکامپوز شده
این روش گامی مهم به سوی سیستمهای واقعاً یکپارچهٔ چندمودالی است! 🚀
🔗 https://arxiv.org/abs/2511.22663
@asrgooyeshpardaz
👌 2❤ 1🔥 1
Photo unavailableShow in Telegram
🐬 شرکت DeepSeek دو مدل قدرتمند جدید معرفی کرد!
🚀 مدل DeepSeek-V3.2
نسخه رسمی با پشتیبانی کامل از تفکر ابزاری (Tool-Integrated Reasoning).
در اپلیکیشن، وب و API در دسترس است.
⚡️ مدل DeepSeek-V3.2-Speciale
مدل آزمایشیِ ویژه برای مسائل پیچیده و استدلال عمیق.
فقط از طریق API قابل استفاده است.
🔑 مهمترین نکات
🧩 بهرهگیری از DeepSeek Sparse Attention برای پردازش کارآمد متنهای بسیار طولانی.
🏆 مدل Speciale از Gemini-3.0-Pro پیشی گرفته و عملکردی در سطح مدال طلا در مسابقات IMO و IOI 2025 دارد.
📈 قدرت استدلال V3.2 در حد GPT-5 ارزیابی شده است.
🤖 بهبود چشمگیر در کارهای ایجنتی: جستجو، کدنویسی، و کار با ابزارها.
📚 کاملاً متنباز و منتشرشده در Hugging Face.
این یک قدم بزرگ برای نسل جدید مدلهای بازمتن است!
🔗 لینک مدل:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
#AI #DeepSeek #LLM
@asrgooyeshpardaz
❤ 8🔥 3🤔 1🤝 1
🤖 روش GAM: حافظهٔ بدوناتلاف برای ایجنتهای هوشمند
پژوهشگران رویکرد تازهای برای مدیریت حافظهٔ ایجنتهای هوش مصنوعی معرفی کردهاند: General Agentic Memory (GAM).
برخلاف روشهای سنتی مبتنی بر فشردهسازی ایستا (AOT)، این سیستم از رویکرد نوعی JIT برای حافظه استفاده میکند.
🔹 واحد Memorizer تمام تاریخچه و نقاط کلیدی را بدون حذف در page-store ذخیره میکند.
🔹 واحد Researcher هنگام نیاز، یک فرایند «تحقیق عمیق» اجرا میکند: برنامهریزی، جستجو و استخراج دقیق اطلاعات مرتبط.
📊 دستاوردهای GAM:
• عملکرد بهتر نسبت به A-Mem، Mem0 و MemoryOS در بنچمارکهای LoCoMo، HotpotQA و RULER
• پشتیبانی پایدار از زمینههایی تا ۴۴۸ هزار توکن
• کارایی نزدیک به بهترین روشهای موجود در سیستمهای حافظهٔ ایجنتیک
این نتایج نشان میدهد جستجوی انعطافپذیر روی کل تاریخچه میتواند مؤثرتر از فشردهسازی پیشینی حافظه باشد. 🚀
🔗 ریپوی پروژه:
https://github.com/VectorSpaceLab/general-agentic-memory
🔗 متن مقاله:
https://arxiv.org/abs/2511.18423
#AI #AgenticAI #Memory #Research
❤ 3✍ 1🔥 1
Repost from عصر گویش | هوش مصنوعی
02:09
Video unavailableShow in Telegram
#موزیک #ویدیو #هوش_مصنوعی
@asrgooyeshpardaz
12.83 MB
🌟 مدل MedSAM-3؛ نسخه پزشکیشدهی SAM 3 برای تشخیص دقیقتر
پروژه MedSAM-3 تلاش میکند تواناییهای مدل SAM 3 را از حوزه عمومی به دنیای سخت و تخصصی پزشکی منتقل کند. هرچند SAM 3 در تصویربرداری عمومی بسیار قدرتمند است، اما روی دادههای پزشکی معمولاً ساختارهای آناتومیک را اشتباه گرفته و بسیاری از اصطلاحات تخصصی را درک نمیکند.
🩺 مدل MedSAM-3 چه مسئلهای را حل میکند؟
این نسخه جدید اجازه میدهد پزشکان روی تصاویر MRI، CT، سونوگرافی و نمونههای بافتشناسی، فقط با یک دستور زبانی ساده—برای مثال: «تومور پستان را سگمنت کن»—ناحیه مورد نظر را تفکیک کنند.
⚙️ چطور کار میکند؟
مدل MedSAM-3 بر پایه معماری دوـترنسفورمری SAM 3 ساخته شده است. در مرحله آموزش:
انکودرهای تصویر و متن فریز شدند تا قدرت بصری مدل اصلی حفظ شود.
بخش دیتکتور روی مجموعهدادههای پزشکی SFT شد تا مدل با مفاهیم تخصصی آشنا شود.
این ترکیب باعث شده مدل هم توانایی عمومی SAM 3 را نگه دارد، هم دانش دامنهی پزشکی را یاد بگیرد.
📊 نتایج کلیدی
بهترین عملکرد در نسخهی MedSAM-3 T+I دیده شد؛ جایی که راهنمای متنی با باکس محدودکننده ترکیب شده است.
نتیجه:
عملکرد بهتر از U-Net
عملکرد بهتر از نسخه اولیه MedSAM
امتیاز Dice = 0.7772 روی BUSI و نتایج برتر روی Kvasir-SEG
🟡 عامل (Agent): نقطه عطف جذاب MedSAM-3
علاوه بر خود مدل، یک فریمورک عاملمحور به نام MedSAM-3 Agent نیز ارائه شده است.
در این ساختار، یک مدل چندوجهی LLM (در آزمایشها: Gemini 3 Pro) نقش «پلنر» را دارد؛ یعنی:
درخواست کاربر را تحلیل میکند،
زنجیره استدلال میسازد،
و فرآیند سگمنتیشن را بهصورت گامبهگام هدایت میکند.
نتیجه این رویکرد:
افزایش امتیاز Dice از 0.7772 👈 0.8064 روی همان داده BUSI.
⚠️ پروژه هنوز در مرحله گزارش فنی است، اما توسعهدهندگان قول دادهاند وزنها و کد کامل را منتشر کنند.
اگر روی هوش مصنوعی پزشکی کار میکنید، این پروژه را حتماً دنبال کنید.
🔗 ArXiv:
https://arxiv.org/abs/2511.19046
🖥 Github:
https://github.com/Joey-S-Liu/MedSAM3
📌 لایسنس: Apache 2.0
#هوش_مصنوعی #پزشکی #Segmentation #MedSAM3
@asrgooyeshpardaz
🔥 1👌 1
