💬 Исследования OpenAI показывают, почему чат -боты догадаются неверными в соответствии с текущими тестами

Исследования OpenAI показывают, почему чат -боты догадаются неверными в соответствии с текущими тестами
OpenAI вместе с Georgia Tech выпустили новое исследование, которое внимательно изучает, почему чат -боты продолжают делать ошибки. В исследовании утверждается, что проблема корня заключается не в том, как строятся системы, а в том, как они обучены и оценены. Текущие испытания на оценку ответов оценивают как правильные или неправильные без вознаграждения за признание недостатка знаний. В результате, такие модели, как CHATGPT от Openai и DeepSeek-V3, учатся угадать с уверенностью, а не сдерживаться, когда не уверены.
Команда показывает, что галлюцинации или неправильные ответы следуют тем же математическим правилам, что и простые ошибки испытания. Например, если факт отображается только один раз в учебных данных, модель почти всегда будет бороться с ним позже. В тесте даже ведущие модели дали несколько неправильных дней рождения одного из авторов, вместо того, чтобы сказать, что они не знали. Это показывает, как наставление ответа перевешивает толчок к паузе.
Предложенное исправление и что это значит для доверия
Исследователи предполагают, что исправление заключается в том, как оцениваются ответы. Они предлагают новую систему, которая дает очки за правильные ответы, удаляет баллы для неправильных и оставляет нулевой счет для четкого «я не знаю». В испытаниях модели, которые пропустили ответы, чаще оказались в общем зачете, хотя на бумаге выглядело меньше, даже несмотря на то, что их скорость точности выглядела ниже.
Для инвесторов и пользователей в этом исследовании подчеркивается, что проблема ошибок ИИ связана с правилами обучения, чем скрытые недостатки. Это также показывает, что лучшая оценка может привести к большему доверию в системах ИИ, используемых в таких областях, как финансы, здравоохранение и право. Доверие - это ключевое слово для всех систем ИИ. Естественно, чем больше мы доверяем чатботу ИИ, тем больше потенциал для повышения линии компании.
Используя инструмент сравнения Tipranks, мы проанализировали несколько ведущих компаний, разрабатывающих чат -боты искусственного интеллекта, похожие на CHATGPT. Этот вид бок о бок помогает инвесторам лучше понять каждую акцию, а также более широкий рынок чат-ботов.

Отказ от ответственности и DiscloSurerePort проблема
Ограничение / снятие ответственности (дисклеймер): Вся информация на этом сайте предоставляется исключительно в информационных целях и не является предложением или рекомендацией к покупке, продаже или удержанию каких-либо ценных бумаг, акций или других финансовых инструментов. Авторы контента не несут ответственности за действия пользователей, основанные на предоставленной информации. Пользователи обязаны самостоятельно оценивать риски и проконсультироваться со специалистами перед принятием каких-либо инвестиционных решений. Вся информация на сайте может быть изменена без предварительного уведомления.
Свежие новости по теме: Американский рынок акций
-
Акции и компании США
Руководители Avon Technologies приобретают акции в соответствии с планом стимулирования
2025-09-17 просмотры: 246 -
Акции и компании США
QQQ ETF News, 8/8/2025
2025-09-17 просмотры: 201 -
Акции и компании США
Tether Digs для цифрового золота в качестве инвестиций в инвестиции в Gold Eyes Gyant Eyes
2025-09-17 просмотры: 202 -
Акции и компании США
3 лучших акциях для покупки сейчас, 8/8/2025, по данным лучших аналитиков
2025-09-17 просмотры: 234 -
Акции и компании США
Xom, Cop, Fang: США нефть выглядят более жестки
2025-09-17 просмотры: 328 -
Акции и компании США
Spy ETF News, 8/8/2025
2025-09-17 просмотры: 224 -
Акции и компании США
Волатильность опционов и подразумеваемая прибыль на этой неделе, 8 сентября - 11 сентября 2025 г.
2025-09-17 просмотры: 219 -
Акции и компании США
Волатильность опционов и подразумеваемая прибыль сегодня, 8 сентября 2025 г.
2025-09-17 просмотры: 288 -
Акции и компании США
Samsung и SK Hynix сталкиваются с новыми правилами экспорта в США на Chrian Chip
2025-09-17 просмотры: 259