gradient-descent

Я хотел бы написать TensorFlow op на python, но я хотел бы, чтобы он был дифференцируемым (чтобы иметь возможность вычислять градиент). Этот вопрос задает, как написать ОП в python, и ответ предлагает использовать py_func (который не имеет градиента): Tensorflow: написание ОП в Python Документация TF описы...

Я пытаюсь реализовать алгоритм градиентного спуска, чтобы минимизировать функцию стоимости для множественного линейного алгоритма. Я использую концепции, объясненные в классе машинного обучения Эндрю Нг. Я использую Октаву. Однако, когда я пытаюсь выполнить код, он, кажется, не может предоставить решение, пос...

Я пытаюсь найти min функции в N параметрах, используя градиентный спуск. Однако я хочу сделать это, ограничив сумму абсолютных значений параметров 1 (или Теперь, как я понимаю, градиент этой функции будет только 0, когда g (x)=1, так что метод нахождения локального минимума должен найти минимум моей функци...

Вчера я опубликовалэтот вопрос , спрашивая, не застряла ли моя нейронная сеть (которую я тренирую с помощью обратного распространения стохастического градиентного спуска) в локальных минимумах. В следующих статьях рассматривается проблема локальных минимумов в нейронной сети XOR. Первый говорит, что нет пробл...

У меня есть вопрос, подобный этому. Поскольку у меня ограниченные ресурсы и я работаю с глубокой моделью (VGG-16), используемой для обучения триплетной сети, я хочу накапливать градиенты для 128 пакетов обучающего примера размера один, а затем распространять ошибку и обновлять веса. Мне непонятно, как это с...

в чем преимущество использования градиентного спуска в пространстве линейной регрессии? похоже, что мы можем решить проблему (найти theta0-n, что минимизирует стоимость func) с помощью аналитического метода, поэтому почему мы все еще хотим использовать градиентный спуск, чтобы сделать то же самое? спасибо ...