У клиентов и партнеров Salesforce всё еще остаются вопросы о самом масштабном отказе сервисов в истории компании в конце прошлой недели.

Как это было

Salesforce столкнулась с крупнейшим в своей истории отказом сервисов в прошлую пятницу с переходом на уикенд. К концу дня в понедельник отказ был большей частью ликвидирован, но и тогда не все пользователи смогли полностью восстановить работу.

Из-за отказа агенты по сбыту и маркетеры по всему миру на несколько часов потеряли доступ к Salesforce Marketing Cloud, так что некоторые компании даже отправили сотрудников по домам на выходные раньше обычного.

У клиентов и партнеров компании всё еще остается много вопросов о том, как могло случиться, что дефектный скрипт для приложения автоматизации маркетинга Pardot посеял такой хаос.

Вот что нам известно о происшедшем (и что еще хотелось бы узнать).

6. Закрытие доступа к Pardot

Salesforce узнала о проблеме в пятницу, когда клиенты, использующие приложение автоматизации маркетинга Pardot, начали сообщать, что все их пользователи могут видеть и изменять любые данные своей компании, имеющиеся в облачной системе.

Чтобы предотвратить раскрытие конфиденциальной информации из-за сбоя в разрешениях, Salesforce прекратила доступ к инструментам Pardot и всему облаку Salesforce Marketing Cloud, частью которого они являются.

Вскоре выяснилось, что причиной сбоя была ошибка в сценарии базы данных.

Вендору удалось изолировать организации, непосредственно затронутые проблемой с Pardot, и к субботе восстановить доступ для всех других. Остается, правда, объяснить техническую сторону происшедшего: почему отказ в Pardot привел к необходимости закрыть доступ ко всей маркетинговой платформе.

5. Масштаб происшедшего

Количество зарегистрированных отказов достигло максимума (3262 случая) вскоре после 13:00 ET в пятницу.

Облако Marketing Cloud не работало (в худших случаях) в течение 15 часов, но многим клиентам потребовалось дополнительное время, чтобы надлежащим образом восстановить разрешения и пользователи могли, наконец, вернуться к работе.

Один партнер Salesforce сказал тогда CRN, что отказ «представляется масштабным».

«Многие из моих подопечных у Salesforce обратились за помощью и были так или иначе затронуты», — сказал он.

Salesforce пока не сообщила о полном масштабе происшедшего.

4. География отказов

Тепловая карта отказов у Salesforce ясно показывает эпицентры в Северной Америке и Северной Европе.

Ярче всего выделяются Калифорния и Восточное побережье США. В Европе центр приходится на Южную Англию.

Проблемы, еще остававшиеся в понедельник, это три инстанса в Северной Америке, которые были сброшены, но опять-таки имели слишком широкие разрешения, потребовавшие перезапуска.

Пока неясно, почему определенные регионы пострадали (если пострадали) больше других.

3. Бремя восстановления

Для клиентов, непосредственно пострадавших от дефектного сценария базы данных Pardot, Salesforce сначала восстановила доступ только пользователям с профилем системного администратора. После этого таким организациям пришлось восстанавливать профили или разрешения своих пользователей.

Salesforce рекомендовала организациям с актуальными резервными копиями данных профилей и разрешений пользователей восстановить эту информацию непосредственно из копии в «песочнице», загрузив ее в свою рабочую среду. Клиентам, не имевшим рабочих профилей в Sandbox, нужно было вручную изменить конфигурации, чтобы предоставить надлежащий доступ пользователям.

К понедельнику автоматические процедуры по восстановлению разрешений были выполнены на всех рабочих инстансах, сообщает Salesforce. Однако небольшое число клиентов всё еще испытывало проблемы с разрешениями.

2. Предыстория отказов

Происшедший отказ был почти без сомнения самым тяжелым за всю историю пионера облачных сервисов, во всяком случае по количеству затронутых пользователей.

Последний крупный сбой у Salesforce был 10 мая 2016 года. В тот раз неудобства усугублялись стиранием данных, которые пользователи вводили в свои системы CRM в течение четырех часов перед сбоем.

Два месяца спустя, в марте 2016 года, клиенты Salesforce в Европе столкнулись с нарушениями в работе CRM длительностью до 10 часов, которые были вызваны проблемой с хранилищем.

1. Финал

По состоянию на понедельник, по крайней мере в трех из более чем сотни инстансов Salesforce в Северной Америке всё еще не были восстановлены разрешения для некоторых пользователей.

«У нас брошены все силы, чтобы устранить проблемы для всех клиентов», — написал в Твиттере директор по технологии Salesforce Паркер Харрис (Parker Harris) где-то перед полуднем на Западном побережье.

Salesforce полагала, что полностью устранила отказы за выходные, выполнив автоматические процедуры по восстановлению разрешений на всех рабочих инстансах. Тем не менее, и после этого у некоторых клиентов на небольшом количестве всё еще затронутых инстансов были неправильно установлены уровни разрешений, давая пользователям более широкий доступ, чем требовалось, говорится на страница статуса платформы.

Чтобы устранить это, Salesforce провела еще один перезапуск, попросив админов опять-таки вручную восстановить разрешения.

Источник: Джозеф Цыдулко, CRN/США

Версия для печати (без изображений)   Все новости