Notes of old sysadmin

вторник, 14 мая 2013 г.

Про передовые технологии

Не так давно перешли на передовую технологию Oracle Standby по инициативе DBA .Обещалось , что переклчатся будет аж за 5 минут между primary и standby .
Ага , щаз .
На самом деле реализовано переключение по дурацки , primary запускается не дожидаясь когда standby освободит память .
В результате в логах сыпется -

Starting ORACLE instance (normal)
WARNING: The system does not seem to be configured
optimally. Creating a segment of size 0x0000002820000000
failed. Please change the shm parameters so that
a segment can be created for this size. While this is
not a fatal issue, creating one segment may improve
performance
Sun May хххх 2013
WARNING: Not enough physical memory for SHM_SHARE_MMU segment of size 0x0000001420000000 [flag=0x4000]
Sun May хххх 2013
Starting ORACLE instance (normal)
WARNING: The system does not seem to be configured
optimally. Creating a segment of size 0x0000002820000000
failed. Please change the shm parameters so that
a segment can be created for this size. While this is
not a fatal issue, creating one segment may improve
performance
WARNING: Not enough physical memory for SHM_SHARE_MMU segment of size 0x0000001420000000 [flag=0x4000]
Sun May хххх 2013
Starting ORACLE instance (normal)

В конце концов Оракл стартует с дико фрагментированной памятью , список сегментов напоминает виноградную гроздь
Само собой после этого DBA прибегают с воплями - "Ваша система тормозит ! "

Самый простой выход в такой ситуации - тупо перегрузиться .
Родились стишки на основе творчества Слепакова

"Каждый switchover - система в гавно !
После ребута - система огурец ! " :-)

вторник, 29 января 2013 г.

SuperCluster от Oracle

Провели тестирование сабжа . Сравнивалась работа оракловой базы на обычной связке сервер-SAN-СХД и этой же базы на кластере .
Сервера в нашем случае были одинаковые - Т44
Число дисков (SAS) в СХД и Storage cell совпадало с точностью до 5%.
Количество IOPS не изменилась - одни и теже цифры что на сервере , что на кластере
То есть почти идеальное сравнение .
Специфические вещи типа колоночного сжатия не применялись .
Сравнивалось следующее:
Число IO wait сессий
Время выполнения ряда job, типа расчета абонплаты
Грубо оценивалось время дисковых операций .Понятно что на суперкластере это время очень условно .

В сухом остатке - кластер работает в 3-5 раз быстрее .

пятница, 18 января 2013 г.

Байки из склепа . Про WAN каналы и их странности

По работе опять вернулись к прошлогодней теме , решил изложить подробнее .
'Люблю рассказывать о делах , которые удались' (с)
Предыстория здесь -
http://andy-oldsysadmin.blogspot.ru/2012/04/troubles-success-story.html

Есть главная база в нашем датацентре и удаленный географически standby
Понятно , что нужен широкий канал для копирования и наката стендбая.
Рoстeлекoм выделил нам канaл ширинoй 300Мбит
срaзу пoсле пoдключения проверили - скoрoсть скачивания пo ФТП 7-9 мeгaбайт в oдин поток , вроде все хoрoшо
Самo сoбoй , tcp window на пeредачу-прием нaстрoили сразу
Спустя нескoлькo нeдель DBA нaчинают запускать standby , скoрoсть копировaния кaкaя-то сoвсем маленькaя
нaчинаются поиски прaвильнoгo тюнинга rman , прoверяются настройки tcp нa хoстах с обeих стoрoн - не пoмогает
Врeмя идeт , базу скопирoвaть нe удаeтся .
Наконец eщe раз пытаeмся скaчaть по FTP - скoрость 1-3 Мбайт в секунду и нe бoльше ! Причем скoрoсть oчень нeстабильна , при длинной пeрeдаче пoлучaeтся 1.5Мбайт в срeднем
то есть всe oчень плохo .
Нaчинaем рaзбираться , выясняется ряд интерeсных вeщей
1. канaл oчeнь сильно aсимметричный . С удаленной площадки к нaм скoрость 8Мбайт/c , туда -1.5-2 всeгo . Почему-то вспомнилось про ADSL :-)
2. Потeрь пакетов . кaк мoжно было oжидaть, пoчти нет . Нa 100 тыщщ отправленных пaкeтов бываeт 50-60 пoтeрянных , а чaще всего пoтeрь вообщe нeт .
3. Скoрость инoгда повышаeтся . нo очень нeнaдoлго .

Всe это крайне стрaннo , на все вoпрoсы нaши сетeвики пожимают плечaми .
Кoе-как в три пoтoкa базу скoпировали , но пeрeдача тeкущих измeнeний (transport lag ) состaвляет много чaсoв , а иногдa и дeсяткoв часoв .
Dataguard понимает , чтo скoрость перeдaчи мaла и пытaется увеличть число сeссий для пeредачи , нo суммaрнo большe 7-9 Мбайт все равнo нe выходит .
В общeм , кaнaл вродe как есть , но пoльзы oт него нeт .Тoгдa впервыe почему-то РТК стaл aссоциировaться с цыгaнaми :-)

Занялись подробнее изучением тонкостей передачи .
Стaлo понятнo , что тормозит сaм TCP. Пoдробноe изучeниe всех дeталей протoкoла позвoлилo прeдполoжить причину -congestion collapse
После ряда зaмeров и эксперимeнтoв стaла пoнятна причина - большoй и хaотичный разбрoс пo врeмени мeжду прибывающими пакетaми
тo же самoe в мeньшей стeпени - с отправкoй ACK .
В рeзультате скoрoсть TCP рeзко пaдает , причем ситуaция усугубляeтся тем , что сoляркa испoльзует стaрый алгоритм -cubic вродe , oн oчень чувствитeлен к задержкaм
Устoйчивый же New Reno на хoстe пoставить нe удалось

Было прeдпринятo несколькo экспeримeнтов
Очевидное решение - поставить некий прокси на хостах с правильным New Reno . Однако этот вариант не получился - Оракл открывает обратную сессию , плюс похоже сам протокол листенера такое не допускает .
Предприняли еще несколько экспериментов , ожидаемые варианты с MTU результата не дали .
Наконец oдин вариант оказался удaчным .
Окaзалось , чтo eсли TCP пaкеты туннелировать - то есть зaпихивать их внутрь IP пакетa другого типа , то скорoсть oднoго сoединения резкo вырaстает - дo 8-10 Mb/s ! Причeм этa скорoсть достаточнo стaбильна !
Рационального обьяснения этому конечно нет , но это было решение , рабочее и стабильное .
Быстренько сделали простой туннель между площадками , плюс нeбольшoе сжатие (20%) пoзвoлило пропускaть нужный oбьeм данных и transport lag снизился пoчти до 0.
В таком варианте проработали более чем полгода .
У меня слoжилoсь впeчатлeние , что эти IP пакeты дaже шли по другoму мaршруту внутри рoстелeкомовскогo oблака .

В процессе борьбы с РТК каналами также довелось попробовать компрессор трафика Riverbed , но это совсем другая история .

четверг, 20 декабря 2012 г.

Пополнения в зверинце

воскресенье, 25 ноября 2012 г.

Veritas Volume manager

Сабж используется у нас длительное время , лучший по функционалу , гибкости и надежности . Много раз выручал при выключениях питания , авариях и т.д. В общем , лучший Volume Manager.
Так я думал до позапрошлой недели , когда случился крайне неприятный случай .
Группа Vxvm переезжает с одного хоста на другой , процедура рутинная , проводилась десятки ( а может и сотни ) раз , выполняет младший админ .
Само собой все работы ночью , звонок уже от старшего админа - 'База не поднимается , не может открыть кучу файлов'
При просмотре alert.log возникает чувство deja-vou - список битых файлов странно знаком .... проверяю ...точно !
Файлы с битыми заголовками - только те , которые недавно переносились на новый диск, я сам их копировал при помощи vxassist mirror
Странно - vxdg adddisk отработал абсолютно штатно , эти файлы активно использовались базой до переезда , ошибок не было . Все началось после deport/import.
Поскольку у нас все (почти) организовано правильно , данные зеркалируются на разные Хитачи , то решение было очевидным - отстрелить плексы на этом новом диске ( lun конечно ) . После чего база успешно поднимается , вытираем холодный пот .
А вот если бы не зеркало , то данные мы бы потеряли .

На следующий день был быстро найден баг Veritas - ошибка при инициализации нового диска . Неправильно считалось смещение привата , при deport писалось уже правильное смещение с очевидным результатом .
Все это на версии 5.1 с определенным уровнем патчей , исправление уже есть .
В итоге - все обошлось , но - потеряно время и доверие к ранее отличному продукту .

четверг, 4 октября 2012 г.

ZFS дом труба шатал

Случился у нас большой бадабум по питанию , в результате пришлось переводить сервисы в другой датацентр . Как всегда выяснилось что "что-то забыли" и надо разворачивать одну из мелких баз с 0 .
Поскольку времени нет (хватай мешки вокзал отходит) , то решили разместить ее на файловой системе ZFS .
Я уже раньше писал о неудачном ее использовании - оказалось , это были цветочки .
Характер нагрузки этой мелкой базы - почти сплошная случайная запись , всего-то полторы-две тысячи IOPS при малом потоке .Вроде как ерунда .
Но - база резко замедлила свою работу , DBA вынесли мне все мозги .
Наконец аврал закончился , и базу вернули на RAW device .
База как положено шустро заработала , вроде как можно расслабиться , но
этой ночью происходит -

panic: BAD TRAP: type=31 rp=2a1229d6d80 addr=68 mmu_fsr=0 occurred in module "zfs" due to a NULL pointer dereference

Это при снятой нагрузке !
Твою мать ! (с) Э.Картман

воскресенье, 23 сентября 2012 г.

Netapp - попытка внедрения

Прошедшие месяцы были посвящены попытке внедрить Netapp
Модель fas3240 , сначала с одной полкой SATA дисков , затем с двумя
Должна была заменить часть AMS 2500 , которая основательно нагружена чтением-записью .
В целом - попытки работы на NetApp очень напоминают прогулки по минному полю
Cначала все замечательно , потом бац - и все вдребезги

Чуть подробнее
Netapp был подключен к отдельному серверу , на котором был поднят оракловый standby .Ключевой момент - успевает ли standby за главной базой (applay lag) , по сути - хватает ли производительности этой полки .
Первая попытка запустить standby на одной полке fas3240 была неудачной
Затем подключили вторую , по уверениям вендора 'работать будет отлично'

Сначала applay lag был 0 , затем начал самопроизвольно прыгать по непонятным причинам , нагрузка на главной базе не росла .По оси Y - время отставания в секундах .

Затем начался период отчетности и нагрузка на основной базе подросла . Для standby это оказалось фатально - производительности полки стало не хватать , сначала умеренно , потом наступила полная катастрофа

В настоящий момент лаг - Current Value 515332
Понятно , что такое отставание уже необратимо, это при том что нагрузка на primary базе давно вернулась к норме .
Netapp подключался к серверу через DNFS , работает действительно быстро по сранению с обычным NFS , но глюков и проблем хватает

В общем , мы пришли к выводу что fas3240 не подходит для наших нагрузок

вторник, 14 мая 2013 г.

вторник, 29 января 2013 г.

пятница, 18 января 2013 г.

четверг, 20 декабря 2012 г.

воскресенье, 25 ноября 2012 г.

четверг, 4 октября 2012 г.

воскресенье, 23 сентября 2012 г.