Смартсорсинг.ру

Сообщество руководителей ИТ-компаний, ИТ-подразделений и сервисных центров

Статьи в блогах Вопросы и ответы Темы в лентах ITSM 365 Пользователи Компании Лента заказов Курс по ITSM

Связка Asterisk и VoIP-шлюзов перестала работать.

 

Коллеги, очень прошу столкнуть с пути и направить мысли на новый.

Ситуация следующая:
На объекте телефонная связь между отдельно-стоящими зданиями и "наружу" реализована с помощью VoIP-шлюзов D-Link DVG-5008S, которые регистрируются на АТС Asterisk на сервере.

Некоторое время назад сервер умер. Мы его восстановили, с помощью поставщиков АТС восстановили всё до статуса "ОК".

Возникла такая проблема: все эти шлюзы не могут зарегистрироваться на АТС.
 

Симптомы:
а) если перезагрузить шлюз с воткнутым сетевым кабелем, то он постоянно уходит в аварию и ребутится. В сети вообще не появляется. Вот видео поведения шлюза:

http://youtu.be/YfBcr1H7BNo

б) если перезагрузить шлюз без сетевого кабеля, а потом его воткнуть, то шлюз помигивает "аварией", но в сети появляеся. WEB-интерфес становится доступен.

Есть ещё маленький шлюзик 2102s, который включен непосредственно рядом с сервером. Этот работает на отлично всегда...

И ещё нюанс: есть шлюз, который более-менее часто нормально сам выходит в сеть из состояния а).
Отличается старостью прошивки и версией железа, я так понимаю.

У всех:

Model Information

Hardware Platform SA7S8 VD
Hardware 4.0.0
Software Version 1.02.38.43-b9367
Driver Version 0.9.5.1.1928.952 02/Jul/2009
DSP 482-128K

У этого шлюза:

Model Information

Hardware Platform SA7S8
Hardware 4.0.0
Software Version 1.02.37.61-b8258
Driver Version 0.9.5.1.735 29/Nov/2007 10:30:08
DSP 482-128K

Может быть это ему как-то помогает.

Прошить шлюзы самой свежей прошивкой пока не удаётся - возникает ошибка, а tftpd даже не показывает попыток скачать устройством эту прошивку....


Вся сетевая структура "плоская": есть головная стойка, от которой на каждое здание бежит оптика.
Все адреса прописаны вручную. Подсеть единая.
В сети также присутствует мультимедийный траффик для IP-TV-приставок, на который мы очень грешим, но сейчас его унять нельзя...

Иногда (непредсказуемо) шлюзы из состояния а) всёже появляются в сети сами.
При этом в логах Астериска они тоже появляются, но через некоторое время отпадают с тэгом "Lagged".

Т.е. на лицо какой-то "шторм" в сети, который появился за время четырёхдневного простоя сервера.
Но ни-че-го не менялось!

Раньше, до блэкаута сервера, ВСЁ работало на ура!


Может кто сталкивался с такой проблемой раньше?

Направьте, куда копать?

Комментарии (34)

  • Аватар

    Walter Andrew [andrew.a.walter], 01 декабря 2013, 19:44

    0
    Так, добавлю данных:
    В наличии серверы:
    1. И главный - гейт. ОС - CentOS;
    2. АТС Astersisk. ОС - Mint.

    В сети всего пять пользовательских компов. Все со свежими нормальными антивирусами.

    Плюс два сетевых принтера (но они появились после блэкаута).


    Структура:

    После серверов всё сходится в AT-GS950/24.

    От него бежит через AT-MC103XL на каждое здание.

    В здании связка: AT-MC103XL - AT-FS709-FC.
    От него питаются: наш VoIP-шлюз DVG-5008S, AP Ubiquity Power AP N и AT-GS900/8E.
    На последнем комится "мультимедия" - медиа-проигрыватель DUNE, IP-TV-приставка "Ростелеком" и иногда NAS "Synology".

    Завтра/послезавтра планируем взять тупой хаб и посмотреть, что покажет WireShark. Мультимедию, разумеется, полностью вырубим, т.к. из-за неё в сети "шторм"....
  • Аватар

    Walter Andrew [andrew.a.walter], 01 декабря 2013, 20:06

    0
    Ещё добавка:
    Пинг от шлюзика в непосредственной близости от сервера к серверу (внутри его прошивки-WEB-мордочки):
    64 bytes from 192.168.1.200: icmp_seq=1 ttl=128 time=0.0 ms
    Пинг от шлюзика в непосредственной близости от сервера к другому шлюзу (за "оптикой") (внутри его прошивки-WEB-мордочки):
    64 bytes from 192.168.1.200: icmp_seq=1 ttl=128 time=0.0 ms

    Теперь самое интересное:
    Пинг от шлюза глубоко внутри объекта до сервера (внутри его прошивки-WEB-мордочки):
    64 bytes from 192.168.1.200: icmp_seq=0 ttl=64 time=80.0 ms
    64 bytes from 192.168.1.200: icmp_seq=1 ttl=64 time=10.0 ms
    64 bytes from 192.168.1.200: icmp_seq=2 ttl=64 time=10.0 ms
    64 bytes from 192.168.1.200: icmp_seq=3 ttl=64 time=60.0 ms

    Пинг от ноутбука, подключенного в тот же свитч:
    Reply from 192.168.1.200: bytes=32 time=1ms TTL=64

    ЧТО грузит эти шлюзы так, что у них процессор overload?
  • Аватар

    Чумаевский Александр _ [inkara.ru], 02 декабря 2013, 11:10

    0

    D-link  - любое оборудование этой конторы по непонятным причинам дохнет в самый неподходящий момент.

    В свое время много этого Г свозил в гарантийку, после чего было принято политическое решение - никак и никогда не использовать оборудование с этим лейблом.

    --

    Сервер проверьте подключившись к астериску вместо шлюзов софтфоном например X-lIte - если подключится значит сервер работает и нужно копать д-линки.

    Если нет проблему с сервером решать.

    --

    А дальше отрубаете все д-линки включаете 1 и пытаетесь разобраться в чем там дело.

    • Аватар

      Walter Andrew [andrew.a.walter], 02 декабря 2013, 11:24

      0

      Да я бы и сам ни в жисть в проект это железо не заложил. Но, как обычно - "наследство" :)

      Сервер-то "летит". Проблема именно в шлюзах...

      • Аватар

        Чумаевский Александр _ [inkara.ru], 02 декабря 2013, 11:49

        0
        Проверьте кодеки, для начала попробуйте G711 только оставить, остальные сильнее грузят железо.
        Хотя у вас до  них не доходит скорее всего.
        --
        Попробуйте сбросить D-link на заводские натсройки , прерпрошить настроить заново , может помочь.
        • Аватар

          Walter Andrew [andrew.a.walter], 03 декабря 2013, 15:07

          0
          Сброс на заводские настройки ничего не дал - поведение не изменилось.

          Прошивку он вроде укачивает в себя, говорит, что всё ок. Но после перезагрузки ничего не меняется.
          И номер прошивки остаётся тот же...
      • Аватар

        Яковлев Андрей Михайлович [swtws], 02 декабря 2013, 14:41

        0
        Менять шлюзы, я их пару лет назад проклял. Глюки странного происхождения. Если * прямо работает, шлюзы даже никто не отремонтирует. Скорее всего проблема возникла раньше, смерть сервера ее выявила. (я не сторонник asterisk не из-за качества, а из-за поддержки и и обновлений - "старый" шлюз может не работать с новой версией, чего не бывает у платных IP-АТС)
        • Аватар

          Walter Andrew [andrew.a.walter], 02 декабря 2013, 17:43

          0

          "Если * прямо работает, шлюзы даже никто не отремонтирует" - немного не понял фразу...

          По Астеру - обновлений не делалось, т.к. поддержку продукта никто не закупал.
          Сейчас в админке толпится кучка сообщений о доступности обновлений.

          • Аватар

            Чумаевский Александр _ [inkara.ru], 03 декабря 2013, 00:43

            0

            Я возил в D-link в сове время много ихнего гавнеца, реально ниразу не починили - держат пару недель потом выдают типа рабочее .

            А потом снова везеш на  пару недель отлежки.

            ---

            Теперь в любой конторе работа начинается - с выбрасывания - D-linka

             

             

    • Аватар

      Walter Andrew [andrew.a.walter], 02 декабря 2013, 17:46

      0

      Софтофон с компа в том же свиче и взятом из пула шлюза номере работает наотлично - и межгород, и прозвон на единственный живой телефон - есть.

      Сейчас один шлюз в сети только подключен. Издеваюсь над ним - сношу настройки, забиваю ручками.
      Посмотрим.
      Я его отправил в ребут, но он уже 10 минут не подымается...

      Так что и с дефолтными настройками что-то не так...

      • Аватар

        Walter Andrew [andrew.a.walter], 02 декабря 2013, 18:47

        0

        Поднялся, но в статусе регистрации номеров - "Proceeding".

        Накатил сущствующий конфиг назад - то же самое...

  • Аватар

    Юмагужин Эдуард [lynx], 02 декабря 2013, 17:20

    0
    Похоже на то что внутренний БП шлюзов помирает.
    • Аватар

      Walter Andrew [andrew.a.walter], 02 декабря 2013, 17:42

      0
      если под БП понимается блок питания, то он а) внешний, б) не у 7-ми же штук одновременно...
      • Аватар

        Юмагужин Эдуард [lynx], 02 декабря 2013, 18:19

        0
        А если в отдельную незагруженную сеть вывести и попробовать в ней прошить, либо тупо шлюз - комп кроссовером, дабы исключить влияние других устройств. Тоже ошибка?
        • Аватар

          Walter Andrew [andrew.a.walter], 02 декабря 2013, 19:10

          0

          за прошивку - подумаем. в сети неблагодарные нифига отзывы за крайнюю прошивку.

          в плане работ сейчас две вещи:
          1. Вытащить такой шлюз напрямую в свич, обслуживающий "голову" и посмотреть, как ему там будет без всей остальной инфры.
          2. Поставить вместо него что-то иное.

          Кстати, рекомендации по выбору войп-шлюзов категорически приветствуются!

          • Аватар

            Чумаевский Александр _ [inkara.ru], 03 декабря 2013, 00:40

            0

            Зачем именно шлюзы , сейчас есть нормальные панасониковские Voip телефоны. За вменяемые деньги ?

            Если шлюзы без головняка - audiocodes

            С головняком - linksys( бывают траблы с факсами, под G729  )

          • Аватар

            Walter Andrew [andrew.a.walter], 03 декабря 2013, 15:06

            0

            по п.1 - ничего не дало - поведение аналогичное вышеописанному...

            занятно, что в моей сети он работает нормально... что-то в сети объекта ему мешает...

            • Аватар

              Пустовит Андрей [apustovit], 03 декабря 2013, 15:21

              0
              Сама сеть вообще как работает? Шары там всякие, печать. Кто там сейчас мастер-браузер сети? Шлюзы и Asterisk по UDP или TCP работают?
              • Аватар

                Walter Andrew [andrew.a.walter], 03 декабря 2013, 16:03

                0
                Сеть-то более-менее нормально работает, ничего не тормозит. Именно компов (Windows) в сети всего 5 штук (шары есть, разумеется), два сетевых принтера.
                Мастер-браузер вроде бы один (я вручную все компы перебрал nbtstat-ом сейчас).

                Шлюзы по-идее по TCP работают. Но не знаю, как уточнить?

                • Аватар

                  Чумаевский Александр _ [inkara.ru], 03 декабря 2013, 23:00

                  0

                  На астериске посмотреть - какие порты TCP или UDP используются - по умолчанию UDP используется.
                  По умолчанию используется порт 5060 для регистрации

                  И 10000-20000 диапазон портов udp для голосового траффика. При звонке используется два порта из этого диапазона один в одну сторону другой в другую.

                  • Аватар

                    Walter Andrew [andrew.a.walter], 04 декабря 2013, 21:21

                    0
                    В букваре на шлюз написано, что УДП - 9000-9015 по-дефолту используется, кстати.

                    Но это не важно. Проблема-то с регистрацией, которая по ТЦП на 5060 происходит. Там лагает.

                    Вайршарк ничего на этом порту особого не показал...
                • Аватар

                  Чумаевский Александр _ [inkara.ru], 03 декабря 2013, 23:06

                  0

                  Если в вашей сети нормлаьно работает  попроубуйте сниффер между роутером и сетью воткнуть посмотреть что там твориться - будет хоть понятно что его валит.

                  Вполне вероятно что там какой-то паразитный трафик - который его валит на смерть ..

                  Может что-то широковещательное ? Может что-то на тех портах которые он слушает ? 

                  Пару раз попадалсись такие экзотические засады когда валилась сеть на глючном железе , изза обычного загрузчика PXE на который никто бы и не подумал, просто вычислили потом , а железо выкинуть пришлось.
                   

                   

          • Аватар

            Алпатов Максим Андреевич [Fastic], 06 декабря 2013, 17:52

            0
            Шлюзы Eltex удовлетворительно работают уже год. В частности, TAU-8IP
  • Аватар

    Walter Andrew [andrew.a.walter], 04 декабря 2013, 21:08

    0

    Вобщем,  итоги дня:
    1. Шлюз, принесённый из объекта в нашу сетку - отлично себя чувствует :)
    2. Шлюз, принесённый от нас в сетку объекта точно так-же болеет (а он вообще другого производителя)...
    3. Уже пошли на принцип: отловили одно здание на объекте из 9-ти, которое при подключении к общей сети так всё, извините, "засирает", что пинги становятся около 1000 мс...
    Будем его потрошить.
    4. Без этого здания пока "летит", хотя чтобы шлюз вошёл в сеть после перезагрузки, всё-равно требуется отключить его от общей сети на немного.

    Понимаю, что задача не решена.

    И вижу тут две отдельных задачи:
    1. Почему всёже при подаче питания шлюзы "ударяются мордой об кирпич" общей сети.
    2. Что в том здании такое творится...

    • Аватар

      Walter Andrew [andrew.a.walter], 07 декабря 2013, 15:00

      0

      Диагноз поставлен:
      1. Таки это был шторм в сети от ростелекомовского бродкаста по IP-TV, т.к. приставки не по IP работают;
      2. А обострение вызвало то, что в головном свитче AT-GS950/24 функция "IGMP snooping" по дефолту выключена.
      А сам этот свитч почему-то не держит настройки при отключении питания...

      Для предотвращения подобного в дальнейшем планируем:
      1.  Поднять VLAN-ы;
      2. Объектовые свитчи заменить на управляемые, например http://mikrotik.ru/katalog/katalog/marshrutizatory/kommutatory/routerboard-250gs;
      3. Заменить головной свитч на что-то более "крепкое";
      4. Перевести работу IP-TV приставок на IP (благо они и так и так могут), чтобы вообще убрать бродкаст из сети;
      5. Поднять QoS для телефонии и IP-TV.

      Шами VoIP-шлюзы пусть пока поработают. Будут выходить из строя - будем заменять.

      Всем спасибо за поддержку!